基于RoBERTa-wwm-ext与混淆集的中文文本校对模型 |
| |
引用本文: | 徐久珺,黄国栋,马传香.基于RoBERTa-wwm-ext与混淆集的中文文本校对模型[J].湖北大学学报(自然科学版),2023(5):712-718. |
| |
作者姓名: | 徐久珺 黄国栋 马传香 |
| |
作者单位: | 1. 湖北大学计算机与信息工程学院;2. 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心) |
| |
基金项目: | 国家自然科学基金(62102136)资助; |
| |
摘 要: | 中文文本自动校对技术是自然语言处理领域中的主要任务之一.针对中文文本中字粒度级别的错误(音似、形似和义似替换错误),提出一种基于RoBERTa-wwm-ext与混淆集的中文文本校对模型.该模型在RoBERTa-wwm-ext结构的基础上,利用transformer结构中的encoder机制读取整段中文文本序列,然后通过softmax函数计算当前字符权重分布来判断该字符是否错误,并在纠错任务中引入混淆集,使用混淆集找到该错字对应的候选字符,最后结合掩码语言模型给出的修改建议,完成文本校对.在SIGHAN2014与SIGHAN2015中文拼写检查数据集上,设计字粒度级别的中文文本校对实验,对比模型性能.实验结果表明,与当前主流的中文文本校对模型相比,该模型的中文文本校对效果表现更佳,文本校对的准确率、召回率、F1值均有所提升.
|
关 键 词: | 自然语言处理 掩码语言模型 RoBERTa-wwm-ext 混淆集 transformer结构 |
|