首页 | 官方网站   微博 | 高级检索  
     

基于RoBERTa-wwm-ext与混淆集的中文文本校对模型
引用本文:徐久珺,黄国栋,马传香.基于RoBERTa-wwm-ext与混淆集的中文文本校对模型[J].湖北大学学报(自然科学版),2023(5):712-718.
作者姓名:徐久珺  黄国栋  马传香
作者单位:1. 湖北大学计算机与信息工程学院;2. 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心)
基金项目:国家自然科学基金(62102136)资助;
摘    要:中文文本自动校对技术是自然语言处理领域中的主要任务之一.针对中文文本中字粒度级别的错误(音似、形似和义似替换错误),提出一种基于RoBERTa-wwm-ext与混淆集的中文文本校对模型.该模型在RoBERTa-wwm-ext结构的基础上,利用transformer结构中的encoder机制读取整段中文文本序列,然后通过softmax函数计算当前字符权重分布来判断该字符是否错误,并在纠错任务中引入混淆集,使用混淆集找到该错字对应的候选字符,最后结合掩码语言模型给出的修改建议,完成文本校对.在SIGHAN2014与SIGHAN2015中文拼写检查数据集上,设计字粒度级别的中文文本校对实验,对比模型性能.实验结果表明,与当前主流的中文文本校对模型相比,该模型的中文文本校对效果表现更佳,文本校对的准确率、召回率、F1值均有所提升.

关 键 词:自然语言处理  掩码语言模型  RoBERTa-wwm-ext  混淆集  transformer结构
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号