基于RoBERTa-wwm-ext与混淆集的中文文本校对模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于RoBERTa-wwm-ext与混淆集的中文文本校对模型

引用本文：	徐久珺,黄国栋,马传香.基于RoBERTa-wwm-ext与混淆集的中文文本校对模型[J].湖北大学学报(自然科学版),2023(5):712-718.

作者姓名：	徐久珺黄国栋马传香

作者单位：	1. 湖北大学计算机与信息工程学院;2. 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心)

基金项目：	国家自然科学基金(62102136)资助；

摘要：	中文文本自动校对技术是自然语言处理领域中的主要任务之一.针对中文文本中字粒度级别的错误(音似、形似和义似替换错误),提出一种基于RoBERTa-wwm-ext与混淆集的中文文本校对模型.该模型在RoBERTa-wwm-ext结构的基础上，利用transformer结构中的encoder机制读取整段中文文本序列，然后通过softmax函数计算当前字符权重分布来判断该字符是否错误，并在纠错任务中引入混淆集，使用混淆集找到该错字对应的候选字符，最后结合掩码语言模型给出的修改建议，完成文本校对.在SIGHAN2014与SIGHAN2015中文拼写检查数据集上，设计字粒度级别的中文文本校对实验，对比模型性能.实验结果表明，与当前主流的中文文本校对模型相比，该模型的中文文本校对效果表现更佳，文本校对的准确率、召回率、F1值均有所提升.
关键词：	自然语言处理掩码语言模型 RoBERTa-wwm-ext 混淆集 transformer结构

设为首页 | 免责声明 | 关于勤云 | 加入收藏