首页 | 官方网站   微博 | 高级检索  
     

基于BERT-Encoder和数据增强的语法纠错模型
引用本文:黄国栋,徐久珺,马传香.基于BERT-Encoder和数据增强的语法纠错模型[J].湖北大学学报(自然科学版),2023(5):719-725.
作者姓名:黄国栋  徐久珺  马传香
作者单位:1. 湖北大学计算机与信息工程学院;2. 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心)
基金项目:国家自然科学基金(61902114)资助;
摘    要:语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用BERT学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用MaxMatch Scorer作为评价指标,F0.5相比基线模型提升了9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性.

关 键 词:中文语法纠错  机器翻译  BERT-Encoder  数据增强
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号