首页 | 官方网站   微博 | 高级检索  
     

神经机器翻译中数据泛化与短语生成方法研究
引用本文:李强,韩雅倩,肖桐,朱靖波.神经机器翻译中数据泛化与短语生成方法研究[J].中文信息学报,2018,32(8):42-52.
作者姓名:李强  韩雅倩  肖桐  朱靖波
作者单位:1.东北大学 自然语言处理实验室,辽宁 沈阳 110000;
2.沈阳雅译网络技术有限公司,辽宁 沈阳 110000
基金项目:国家自然科学基金(61672138,61432013,61732005)
摘    要:该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。

关 键 词:自然语言处理  神经机器翻译  数据泛化  短语生成  

Data Generalization and Phrase Generation Methods in Neural Machine Translation
LI Qiang,HAN Yaqian,XIAO Tong,ZHU Jingbo.Data Generalization and Phrase Generation Methods in Neural Machine Translation[J].Journal of Chinese Information Processing,2018,32(8):42-52.
Authors:LI Qiang  HAN Yaqian  XIAO Tong  ZHU Jingbo
Affiliation:1.NLP Lab, Northeastern University, Shenyang, Liaoning 110000, China;
2.Shenyang Yatrans Network Technology Co. Ltd., Shenyang, Liaoning 110000, China
Abstract:This paper studies data generalization and phrase generation methods in neural machine translation. Data generalization method has been proposed to address the out-of-vocabulary and low-frequency vocabulary problems based on the subword method. Parallel consistency checking and decoding optimization methods have been proposed for our generalization method. As standard neural machine translation is word-based method, a phrase generation method is further proposed and the generated phrases are incorporated into our neural machine translation systems to improve the translation performance. Experiments show significant improvements of 1.3 and 1.2 BLEU points on Chinese-to-English and English-to-Chinese translation tasks, respectively.
Keywords:natural language processing  neural machine translation  data generalization  phrase generation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号