首页 | 官方网站   微博 | 高级检索  
     

面向小语种机器翻译的平行语料库构建方法
引用本文:刘妍,熊德意.面向小语种机器翻译的平行语料库构建方法[J].计算机科学,2022,49(1):41-46.
作者姓名:刘妍  熊德意
作者单位:天津大学智能与计算学部 天津 300350
基金项目:国家重点研发计划(2019QY1802)。
摘    要:神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量。除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态。现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性。采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法。文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果。在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方法、建议的总结。最终,成功构建了波斯语到汉语、印地语到汉语、印度尼西亚语到汉语各50万条高质量平行语料。实验结果表明,所构建的平行语料库有较好的质量,提高了小语种神经机器翻译模型的训练效果。

关 键 词:平行语料库  小语种  神经机器翻译模型

Construction Method of Parallel Corpus for Minority Language Machine Translation
LIU Yan,XIONG De-yi.Construction Method of Parallel Corpus for Minority Language Machine Translation[J].Computer Science,2022,49(1):41-46.
Authors:LIU Yan  XIONG De-yi
Affiliation:(College of Intelligence and Computing,Tianjin University,Tianjin 300350,China)
Abstract:
Keywords:Parallel corpus  Minority language  Neural machine translation
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号