首页 | 官方网站   微博 | 高级检索  
     

一种基于词素媒介的汉蒙统计机器翻译方法
引用本文:杨振新,李 淼,陈 雷,卫林钰,陈 晟,孙 凯.一种基于词素媒介的汉蒙统计机器翻译方法[J].中文信息学报,2017,31(4):57-62.
作者姓名:杨振新  李 淼  陈 雷  卫林钰  陈 晟  孙 凯
作者单位:1. 中国科学技术大学 自动化系, 安徽 合肥 230027;
2. 中国科学院 合肥智能机械研究所, 安徽 合肥 230031
基金项目:国家自然科学基金(61502445,61572462);中国科学院信息化专项(XXH12504-1-10)
摘    要:汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。

关 键 词:中间语言  词素  统计机器翻译  短语翻译表  调序模型  

A Morpheme-Based Approach for Chinese-Mongolian SMT
YANG Zhenxin,LI Miao,CHEN Lei,WEI Linyu,CHEN Sheng,SUN Kai.A Morpheme-Based Approach for Chinese-Mongolian SMT[J].Journal of Chinese Information Processing,2017,31(4):57-62.
Authors:YANG Zhenxin  LI Miao  CHEN Lei  WEI Linyu  CHEN Sheng  SUN Kai
Affiliation:1. Department of Automation, University of Science and Technology of China, Hefei, Anhui 230027, China;
2. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei, Anhui 230031, China
Abstract:To deal with the morphological difference between Chinese and Mongolian, this paper proposes a method of adopting morpheme of Mongolian as the pivot to Chinese-Mongolian statistical machine translation (SMT). First, we segment Mongolian word into morphemes, achieving a balance in the morphology of the language pair. Then, we treat Mongolian morpheme as pivot language and construct two new SMT systems: Chinese-Morpheme SMT and Morpheme-Mongolian SMT. New translation knowledge including phrase translation table and reordering model is introduced for these two SMT systems. Finally, we use multiple decoding paths and multiple features to incorporate the new translation knowledge. Experimental results demonstrate our method can improve the translation quality significantly.
Keywords:pivot language  morpheme  statistical machine translation  phrase translation table  reordering model  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号