首页 | 官方网站   微博 | 高级检索  
     

利用上下文信息的统计机器翻译领域自适应
引用本文:曹杰,吕雅娟,苏劲松,刘群.利用上下文信息的统计机器翻译领域自适应[J].中文信息学报,2010,24(6):50-57.
作者姓名:曹杰  吕雅娟  苏劲松  刘群
作者单位:中国科学院 计算技术研究所,中国科学院 智能信息处理重点实验室,北京 100190
基金项目:国家自然科学基金资助项目
摘    要:统计机器翻译系统用于翻译领域文本时,常常会遇到跨领域的问题 当待翻译文本与训练语料来自同一领域时,通常会得到较好的翻译效果;当领域差别较大时,翻译质量会明显下降。某个特定领域的双语平行语料是有限的,相对来说,领域混杂的平行语料和特定领域的单语文本更容易获得。该文充分利用这一特点,提出了一种包含领域信息的翻译概率计算模型,该模型联合使用混合领域双语和特定领域源语言单语进行机器翻译领域自适应。实验显示,自适应模型在IWSLT机器翻译评测3个测试集上均比Baseline有提高,证明了该文方法的有效性。

关 键 词:统计机器翻译  领域自适应  上下文信息  

SMT Domain Adaptation Based on Monolingual Context Information
CAO Jie,LV Yajuan,SU Jinsong,LIU Qun.SMT Domain Adaptation Based on Monolingual Context Information[J].Journal of Chinese Information Processing,2010,24(6):50-57.
Authors:CAO Jie  LV Yajuan  SU Jinsong  LIU Qun
Affiliation:Key Laboratory of Intelligent Information Processing, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing 100190, China
Abstract:Domain adaptation problem will arise when statistical machine translation (SMT) system is used to translate domain-specific texts. When the texts to be translated and the training data come from the same domain, SMT system can achieve good performance. Otherwise, the translation quality will degrade dramatically. In general, domain-specific parallel corpus is limited, while domain-mixed parallel corpus and domain-specific monolingual corpus are easy to obtain. According to the fact, this paper proposed a new translation model which utilized domain-mixed parallel corpus and domain-specific monolingual corpus to improve the domain translation quality. Experiments show that the proposed method improves translation performance in three IWSLT evaluation tests significantly.
Key wordsstatistical machine translation; domain adaptation; context information
Keywords:statistical machine translation  domain adaptation  context information
 
        
 
        
 
        
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号