首页 | 官方网站   微博 | 高级检索  
     

统计机器翻译中多分词结果的融合
引用本文:马永亮,赵铁军.统计机器翻译中多分词结果的融合[J].中文信息学报,2010,24(1):104-110.
作者姓名:马永亮  赵铁军
作者单位:哈尔滨工业大学 教育部—微软语言语音重点实验室,黑龙江 哈尔滨 150001
基金项目:国家自然科学基金资助项目(60736014);;国家863计划资助项目(2006AA010108)
摘    要:汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化。在该文中,从另外的角度研究中文分词对统计机器翻译的影响。基本思想是利用多分词结果作为额外的语言知识,提出一种简单而有效的方法使这些知识为统计机器翻译所用,使用了一系列策略融合多分词结果,并将融合结果应用在统计机器翻译系统中。实验结果表明这种方法比没有使用多分词结果融合的系统提高1.89个BLEU分数。

关 键 词:人工智能  机器翻译  统计机器翻译  中文分词  翻译模型特征插值  多策略特征融合  

Combining Multiple Chinese Word Segmentation Results for Statistical Machine Translation
MA Yongliang,ZHAO Tiejun.Combining Multiple Chinese Word Segmentation Results for Statistical Machine Translation[J].Journal of Chinese Information Processing,2010,24(1):104-110.
Authors:MA Yongliang  ZHAO Tiejun
Affiliation:MOE-MS Key Laboratory of Natural Language Processing and Speech,
Harbin Institute of Technology, Harbin, Heilongjiang 150001, China
Abstract:In Chinese-English statistical machine translation(SMT),Chinese texts usually demands Chinese word segmentation(CWS) to identify the words in a sentence.However,CWS is not developed for SMT and hence its results are not necessarily optimal for SMT.In recent years,many investigations have been performed concerning making CWS suitable for SMT,but we explore it from another direction.In this paper,our basic idea is to use multiple CWS results as additional language knowledge source and we present a simple and ...
Keywords:artificial intelligence  machine translation  statistical machine translation  Chinese word segmentation  feature interpolation of translation model  multi-strategy feature blending of translation model  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号