首页 | 官方网站   微博 | 高级检索  
     

利用句法短语改善统计机器翻译性能
引用本文:孙水华,丁鹏,黄德根.利用句法短语改善统计机器翻译性能[J].中文信息学报,2015,29(2):95-102.
作者姓名:孙水华  丁鹏  黄德根
作者单位:1. 大连理工大学 计算机科学与技术学院,辽宁 大连 116024;
2. 福建工程学院 信息科学与工程学院,福建 福州 350118)
基金项目:跨语言信息检索中的机器翻译研究(61173100,61173101,61272375)
摘    要:短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语。该文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优。通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能。结果表明: 三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点。

关 键 词:统计机器翻译  EM算法  双语句法短语  

An Improved Syntactic Phrase Extraction Approach for Statistical Machine Translation
SUN Shuihua;DING Peng;HUANG Degen.An Improved Syntactic Phrase Extraction Approach for Statistical Machine Translation[J].Journal of Chinese Information Processing,2015,29(2):95-102.
Authors:SUN Shuihua;DING Peng;HUANG Degen
Affiliation:1. School of Computer Science and Technology, Dalian University of Technology,Dalian, Liaoning 116024, China;
2. College of Information and Engineering, Fujian Uniuersity of Technology, Fuzhou, Fujian 350118, China
Abstract:The phrase table lies at the core of a phrase-based statistical machine translation system. The extracted phrase table based on heuristic methods is affected by incorrect word alignments, the unaligned words, and the absence of syntactic information. This paper presents a bilingual syntactic phrases extraction method based on the Expectation-maximization algorithm,which can optimize all parameters by iteratiions. Three techniques are examined to integrate bilingual syntactic phrases to the phrase-based machine translation system: direct augmentation of bilingual phrass,adding new features and re-training. Experiments show that all the three methods improve the BLEU score to varying degrees,with the top increase of 0.64 BLEU score by adding new features.
Keywords:statistical machine translation  Expectation-maximization algorithm  bilingual syntactic phrases  
本文献已被 CNKI 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号