首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方法,利用深度优先遍历得到源语言的句法解析树的向量化表示,将句法向量与源语言词嵌入相加作为输入,训练翻译模型.在汉-越语言对上进行了实验,相较于基准系统,获得了0.6个BLUE值的提高.实验结果表明,融合句法解析树可以有效提高在资源稀缺情况下机器翻译模型的性能.  相似文献   

2.
该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。  相似文献   

3.
蒋宏飞  李生  张民  赵铁军  杨沐昀 《自动化学报》2009,35(10):1317-1326
基于短语的模型是目前发展相对成熟的一种统计机器翻译(Statistical machine translation, SMT)模型. 但基于短语的模型不包含任何结构信息, 因而缺乏有效的全局调序能力, 同时不能对非连续短语进行建模. 基于句法的模型因具有结构信息而具有解决以上问题的潜力, 因而越来越受到研究者们的重视. 然而现有的大多数基于句法的模型都因严格的句法限制而制约了模型的描述能力. 为突破这种限制并将 基于短语的模型的优点融入到句法模型中, 本文提出一种基于同步树序列替换文法(Synchronous tree sequence substitution grammar, STSSG)的统计机器翻译模型. 在此模型中, 树序列被用作为基本的翻译单元. 在这种框架下, 不满足句法限制的翻译等价对和满足句法限制的翻译等价对都可以融入句法信息并被翻译模型所使用. 从而, 两种模型的优点均得到充分利用. 在2005年度美国国家标准与技术研究所(NIST)举办的机器翻译评比的中文翻译任务语料上的实验表明, 本文提出的模型显著地超过了两个基准系统: 基于短语的翻译系统Moses和一个基于严格树结构的句法翻译模型.  相似文献   

4.
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明,在汉越翻译任务中,融入依存句法图可以提升翻译模型的性能。  相似文献   

5.
刘颖  姜巍 《计算机工程与应用》2012,48(32):98-101,146
对齐短语是决定统计机器翻译系统质量的核心模块。提出基于短语结构树的层次短语模型,这是利用串-树模型的思想对层次短语模型的扩展。基于短语结构树的层次短语模型是在双语对齐短语的基础之上结合英语短语结构树抽取翻译规则,并利用启发式策略获得翻译规则的扩展句法标记。采用翻译规则的统计机器翻译系统在不同数据集上具有稳定的翻译结果,在训练集和测试集的平均BlEU评分高于短语模型和层次短语模型的BLEU评分。  相似文献   

6.
源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子树结构,再根据词对齐信息从可靠性子树结构中抽取初始调序规则集。两种优化策略用于对初始规则集进行优化:基于中英文句法知识规则推导筛选和规则概率阈值控制机制。然后为减少短语内部调序,保证短语局部流利性,采用源语言短语翻译表为约束,使调序控制在短语块之间进行。最后根据获取的优化规则集和短语表约束条件对源语言端句子的句法分析树进行预调序。在基于NIST 2005和2008测试数据集上的汉英统计机器翻译实验结果表明,所提基于N-best句法知识增强的统计机器翻译预调序方法相对于基线系统,自动评价准则BLEU得分分别提高了0.68和0.83。  相似文献   

7.
为解决基于短语统计机器翻译存在的调序能力不足的问题,尝试利用句法分析器对基于短语统计机器翻译的输入汉语句子进行句法分析,然后利用转换器进行调序操作,并对部分类型短语进行预先翻译,然后再利用基于短语统计机器翻译的解码器进行翻译。重点测试了汉语中“的”字引导的复杂定语调序、介词短语、特定搭配短语、方位词短语的调序及预翻译产生的效果。实验结果表明,这些调序及预翻译操作可以显著地提高基于短语的统计机器翻译的英文译文结果的BLEU值。  相似文献   

8.
基于句法的统计机器翻译综述   总被引:1,自引:0,他引:1  
本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类 基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,并对比了各个模型的优点和缺点。最后我们对基于句法的统计机器翻译进行了总结,指出设计句法模型时要注意的问题,并对未来的发展趋势进行了预测。  相似文献   

9.
2005统计机器翻译研讨班研究报告   总被引:4,自引:1,他引:4  
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。  相似文献   

10.
在融合翻译记忆和统计机器翻译的整合式模型的基础上,该文提出在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中,动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息,指导基于短语的翻译模型进行解码。实验结果表明该方法显著提高了翻译质量: 与翻译记忆系统相比,该方法提高了21.15个BLEU值,降低了21.47个TER值;与基于短语的翻译系统相比,该方法提高了5.16个BLEU值,降低了4.05个TER值。  相似文献   

11.
统计机器翻译综述   总被引:21,自引:9,他引:21  
本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。  相似文献   

12.
In this paper, we develop an approach called syntax-based reordering (SBR) to handling the fundamental problem of word ordering for statistical machine translation (SMT). We propose to alleviate the word order challenge including morpho-syntactical and statistical information in the context of a pre-translation reordering framework aimed at capturing short- and long-distance word distortion dependencies. We examine the proposed approach from the theoretical and experimental points of view discussing and analyzing its advantages and limitations in comparison with some of the state-of-the-art reordering methods.In the final part of the paper, we describe the results of applying the syntax-based model to translation tasks with a great need for reordering (Chinese-to-English and Arabic-to-English). The experiments are carried out on standard phrase-based and alternative N-gram-based SMT systems. We first investigate sparse training data scenarios, in which the translation and reordering models are trained on a sparse bilingual data, then scaling the method to a large training set and demonstrating that the improvement in terms of translation quality is maintained.  相似文献   

13.
We present a collection of parallel treebanks that have been automatically aligned on both the terminal and the non-terminal constituent level for use in syntax-based machine translation. We describe how they were constructed and applied to a syntax- and example-based machine translation system called Parse and Corpus-Based Machine Translation (PaCo-MT). For the language pair Dutch to English, we present non-terminal alignment evaluation scores for a variety of tree alignment approaches. Finally, based on the parallel treebanks created by these approaches, we evaluate the MT system itself and compare the scores with those of Moses, a current state-of-the-art statistical MT system, when trained on the same data.  相似文献   

14.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

15.
基于中心语块扩展的短语对齐   总被引:1,自引:0,他引:1  
短语等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用.提出了一种新的短语对齐方法,使用可信度较高的词典对齐结果来抽取源语言短语的译文中心语块,依据译文扩展可信度来确定源语言短语的译文统计边界.从译文中心语块出发,结合译文统计边界生成源语言短语的所有候选译文.对候选译文进行评价,从中选出最可靠的译文.同时利用贪心算法消除源语言短语译文边界之间的交叉冲突.实验结果表明,所提出的方法在开放测试中其正确率达到了82.76%,性能好于其他方法.  相似文献   

16.
杨南  李沐 《中文信息学报》2016,30(3):103-110
长距离调序是统计机器翻译的一个主要挑战。之前的研究工作表明预调序是解决这个问题的一个可能的途径。在该工作中,我们沿着预调序这个研究方向,将神经网络建模结合到线性排序的框架之下,提出了一个基于神经网络的预调序模型。这个的预调序模型能够利用从海量未标注数据中抽取的句法和语意信息,从而更好的对不同语言之间的语序差异进行预测。我们在中文到英文以及日文到英文的机器翻译任务上进行了实验,实验结果表明了该方法的有效性。
  相似文献   

17.
基于分层语块分析的统计翻译研究   总被引:1,自引:0,他引:1  
本文描述了一个基于分层语块分析的统计翻译模型。该模型在形式上不仅符合同步上下文无关文法,而且融合了基于条件随机场的英文语块分析知识,因此基于分层语块分析的统计翻译模型做到了将句法翻译模型和短语翻译模型有效地结合。该系统的解码算法改进了线图分析的CKY算法,融入了线性的N-gram语言模型。目前,本文主要针对中文-英文的口语翻译进行了一系列实验,并以国际口语评测IWSLT(International Workshop on Spoken Language Translation)为标准,在2005年的评测测试集上,BLEU和NIST得分均比统计短语翻译系统有所提高。  相似文献   

18.
Current statistical machine translation systems are mainly based on statistical word lexicons. However, these models are usually context-independent, therefore, the disambiguation of the translation of a source word must be carried out using other probabilistic distributions (distortion distributions and statistical language models). One efficient way to add contextual information to the statistical lexicons is based on maximum entropy modeling. In that framework, the context is introduced through feature functions that allow us to automatically learn context-dependent lexicon models.In a first approach, maximum entropy modeling is carried out after a process of learning standard statistical models (alignment and lexicon). In a second approach, the maximum entropy modeling is integrated in the expectation-maximization process of learning standard statistical models.Experimental results were obtained for two well-known tasks, the French–English Canadian Parliament Hansards task and the German–English Verbmobil task. These results proved that the use of maximum entropy models in both approaches, can help to improve the performance of the statistical translation systems.This work has been partially supported by the European Union under grant IST-2001-32091 and by the Spanish CICYT under project TIC-2003-08681-C02-02. The experiments on the Verbmobil task were done when the first author was a visiting scientist at RWTH Aachen-Germany.Editors: Dan Roth and Pascale Fung  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号