首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
汉蒙统计机器翻译中的调序方法研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法; 同时介绍了调序规则和调序算法的设计;最后给出了具体实验。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

2.
该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。  相似文献   

3.
基于短语的汉蒙统计机器翻译研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于短语的统计机器翻译是当前统计机器翻译的主流方法。研究了利用现有技术和资源搭建一个基于短语的汉蒙机器翻译系统的方法,并且构建了一个汉蒙机器翻译的自动评价平台,在此基础上利用词典和蒙古语形态学信息来提高了翻译系统的性能。  相似文献   

4.
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。  相似文献   

5.
汉蒙机器翻译系统中量词翻译研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着大量的汉蒙量词翻译错误。该文对汉语和蒙古语中的量词翻译进行研究的基础上,提出了使用量词表进行翻译,总结出了一对一、多对一、一对零和一对多等汉语量词到蒙语量词翻译的对应关系,给出了各种对应中的翻译方法,通过实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

6.
为解决基于短语统计机器翻译存在的调序能力不足的问题,尝试利用句法分析器对基于短语统计机器翻译的输入汉语句子进行句法分析,然后利用转换器进行调序操作,并对部分类型短语进行预先翻译,然后再利用基于短语统计机器翻译的解码器进行翻译。重点测试了汉语中“的”字引导的复杂定语调序、介词短语、特定搭配短语、方位词短语的调序及预翻译产生的效果。实验结果表明,这些调序及预翻译操作可以显著地提高基于短语的统计机器翻译的英文译文结果的BLEU值。  相似文献   

7.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

8.
机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉蒙机构名翻译任务上,基于transformer神经网络的汉蒙机构名翻译系统优于传统的基于语块的汉蒙机构名翻译系统,BLEU4值提高了0.039。  相似文献   

9.
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。  相似文献   

10.
自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有的依赖于大规模语料和语言学知识的调序方法难以取得良好效果。该文对已有的相关研究进行了分析,提出了在有限语料条件下的汉蒙统计机器翻译调序方法。该方法依据语言学知识获取对译文语序影响显著的短语类型,研究这些短语类型的调序方案,并融入已有的调序模型实现调序的优化。实验表明该方法在有限语料条件下的效果提升显著。  相似文献   

11.
The pivot language approach for statistical machine translation (SMT) is a good method to break the resource bottleneck for certain language pairs. However, in the implementation of conventional approaches, pivot- side context information is far from fully utilized, resulting in erroneous estimations of translation probabilities. In this study, we propose two topic-aware pivot language approaches to use different levels of pivot-side context. The first method takes advantage of document-level context by assuming that the bridged phrase pairs should be similar in the document-level topic distributions. The second method focuses on the effect of local context. Central to this approach are that the phrase sense can be reflected by local context in the form of probabilistic topics, and that bridged phrase pairs should be compatible in the latent sense distributions. Then, we build an interpolated model bringing the above methods together to further enhance the system performance. Experimental results on French-Spanish and French-German translations using English as the pivot language demonstrate the effectiveness of topic-based context in pivot-based SMT.  相似文献   

12.
汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化。在该文中,从另外的角度研究中文分词对统计机器翻译的影响。基本思想是利用多分词结果作为额外的语言知识,提出一种简单而有效的方法使这些知识为统计机器翻译所用,使用了一系列策略融合多分词结果,并将融合结果应用在统计机器翻译系统中。实验结果表明这种方法比没有使用多分词结果融合的系统提高1.89个BLEU分数。  相似文献   

13.
该文对近年来统计机器翻译研究中出现的多种一致性解码方法进行比较与分析。根据现有一致性解码方法对(单个或多个)统计机器翻译系统输出结果使用方式的不同,首先将其归纳为两大类 基于翻译假设重排序的一致性解码方法和基于翻译假设重组合的一致性解码方法;然后,针对每类方法,分别回顾其最具代表性的研究工作;最后,通过在大规模中—英机器翻译评测数据上的对比实验,对该文中介绍的多种方法进行比较,并对该课题未来研究方向进行展望。  相似文献   

14.
汉语成语是汉语的精华,拥有特有的语言形式,并经常出现在汉语中。但是由于汉英统计机器翻译训练语料中成语的稀疏性和现今大多机器翻译系统并没有对成语进行特殊的处理和研究,在汉英机器翻译中成语的翻译并不理想。针对该问题,本文提出了基于复述技术的两种方法来提高汉英统计机器翻译系统中成语翻译的能力。方法1: 测试集成语复述替换;方法2: 训练集成语复述替换。实验结果表明,方法1可以解决成语未登录词问题,提高成语翻译能力。方法2可以解决训练语料中成语稀疏问题,改善翻译训练模型。  相似文献   

15.
为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,该文提出了一种新的基于中介语的翻译方法,称为Transfer-Triangulation方法。该方法可以在基于中介语的翻译过程中,结合传统的Transfer方法和Triangulation方法的优点,利用解码中介语短语的方法改进短语表。该文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实验结果表明,相比于传统的基于中介语方法的基线系统,该方法显著提高了翻译性能。  相似文献   

16.
Machine Translation - We investigated multiple pivot approaches for the Japanese and Indonesian (Ja–Id) language pair in phrase-based statistical machine translation (SMT). We used four...  相似文献   

17.
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。  相似文献   

18.
在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于短语的统计机器翻译模型来构建拼写校对模型,然后对测试文本进行校对。实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识。使用该方法对包含1 026个正确词、1 102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可达97.55%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号