首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
为解决基于短语统计机器翻译存在的调序能力不足的问题,尝试利用句法分析器对基于短语统计机器翻译的输入汉语句子进行句法分析,然后利用转换器进行调序操作,并对部分类型短语进行预先翻译,然后再利用基于短语统计机器翻译的解码器进行翻译。重点测试了汉语中“的”字引导的复杂定语调序、介词短语、特定搭配短语、方位词短语的调序及预翻译产生的效果。实验结果表明,这些调序及预翻译操作可以显著地提高基于短语的统计机器翻译的英文译文结果的BLEU值。  相似文献   

2.
近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其成为未知短语;另一方面,短语表中大量的短语无法得到充分的利用。为此,我们提出了基于短语模糊匹配和句子扩展的翻译方法。对于不存在于短语表中的短语,通过模糊匹配的办法,寻找与其相似的短语,然后将所有相似短语用于替换原短语,从而生成扩展句子,在此基础上对所有扩展的句子进行翻译。由于并不是所有扩展后的句子都能提高原始句子的翻译效果,因此,我们在句子翻译完成后设置了组合分类器用于选择最优翻译结果。实验证明,这种方法可以有效地提高翻译系统的译文质量。  相似文献   

3.
随着统计机器翻译系统训练语料的不断增加,长句子的数量越来越多,如何有效地利用长句子中的信息改进翻译质量是统计机器翻译系统面临的主要问题之一。该文基于Xu的句子切分模型,提出了一种在训练阶段切分长句子的方法,该方法利用自动获取的边界词概率和切分后子句对的长度比例来指导切分过程,从而得到更符合语义信息的句子切分结果。在NIST测试集上的实验结果表明,该方法获得了最大0.5个BLEU值的提升。  相似文献   

4.
针对汉语—维吾尔语的统计机器翻译系统中存在的语义无关性问题,提出基于神经网络机器翻译方法的双语关联度优化模型。该模型利用注意力机制捕获词对齐信息,引入双语短语间的语义相关性和内部词汇匹配度,预测双语短语的生成概率并将其作为双语关联度,以优化统计翻译模型中的短语翻译得分。在第十一届全国机器翻译研讨会(CWMT 2015)汉维公开机器翻译数据集上的实验结果表明,与基线系统相比,在使用较小规模的训练数据和词汇表的条件下,所提方法可以有效地同时提高短语级别和句子级别的机器翻译任务性能,分别获得最高2.49和0.59的BLEU值提升。  相似文献   

5.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

6.
目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。  相似文献   

7.
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。  相似文献   

8.
上下文信息对于统计机器翻译(Statistical Machine Translation,SMT)中的规则选择是很重要的,但是之前的SMT模型只利用了句子内部的上下文信息,没有利用到整个篇章的上下文信息。该文提出了一种利用篇章上下文信息的方法来提高规则选择的准确性,从而提高翻译的质量。首先利用向量空间模型获得训练语料的文档和测试集中文档的相似度,然后把相似度作为一个新的特征加入到短语模型中。实验结果表明,在英语到汉语的翻译工作中,该方法可以显著提高翻译质量。在NIST-08和CWMT-08两个测试集上BLEU值都有显著的提高。  相似文献   

9.
源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子树结构,再根据词对齐信息从可靠性子树结构中抽取初始调序规则集。两种优化策略用于对初始规则集进行优化:基于中英文句法知识规则推导筛选和规则概率阈值控制机制。然后为减少短语内部调序,保证短语局部流利性,采用源语言短语翻译表为约束,使调序控制在短语块之间进行。最后根据获取的优化规则集和短语表约束条件对源语言端句子的句法分析树进行预调序。在基于NIST 2005和2008测试数据集上的汉英统计机器翻译实验结果表明,所提基于N-best句法知识增强的统计机器翻译预调序方法相对于基线系统,自动评价准则BLEU得分分别提高了0.68和0.83。  相似文献   

10.
汉蒙统计机器翻译中的调序方法研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法; 同时介绍了调序规则和调序算法的设计;最后给出了具体实验。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

11.
该文研究了一种规则和统计相结合的中文地址翻译方法。首先利用区划词典、关键字词典和模式表进行分词及词语类型标注,并根据词语类型划分地址单元;然后,以统计翻译模型为基础结合少量的翻译词典和人工模板对地址单元进行翻译;最后,将地址单元的翻译结果以逆序粘合在一起,形成最终译文。实验表明,利用该方法翻译中文地址能够取得较好地翻译效果。  相似文献   

12.
神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提。双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究。该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关信息,并简单概括参加团队所提交的系统,最后对当前工作进行总结并展望未来的工作。  相似文献   

13.
短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于“松弛尺度”的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松“完全相容”的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。  相似文献   

14.
维汉机器翻译未登录词识别研究   总被引:1,自引:1,他引:0  
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。  相似文献   

15.
刘颖  姜巍 《计算机工程与应用》2012,48(32):98-101,146
对齐短语是决定统计机器翻译系统质量的核心模块。提出基于短语结构树的层次短语模型,这是利用串-树模型的思想对层次短语模型的扩展。基于短语结构树的层次短语模型是在双语对齐短语的基础之上结合英语短语结构树抽取翻译规则,并利用启发式策略获得翻译规则的扩展句法标记。采用翻译规则的统计机器翻译系统在不同数据集上具有稳定的翻译结果,在训练集和测试集的平均BlEU评分高于短语模型和层次短语模型的BLEU评分。  相似文献   

16.
基于神经元网络的汉语组块自动划分   总被引:2,自引:0,他引:2  
王荣波  池哲儒 《计算机工程》2004,30(20):133-135
介绍一种基于三层神经元网络的汉语组块自动划分方法。输入信息为句子中每一个字本身及与前后字组合的划分情况,输出为句子中每个字的划分结果。对于一个新输入的汉语句子,在该方法中。并不对句子进行切词,这是与别的组块分析方法的不同之处。实验表明,该方法是可行的。也是有效的。  相似文献   

17.
提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost-SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用AdaBoos-SVM集成算法实现的模型性能更佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号