首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer.首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题.实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.16,朝—中语向BLEU值提升了2.73,QE分数下降了2.82.  相似文献   

2.
机器翻译质量评估(QE)是在不依赖参考译文的条件下,自动对机器翻译译文进行评估。当前人工标注数据稀缺,使得神经QE模型在自动检测译文错误方面还存在较大问题。为了更好地利用规模庞大但却缺少人工标注信息的平行语料,该文提出一种基于平行语料的翻译知识迁移方案。首先采用跨语言预训练模型XLM-R构建神经质量评估基线系统,在此基础上提出三种预训练策略增强XLM-R的双语语义关联能力。该文方法在WMT 2017和WMT 2019的英德翻译质量评估数据集上都达到了最高性能。  相似文献   

3.
基于混合策略的汉英双向机器翻译系统的设计   总被引:1,自引:0,他引:1  
本文对于机器翻译方法中的基于规则的方法、基于模板的方法及基于实例的方法进行了比较;对于完全句法分析和浅层句法分析方法也进行了分析.然后介绍了将上述方法结合起来的汉英双向机器翻译系统的设计思想及工作流程.基于混合策略的目的是为了提高汉英双向机器翻译系统的译文质量.实验结果表明,本文提出的设计思想对于机器翻译译文质量的提高具有良好的效果.基于模板及实例方法对于译文质量提高的贡献率为口语为15%,篇章翻译为10%.  相似文献   

4.
为改善机器翻译质量,促进国际交流沟通。研究基于数据挖掘(Data mining, DM)与语言特征,构建了智慧机器翻译纠错系统。研究对多个置信度特征进行组合,利用最大熵分类器对译文错误进行类别分类。然后基于复述抽取方法对译文进行校正,改善机器翻译质量。实验得到,纠错系统干预后,机器翻译的平均ELEU值为96.83%,较改进前提高了14.47%。数据表明,纠错系统能够有效识别机器翻译中的错误并进行校正,从而改善译文质量,作为国际沟通的强有力支持。  相似文献   

5.
OpenE:一种基于n-gram共现的自动机器翻译评测方法   总被引:5,自引:0,他引:5  
在机器翻译研究领域中,评测工作发挥着重要的作用,它不仅仅是简单地对各个系统输出结果进行比较,它还对关键技术的发展起到了促进作用。译文质量的评测工作长期以来一直以人工的方式进行。随着机器翻译研究发展的需要,自动的译文评测研究已经成为机器翻译研究中的一个重要课题。本文讨论了基于n-gram共现的自动机器翻译评测框架,介绍了BLEU、NIST、OpenE三种自动评价方法,并通过实验详细分析了三种方法的优缺点。其中的OpenE采用了本文提出了一种新的片断信息量计算方法。它有效地利用了一个局部语料库(参考译文库)和全局语料库(目标语句子库)。实验结果表明这种方法对于机器翻译评价来说是比较有效的。  相似文献   

6.
本文将XML转换机制应用于机器翻译的译文生成阶段,设计了一种基于XML的中间表示结构,并基于该中间表示和XSLT转换机制设计了一种基于规则的通用译文生成平台。最后,将基于XML的译文生成技术应用于汉英机器翻译中,实现了一个汉英转换生成实验系统SUNGEN,为不断改进译文质量提供了一个方便高效的实验平台。  相似文献   

7.
译文质量估计作为机器翻译中的一项重要任务,在机器翻译的发展和应用中发挥着重要的作用。该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计。该模型由Transformer瓶颈层和双向长短时记忆网络组成,Transformer瓶颈层参数利用双语平行语料进行初步优化,模型所有参数利用译文质量估计语料进行联合优化和微调。测试时,将待评估的机器译文使用强制学习和特殊遮挡与源语言句子一起输入联合神经网络模型以预测译文的质量。在CWMT18译文质量估计评测任务数据集上的实验结果表明,该模型显著优于在相同规模训练语料下的对比模型,和在超大规模双语语料下的最优对比模型性能相当。  相似文献   

8.
表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术上则是机器翻译系统采用的方法论问题。通常,机器翻译的过程可以简化为三个阶段:原文分析、原文译文转化和译文生成,基于任何方法的机器翻译都是如此。通  相似文献   

9.
译文质量估计是机器翻译领域中一个重要的子任务,该任务旨在不依靠参考译文的情况下对机器译文进行质量分析.当前,译文质量估计任务在汉英、英德机器翻译上有较好的表现,技术相对成熟.但是将模型应用到汉-越神经机器翻译中面临较多问题.尤其是译文质量估计模型在汉越平行数据中提取到的语言特征不能够充分地体现汉语与越南语之间的语言特点,加之汉语与越南语之间语序与句法结构也存在明显的差异.针对上述问题,本文采用统计对齐的方法对汉越之间结构差异进行建模,提取汉语与越南语之间的语言差异化特征,以提升汉越译文质量估计的效果.实验结果表明,融入语言差异化特征在汉-越和越-汉两个方向上较基线模型分别提升了0.52个百分点和0.35个百分点.  相似文献   

10.
钟文康  葛季栋  陈翔  李传艺  唐泽  骆斌 《软件学报》2021,32(4):1051-1066
机器翻译是利用计算机将一种自然语言转换成另一种自然语言的任务,是人工智能领域研究的热点问题之一.近年来,随着深度学习的发展,基于序列到序列结构的神经机器翻译模型在多种语言对的翻译任务上都取得了超过统计机器翻译模型的效果,并被广泛应用于商用翻译系统中.虽然商用翻译系统的实际应用效果直观表明了神经机器翻译模型性能有很大提升,但如何系统地评估其翻译质量仍是一项具有挑战性的工作.一方面,若基于参考译文评估翻译效果,其高质量参考译文的获取成本非常高;另一方面,与统计机器翻译模型相比,神经机器翻译模型存在更显著的鲁棒性问题,然而还没有探讨神经机器翻译模型鲁棒性的相关研究.面对上述挑战,本文提出了一种基于蜕变测试的多粒度测试框架,用于在没有参考译文的情况下评估神经机器翻译系统的翻译质量及其翻译鲁棒性.该测试框架首先在句子粒度、短语粒度和单词粒度上分别对源语句进行替换,然后将源语句和替换后语句的翻译结果进行基于编辑距离和成分结构分析树的相似度计算,最后根据相似度判断翻译结果是否满足蜕变关系.本文分别在教育、微博、新闻、口语和字幕等5个领域的中英数据集上对6个主流商用神经机器翻译系统使用不同的蜕变测试框架进行了对比实验.实验结果表明本文提出的方法在与基于参考译文方法的皮尔逊相关系数和斯皮尔曼相关系数上分别比同类型方法高80%和20%,说明本文提出的无参考译文的测试评估方法与基于参考译文的评估方法的正相关性更高,验证了其评估准确性上显著优于同类型其他方法.  相似文献   

11.
Quality estimation (QE) for machine translation is usually addressed as a regression problem where a learning model is used to predict a quality score from a (usually highly-redundant) set of features that represent the translation. This redundancy hinders model learning, and thus penalizes the performance of quality estimation systems. We propose different dimensionality reduction methods based on partial least squares regression to overcome this problem, and compare them against several reduction methods previously used in the QE literature. Moreover, we study how the use of such methods influence the performance of different learning models. Experiments carried out on the English-Spanish WMT12 QE task showed that it is possible to improve prediction accuracy while significantly reducing the size of the feature sets.  相似文献   

12.
译文质量估计技术是指在无参考译文的情况下对机器译文进行评价的方法。近年来,深度学习技术取得了重大突破,融合深度学习技术的神经译文质量估计方法逐渐取代了传统的译文质量估计方法成为主流。神经译文质量估计模型具有一定的隐式学习源语言句法结构的能力,但无法从语言学的角度有效地捕捉句子内部的句法关系。该文提出了一种将源语句的句法关系信息显式融入神经译文质量估计的方法,在源语言的依存句法关系和译文质量之间建立联系。实验结果表明,该文提出的句法关系特征能够提高译文质量估计模型的准确性。同时还提取了多个层面的语言学特征,在不同的网络模型中进行融合,并从多个角度分析了不同特征所起到的效果。最后使用集成学习算法,将多个有效模型进行融合,获得了最佳性能。  相似文献   

13.
在机器翻译模型的构建和训练阶段,为了缓解因端到端机器翻译框架在训练时采用最大似然估计原理导致的翻译模型的质量不高的问题,本文使用对抗学习策略训练生成对抗网络,通过鉴别器协助生成器的方式来提高生成器的翻译质量,通过实验选择出了更适合生成器的机器翻译框架Transformer,更适合鉴别器的卷积神经网络,并且验证了对抗式训练对提高译文的自然度、流利度以及准确性都具有一定的作用.在模型的优化阶段,为了缓解因蒙汉平行数据集匮乏导致的蒙汉机器翻译质量仍然不理想的问题,本文将Dual-GAN (dual-generative adversarial networks,对偶生成对抗网络)算法引入了蒙汉机器翻译中,通过有效的利用大量蒙汉单语数据使用对偶学习策略的方式来进一步提高基于对抗学习的蒙汉机器翻译模型的质量.  相似文献   

14.
机器翻译译文质量的自动评价是推动机器翻译技术快速发展的一条重要途径。该文提出了基于List-MLE 排序学习方法的译文自动评价方法。在此基础上,探讨引入刻画译文流利度和忠实度的特征,来进一步提高译文自动评价结果和人工评价结果的一致性。实验结果表明,在评价WMT11德英任务和IWSLT08 BTEC CE ASR任务上的多个翻译系统的输出译文质量时,该文提出的方法预测准确率高于BLEU尺度和基于RankSVM的译文评价方法。  相似文献   

15.
传统上神经机器翻译依赖于大规模双语平行语料,而无监督神经机器翻译的方法避免了神经机器翻译对大量双语平行语料的过度依赖,更适合低资源语言或领域。无监督神经机器翻译训练时会产生伪平行数据,这些伪平行数据质量对机器翻译最终质量起到了决定性的作用。因此,该文提出利用质量估计的无监督神经机器翻译模型,通过在反向翻译的过程中使用质量估计对生成的伪平行数据评分,再选择评分(HTER)较高的平行数据训练神经网络。利用质量估计的方法可以控制反向翻译生成的伪平行数据的质量,为对抗生成网络提供了更丰富的训练样本,使对抗生成网络训练得更加充分。与基线模型相比,该模型在WMT 2019德语—英语和捷克语—英语新闻单语语料上BLEU值分别提升了0.79和0.55。  相似文献   

16.
随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实际需求仍有很长的路要走。那么,面对期望、面对需求,机器翻译之路应该如何走?为此,第八届全国机器翻译研讨会对当前机器翻译研究所面临的挑战和机遇进行了深入研讨。该文详细介绍了该次研讨会六个专题的讨论情况,对机器翻译研究面临的机遇和挑战进行了认真的分析和总结。  相似文献   

17.
机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来,随着深度学习研究和应用的快速发展,神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响,然后对当前的神经网络机器翻译的研究进展进行分类综述,最后对后续的发展趋势进行展望。  相似文献   

18.
目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号