首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在融合翻译记忆和统计机器翻译的整合式模型的基础上,该文提出在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中,动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息,指导基于短语的翻译模型进行解码。实验结果表明该方法显著提高了翻译质量: 与翻译记忆系统相比,该方法提高了21.15个BLEU值,降低了21.47个TER值;与基于短语的翻译系统相比,该方法提高了5.16个BLEU值,降低了4.05个TER值。  相似文献   

2.
基于分层语块分析的统计翻译研究   总被引:1,自引:0,他引:1  
本文描述了一个基于分层语块分析的统计翻译模型。该模型在形式上不仅符合同步上下文无关文法,而且融合了基于条件随机场的英文语块分析知识,因此基于分层语块分析的统计翻译模型做到了将句法翻译模型和短语翻译模型有效地结合。该系统的解码算法改进了线图分析的CKY算法,融入了线性的N-gram语言模型。目前,本文主要针对中文-英文的口语翻译进行了一系列实验,并以国际口语评测IWSLT(International Workshop on Spoken Language Translation)为标准,在2005年的评测测试集上,BLEU和NIST得分均比统计短语翻译系统有所提高。  相似文献   

3.
多模态神经机器翻译是指直接采用神经网络,以端到端方式融合图像和文本两种模态信息,以此进行翻译建模的机器学习方法。传统多模态机器翻译,是在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。但是观察发现,图像里的信息不一定出现在文本中,对翻译也会带来干扰;与参考译文对比,翻译结果中出现了过翻译和欠翻译的情况。针对以上问题,该文提出一种融合覆盖机制双注意力解码方法,用于优化现有多模态神经机器翻译模型。该模型借助覆盖机制分别作用于源语言和源图像,在注意力计算过程中,可以减少对过去重复信息的关注。在WMT16、WMT17测试集上进行实验,验证了上述方法的有效性,在WMT16英德和英法以及WMT17英德和英法测试集上,对比基准系统BLEU值分别提升了1.2,0.8,0.7和0.6个百分点。  相似文献   

4.
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.  相似文献   

5.
基于扩展N元文法模型的快速语言模型预测算法   总被引:1,自引:1,他引:0  
单煜翔  陈谐  史永哲  刘加 《自动化学报》2012,38(10):1618-1626
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模 型进行快速语言模型(Language model, LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的 表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利 用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模 型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分 数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~ 9 倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度.  相似文献   

6.
针对维汉机器翻译中单个翻译模型翻译效果差且多个翻译模型间翻译差异较大的问题,提出一种基于释义信息的系统融合方法。通过提取汉语端释义信息对汉语翻译假设进行词对齐,利用词对齐信息构建并解码混淆网络,从而得到维汉机器翻译系统融合结果。实验结果表明,与单个翻译系统HPSTW相比,该方法能够有效提高翻译质量。  相似文献   

7.
基于短语模板对齐的统计机器翻译系统   总被引:1,自引:0,他引:1  
论文提出了一种基于短语模板对齐的机器翻译系统.系统采用基于短语模板对齐的翻译模型替代原始基于词的模型,提出了计算短语模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时引入繁衍度为0且出现频率高的词,使翻译结果更合理.论文进行了一系列实验,介绍了05年863评测,证明本系统翻译结果的Bleu得分比原来的系统有了显著提高.  相似文献   

8.
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。  相似文献   

9.
针对部件模型在描述目标上的局限性,提出了一种判别化的视觉文法模型.该模型利用文法的可描述性和可扩展性能够对通用目标类别进行描述并且处理一般化的识别任务.根据目标检测和姿态估计的特点将文法模型实例化为两个单任务文法,同时对比了文法的异同.通过分析检测与姿态估计在应用背景和研究方法上的互补性,进一步提出了一种联合识别文法.联合文法由一组判别符号合并两个单任务文法,其特点是实现了并行化的目标检测与姿态估计,而且能同时提升检测和估计性能.鉴于参数训练所面临的弱监督环境,引入带隐变量的结构化学习框架优化文法参数.实验分别在单任务和多任务场景下对比了部件模型与提出的联合文法.实验结果说明联合文法在性能上优于当前主流的检测模型和姿态估计模型.  相似文献   

10.
刘颖  姜巍 《计算机科学》2013,40(2):214-217
扩展HMM模型可以解决词语对齐结果与句法约束冲突,从而更好地进行词语对齐。在短语对齐基础上利 用目标语言的短语结构树抽取翻译规则。采用扩展CYK算法CYKA+作为系统的解码器,该算法可以处理非乔姆 斯基范式的翻译规则;采用两轮解码算法在解码过程中整合语言模型。实验表明,与传统词语对齐模型相比,改进的 HMM词语对齐模型具有更高的对齐准确率,并且翻译结果的BLEU评测得分更高。采用翻译规则的系统在不同数 据集上具有更稳定的翻译结果。两轮解码算法与立方剪枝算法具有相近的解码质量,但前者解码速度更快。  相似文献   

11.
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。  相似文献   

12.
基于混淆网络解码的机器翻译多系统融合   总被引:1,自引:1,他引:0  
在对当前几种较流行的统计机器翻译多系统融合方法分析的基础上,提出了一种改进的多系统融合框架,该框架集成了最小贝叶斯风险解码和多特征混淆网络解码两种技术。融合过程如下(1) 从多个翻译系统输出的 -best结果中,利用最小贝叶斯风险解码器选择一个风险最小的假设作为对齐参考;(2) 将其余的 -best假设结果与该参考对齐,从而构建混淆网络。多特征混淆网络基于对数线性模型,引入了更多有效的知识源参与最优路径选择,融合后的BLEU得分比融合前最好的单系统BLEU得分提高了2.19%。在对齐方法上,我们提出了一种改进的翻译错误率(Translation Error Rate, TER)准则——GIZA-TER准则,该准则可以对CN网络进行更有效的短语调序。实验中的显著性检验证明了本文方法的有效性。  相似文献   

13.
朱相荣  王磊  杨雅婷  董瑞  张俊 《计算机应用》2020,40(7):1891-1895
现有的基于循环神经网络、卷积神经网络和Transformer的自回归翻译模型,虽然都具有良好的翻译性能,但由于解码并行性较低导致了翻译速度慢的问题,针对这个问题提出一种基于非自回归模型的优化学习率策略的方法。在基于迭代优化的非自回归序列模型的基础上,改变学习率调节方法,即把warm up替换为liner annealing方法。首先评估出liner annealing优于warm up方法,然后将liner annealing应用于非自回归序列模型以得到翻译质量和解码速度的最优平衡,最后将该方法与自回归模型的方法作对比。实验结果表明该方法相较于自回归模型Transformer,当解码速度提升1.74倍时,翻译质量的双语评估替换(BLEU)分数值为41.31,可达到Transformer的95.34%。由此可见,采用liner annealing的非自回归序列模型,在降低少许翻译质量的条件下,能够有效地提升解码速度,适用于对翻译速度需求迫切的平台。  相似文献   

14.
交互式机器翻译(Interactive Machine Translation,IMT)是一种通过机器翻译系统与译员之间的相互作用指导计算机解码并改善输出译文质量的技术。目前主流的IMT方法使用译员确定的前缀作为唯一约束指导解码,交互方式受限,交互效率低。该文从交互方式和解码算法两个方面对IMT方法进行改进。在交互方式方面,允许译员译前从短语译项列表中为源语言短语选择正确译项。该文还提出了基于短语表的多样性排序算法,来提高短语候选译项的多样性,并根据译员的翻译认知过程设计交互界面,改善译员在翻译过程中的用户体验。在解码算法方面,将双语短语与前缀一同作为约束参与指导解码过程,提高翻译假设评价和过滤的准确性。在LDC汉英平行语料上进行了人工评测,实验结果表明该方法较传统的IMT方法能够减轻译员的认知负担,减少翻译时间,提升翻译效率。  相似文献   

15.
该文对近年来统计机器翻译研究中出现的多种一致性解码方法进行比较与分析。根据现有一致性解码方法对(单个或多个)统计机器翻译系统输出结果使用方式的不同,首先将其归纳为两大类 基于翻译假设重排序的一致性解码方法和基于翻译假设重组合的一致性解码方法;然后,针对每类方法,分别回顾其最具代表性的研究工作;最后,通过在大规模中—英机器翻译评测数据上的对比实验,对该文中介绍的多种方法进行比较,并对该课题未来研究方向进行展望。  相似文献   

16.
基于中心语块扩展的短语对齐   总被引:1,自引:0,他引:1  
短语等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用.提出了一种新的短语对齐方法,使用可信度较高的词典对齐结果来抽取源语言短语的译文中心语块,依据译文扩展可信度来确定源语言短语的译文统计边界.从译文中心语块出发,结合译文统计边界生成源语言短语的所有候选译文.对候选译文进行评价,从中选出最可靠的译文.同时利用贪心算法消除源语言短语译文边界之间的交叉冲突.实验结果表明,所提出的方法在开放测试中其正确率达到了82.76%,性能好于其他方法.  相似文献   

17.
机器翻译系统融合技术综述   总被引:4,自引:1,他引:3  
该文对机器翻译研究中的系统融合方法进行了全面综述和分析。根据在多系统输出结果的基础上进行融合的层次差异,我们将系统融合方法分为三类 句子级系统融合、短语级系统融合和词汇级系统融合。然后,针对这三种融合方法,该文分别介绍了它们各自具有代表性的研究工作,包括实现方法、置信度估计和解码算法等,并着重阐述了近年来使用广泛的词汇级系统融合方法中用于构造混淆网络的词对齐技术。最后,该文对这三类系统融合方法进行了比较、总结和展望。  相似文献   

18.
针对维汉机器翻译中未登录词和译文乱序问题严重的现象, 结合维吾尔语粘着性语言特点以及最大熵分类算法, 提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础, 在维吾尔语词级别构建粘着性规则约束, 从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明, 与当前主要MSD(mono、swap、discontinuous)等调序方法相比, 该方法较好地体现了维吾尔语的粘着性特点, 提高了译文质量。  相似文献   

19.
通过以目标信息为指导的卷积体系总结相关源信息,提出了一种系统的处理语言方法;利用在解码过程中使用不同的引导信号,经过特殊设计的卷积+门控体系结构可以查明与预测目标单词相关的源句子部分,并将其与整个源句子的上下文融合在一起形成统一表示形式;研究结果表明,模型将表示形式与目标语言单词一起馈入深度神经网络(DNN),形成更强大的神经网络联合模型(NNJM);通过两个NIST汉英翻译任务的实验验证,在相同设置下,tagCNN和inCNN在Dep2Str基线上的改善幅度分别为+1.28,+1.75 BLEU,所提出的模型分别优于NIST MT04和MT05的平均值+0.36,+0.83 BLEU,比传统DNN机器翻译平均提高了+1.08 BLEU点;模型为统计机器翻译研究提供了新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号