首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
肖明 《福建电脑》2006,(3):122-123
本文简单介绍了机器翻译的现状,提出利用中间件技术的采设计机器翻译系统,并给出了一个机器翻译系统中间件的详细模型。使得用户能在其上灵活、高效地开发和集成复杂的专用领域的机器翻译软件,并对该模型的优势进行了分析。  相似文献   

2.
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计机器翻译性能有很好的效果。  相似文献   

3.
平行语料库处理初探:一种排序模型   总被引:1,自引:0,他引:1  
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法.构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库.目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能.用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括语言模型、长度信息、意义对应等.鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中.文章最后的实验及结果表明本模型具有较好的性能.  相似文献   

4.
基于微引擎流水线的机器翻译系统结构   总被引:3,自引:0,他引:3  
刘群 《计算机学报》2004,27(5):651-658
该文比较了现有各种多引擎机器翻译方法的优缺点,提出了基于微引擎流水线的机器翻译系统结构,详细介绍了有关的数据结构和算法.这种结构的优点在于在部件层次上实现多重算法的并存,通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译方法的组合,而不需要修改系统的整体算法.文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现,给出了实验数据,并进行了总结.  相似文献   

5.
该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作。最后,对多策略机器翻译的研究进行了展望。  相似文献   

6.
随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实际需求仍有很长的路要走。那么,面对期望、面对需求,机器翻译之路应该如何走?为此,第八届全国机器翻译研讨会对当前机器翻译研究所面临的挑战和机遇进行了深入研讨。该文详细介绍了该次研讨会六个专题的讨论情况,对机器翻译研究面临的机遇和挑战进行了认真的分析和总结。  相似文献   

7.
本文论述了嵌入式口语机器翻译系统(以下简称"口语翻译系统")的开发背景和必要性,同时针对口语翻译系统应用的实际情况说明系统在开发过程中需要解决的一些问题,并从关键技术创新的角度阐述了迈创嵌入式口语机器翻译系统(以下简称"迈创口语系统")的技术特点.该系统采用一个翻译引擎来实现英语和汉语的互译.系统的双语句子调试将近有20余万条,从而使系统的语言翻译质量得到了改善.  相似文献   

8.
1 机器翻译的沿革机器翻译(MT)的历史是曲折而饶趣的。计算机刚一发明,就有人想到用它来进行自然语言的翻译。1949年美国人Weaver的著名备忘录第一次点燃了人们对MT的热情。  相似文献   

9.
基于短语的汉蒙统计机器翻译研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于短语的统计机器翻译是当前统计机器翻译的主流方法。研究了利用现有技术和资源搭建一个基于短语的汉蒙机器翻译系统的方法,并且构建了一个汉蒙机器翻译的自动评价平台,在此基础上利用词典和蒙古语形态学信息来提高了翻译系统的性能。  相似文献   

10.
2005统计机器翻译研讨班研究报告   总被引:4,自引:1,他引:4  
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。  相似文献   

11.
神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳。汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Mover's Distance)最小化双语词典的汉—越无监督神经机器翻译方法,首先分别训练汉语和越南语的单语词嵌入,通过最小化它们的EMD训练得到汉越双语词典,然后再将该词典作为种子词典训练汉越双语词嵌入,最后利用共享编码器的无监督机器翻译模型构建汉—越无监督神经机器翻译方法。实验表明,该方法能有效提升汉越无监督神经机器翻译的性能。  相似文献   

12.
面向多语言的机器翻译支撑环境设计与实现   总被引:1,自引:0,他引:1  
在日汉机器翻译系统由DOS移植到Windows环境后,针对进一步扩充资源和调试开发过程中遇到的词典管理不便、工具使用麻烦、翻译及编辑界面不友好、日志维护不完善等问题,我们开发了面向多语言的机器翻译支撑环境子系统。该子系统实现了词典资源管理、翻译界面、开发工具集成、系统日志维护等功能,在编码上兼容Unicode,在调用原系统翻译功能和开发工具时使用动态链接库技术,以期成为一个面向多语言的、可为不同机器翻译系统所用的开发调试支撑环境。  相似文献   

13.
汉蒙机器翻译系统中量词翻译研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着大量的汉蒙量词翻译错误。该文对汉语和蒙古语中的量词翻译进行研究的基础上,提出了使用量词表进行翻译,总结出了一对一、多对一、一对零和一对多等汉语量词到蒙语量词翻译的对应关系,给出了各种对应中的翻译方法,通过实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

14.
日汉机器翻译系统中的多Agent研究   总被引:1,自引:2,他引:1  
机器翻译系统提高译文质量是一个关键性的难题。本文探讨如何在多方法的机器翻译系统中引入多Agent组织结构,并提出一种多层次多Agent组织结构 - 类工程组织结构,使用登记表通讯策略。该组织结构应用在多翻译方法的日汉MTS中,使翻译质量有了较大的改善。  相似文献   

15.
In machine translation, collocation dictionaries are important for selecting accurate target words. However, if the dictionary size is too large it can decrease the efficiency of translation. This paper presents a method to develop a compact collocation dictionary for transitive verb–object pairs in English–Korean machine translation without losing translation accuracy. We use WordNet to calculate the semantic distance between words, and k-nearestneighbor learning to select the translations. The entries in the dictionary are minimized to balance the trade-off between translation accuracy and time. We have performed several experiments on a selected set of verbs extracted from a raw corpus of over 3 million words. The results show that in real-time translation environments the size of a collocation dictionary can be reduced up to 40% of its original size without significant decrease in its accuracy.  相似文献   

16.
The availability of machine-readable bilingual linguistic resources is crucial not only for rule-based machine translation but also for other applications such as cross-lingual information retrieval. However, the building of such resources (bilingual single-word and multi-word correspondences, translation rules) demands extensive manual work, and, as a consequence, bilingual resources are usually more difficult to find than “shallow” monolingual resources such as morphological dictionaries or part-of-speech taggers, especially when they involve a less-resourced language. This paper describes a methodology to build automatically both bilingual dictionaries and shallow-transfer rules by extracting knowledge from word-aligned parallel corpora processed with shallow monolingual resources (morphological analysers, and part-of-speech taggers). We present experiments for Brazilian Portuguese–Spanish and Brazilian Portuguese–English parallel texts. The results show that the proposed methodology can enable the rapid creation of valuable computational resources (bilingual dictionaries and shallow-transfer rules) for machine translation and other natural language processing tasks).  相似文献   

17.
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。  相似文献   

18.
Short texts are typically composed of small number of words, most of which are abbreviations, typos and other kinds of noise. This makes the noise to signal ratio relatively high for this specific category of text. A high proportion of noise in the data is undesirable for analysis procedures as well as machine learning applications. Text normalization techniques are used to reduce the noise and improve the quality of text for processing and analysis purposes. In this work, we propose a combination of statistical and rule-based techniques to normalize short texts. More specifically, we focus our attention on SMS messages. We base our normalization approach on a statistical machine translation system which translates from noisy data to clean data. This system is trained on a small manually annotated set. Then, we study several automatic methods to extract more general rules from the normalizations generated with the statistical machine translation system. We illustrate the proposed methodology by conducting some experiments with a SMS Haitian-Créole data collection. In order to evaluate the performance of our methodology we use several Haitian-Créole dictionaries, the well-known perplexity criteria and the achieved reduction of vocabulary.  相似文献   

19.
在自然语言处理领域,递归神经网络在机器翻译中的应用越来越广泛;除了其他语言外,汉语中还包含大量的词汇,提高英译汉的机器翻译质量是对汉语处理的一个重要贡献;设计了一个英汉机器翻译系统的模型,该系统使用基于知识的上下文向量来映射英语和汉语单词,采用编解码递归神经网络实现;对基于激活函数模型的性能进行了测试,测试结果表明,编码器层的线性激活函数和解码器层的双曲正切激活函数性能最好;从GRU和LSTM层的执行情况来看,GRU的性能优于LSTM;注意层采用softmax和sigmoid激活函数进行设置,该模型的方法在交叉熵损失度量方面优于现有的系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号