共查询到18条相似文献,搜索用时 140 毫秒
1.
维吾尔语形态较为复杂,构形词缀在维吾尔语中占有重要地位,其语法与汉语有较大差别。针对维吾尔语的形态特点,分析汉语端到维吾尔语端在统计机器翻译中维吾尔语词缀的作用,搭建基于短语的汉维统计机器翻译系统,对词级粒度、词干级粒度、最大词干级粒度、词干-词缀级粒度、词干-词尾级粒度的汉维平行语料库进行对比实验,研究不同粒度的维吾尔语对汉维机器翻译中的词语对齐质量和语言模型质量的影响。实验结果表明,在上述5种粒度的维吾尔语语料中,基于词干的维吾尔语和基于词干-词尾的维吾尔语目标端语料的翻译质量明显提高。 相似文献
2.
针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。 相似文献
3.
4.
5.
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 相似文献
6.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
相似文献
相似文献
7.
维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。 相似文献
8.
9.
通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应用形式;介绍和讨论词干分布结果,最后总结以上内容。 相似文献
10.
11.
从双语语料库中提取的机译单元能更好地覆盖真实语言文本,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的候选机译单元,本算法设计了三个过滤器来考察其正确性:双语词串相似度过滤考察其语义对应性,词性相似度过滤考察其语法对应性,首尾禁用词过滤考察其搭配正确性。通过抽样检验,最后提取的机译单元的正确率为86% ,召回率约为61.34% ,该算法对于获取机译单元提供了一种新的实用的方法。 相似文献
12.
13.
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。 相似文献
14.
15.
针对汉语—维吾尔语的统计机器翻译系统中存在的语义无关性问题,提出基于神经网络机器翻译方法的双语关联度优化模型。该模型利用注意力机制捕获词对齐信息,引入双语短语间的语义相关性和内部词汇匹配度,预测双语短语的生成概率并将其作为双语关联度,以优化统计翻译模型中的短语翻译得分。在第十一届全国机器翻译研讨会(CWMT 2015)汉维公开机器翻译数据集上的实验结果表明,与基线系统相比,在使用较小规模的训练数据和词汇表的条件下,所提方法可以有效地同时提高短语级别和句子级别的机器翻译任务性能,分别获得最高2.49和0.59的BLEU值提升。 相似文献
16.
基于微引擎流水线的机器翻译系统结构 总被引:3,自引:0,他引:3
该文比较了现有各种多引擎机器翻译方法的优缺点,提出了基于微引擎流水线的机器翻译系统结构,详细介绍了有关的数据结构和算法.这种结构的优点在于在部件层次上实现多重算法的并存,通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译方法的组合,而不需要修改系统的整体算法.文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现,给出了实验数据,并进行了总结. 相似文献
17.
We propose Generate and Repair Machine Translation (GRMT), a constraint–based approach to machine translation that focuses on accurate translation output. GRMT performs the translation by generating a Translation Candidate (TC), verifying the syntax and semantics of the TC and repairing the TC when required. GRMT comprises three modules: Analysis Lite Machine Translation (ALMT), Translation Candidate Evaluation (TCE) and Repair and Iterate (RI). The key features of GRMT are simplicity, modularity, extendibility, and multilinguality.
An English–Thai translation system has been implemented to illustrate the performance of GRMT. The system has been developed and run under SWI–Prolog 3.2.8. The English and Thai grammars have been developed based on Head–Driven Phrase Structure Grammar (HPSG) and implemented on the Attribute Logic Engine (ALE). GRMT was tested to generate the translations for a number of sentences/phrases. Examples are provided throughout the article to illustrate how GRMT performs the translation process. 相似文献
An English–Thai translation system has been implemented to illustrate the performance of GRMT. The system has been developed and run under SWI–Prolog 3.2.8. The English and Thai grammars have been developed based on Head–Driven Phrase Structure Grammar (HPSG) and implemented on the Attribute Logic Engine (ALE). GRMT was tested to generate the translations for a number of sentences/phrases. Examples are provided throughout the article to illustrate how GRMT performs the translation process. 相似文献