期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

穆妮热·穆合塔尔李晓杨雅婷《计算机工程》2020,46(2):309-314

维吾尔语形态较为复杂,构形词缀在维吾尔语中占有重要地位,其语法与汉语有较大差别。针对维吾尔语的形态特点,分析汉语端到维吾尔语端在统计机器翻译中维吾尔语词缀的作用,搭建基于短语的汉维统计机器翻译系统,对词级粒度、词干级粒度、最大词干级粒度、词干-词缀级粒度、词干-词尾级粒度的汉维平行语料库进行对比实验,研究不同粒度的维吾尔语对汉维机器翻译中的词语对齐质量和语言模型质量的影响。实验结果表明,在上述5种粒度的维吾尔语语料中,基于词干的维吾尔语和基于词干-词尾的维吾尔语目标端语料的翻译质量明显提高。相似文献

2.

基于机器翻译的维吾尔语形态分析研究

徐春杨勇蒋同海《计算机工程与应用》2017,53(14):138-142

针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取（词性标注）任务中词干提取前（词性标注前）的句子看作是机器翻译模型训练过程中的源语言端,词干提取后（词性标注后）的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语（词干提取、词性标注）、汉语（分词、词性标注）实验结果,提出的方法更适合维吾尔语形态分析。相似文献

3.

基于形态分析的现代维吾尔语名词词干识别研究

艾孜尔古丽阿力木·木拉提玉素甫·艾白都拉《中文信息学报》2015,29(6):208-212

现代维吾尔语名词词干识别是自然语言处理领域的重要基础性研究,主要目的是从句子中提取名词词干,提高名词识别效率。首先陈述形态分析概念,通过这些形态特征可以准确地识别其词性的意义;其次讨论维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则;该文提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等;最后将初中、高中物理维吾尔语教材作为验证对象,对名词词干进行统计与分析。相似文献

4.

基于混合方法的维吾尔语词干提取方法研究

热娜·艾尔肯李晓艾尼宛尔·托乎提《计算机应用研究》2015,32(1):112-114,120

针对维吾尔语形态变化,提出了利用规则和词典相结合的混合处理方法进行形态还原技术。利用从左到右地分析和Lovin算法实现了词干提取器。通过总结词法连接规则,提出了规则实现词干提取、用词典验证提取结果。经过对不同新闻内容的五次测试得出平均准确率达到了77.4%。相似文献

5.

基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究

古丽尼格尔·阿不都外力吐尔根·依布拉音卡哈尔江·阿比的热西提王路路《中文信息学报》2019,33(8):60-66

词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。相似文献

6.

融合多策略的维吾尔语词干提取方法

赛迪亚古丽·艾尼瓦尔向露宗成庆艾克白尔·帕塔尔艾斯卡尔·艾木都拉《中文信息学报》2015,29(5):204-211

维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
相似文献

7.

维吾尔语形容词构形词缀有限状态自动机

早克热&#;卡德尔吐尔根&#;依布拉音《数字社区&智能家居》2009,5(2):939-941

维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。相似文献

8.

融合多特征的汉维神经网络机器翻译模型

朱顺乐《计算机工程与设计》2019,40(5)

相似文献

9.

基于网站用词调查的现代维吾尔语词干提取和应用研究

艾孜尔古丽齐向卫玉素甫·艾白都拉《计算机应用与软件》2012,(3):32-34,97

通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应用形式;介绍和讨论词干分布结果,最后总结以上内容。相似文献

10.

汉维统计机器翻译中的形态学处理 总被引：1，自引：0，他引：1

下载免费PDF全文

董兴华陈丽娟周喜周俊林吐尔洪·吾司曼《计算机工程》2011,37(12):150-152

针对汉语和维吾尔语语序差别(前者是主-谓-宾结构,后者是主-宾-谓结构)及形态差别较大的问题,通过编写调序规则将汉语调整为主-宾-谓结构,将维吾尔语单词切分为词干、词缀等更小的词素单元来训练统计模型,同时测试词素的切分粒度对翻译性能的影响.实验结果表明,对汉语句法结构的调整及以词干、词缀等更小的词素形式参与训练可以有效... 相似文献

11.

基于“相同与差异”的机译单元的自动提取研究

陈博兴杜利民《中文信息学报》2003,17(3):35-41

从双语语料库中提取的机译单元能更好地覆盖真实语言文本,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的候选机译单元,本算法设计了三个过滤器来考察其正确性:双语词串相似度过滤考察其语义对应性,词性相似度过滤考察其语法对应性,首尾禁用词过滤考察其搭配正确性。通过抽样检验,最后提取的机译单元的正确率为86% ,召回率约为61.34% ,该算法对于获取机译单元提供了一种新的实用的方法。相似文献

12.

基于句法调序的汉维统计机器翻译

下载免费PDF全文

陈丽娟张恒董兴华吐尔洪·吾司曼周俊林《计算机工程》2012,38(3):169-171,175

在汉语到维语的统计机器翻译中,2种语言在形态学及语序上差异较大,导致未知词较多,且产生的维语译文语序混乱。针对上述问题,在对汉语和维语的语序进行研究的基础上,提出一种汉语句法调序方法,进而对维语进行形态学分析,采用基于因素的统计机器翻译系统进行验证。实验结果证明,该方法在性能上较基线系统有显著改进,BLEU评分由15.72提高到19.17。相似文献

13.

面向汉维机器翻译的BERT嵌入研究

陈玺杨雅婷董瑞《计算机工程》2021,47(12):112-117

针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值（BLEU）提升1.64,有效提高汉维机器翻译系统的性能。相似文献

14.

互联网机器翻译

王海峰吴华刘占一《中文信息学报》2011,25(6):72-81

该文在回顾机器翻译发展的基础上,总结了主要的机器翻译方法,并主要阐述互联网机器翻译的特点及面临的挑战.面向互联网机器翻译的应用需求,并针对互联网资源具有海量、高噪声、时效性、稀疏的特点,提出了多策略混合翻译方法、资源挖掘和过滤以及分布式处理技术、领域自适应技术,针对数据稀疏论述枢轴语言技术和新语种快速部署技术;然后结合... 相似文献

15.

面向汉维机器翻译的双语关联度优化模型

潘一荣李晓杨雅婷《计算机应用研究》2020,37(3):726-730

针对汉语—维吾尔语的统计机器翻译系统中存在的语义无关性问题,提出基于神经网络机器翻译方法的双语关联度优化模型。该模型利用注意力机制捕获词对齐信息,引入双语短语间的语义相关性和内部词汇匹配度,预测双语短语的生成概率并将其作为双语关联度,以优化统计翻译模型中的短语翻译得分。在第十一届全国机器翻译研讨会（CWMT 2015）汉维公开机器翻译数据集上的实验结果表明,与基线系统相比,在使用较小规模的训练数据和词汇表的条件下,所提方法可以有效地同时提高短语级别和句子级别的机器翻译任务性能,分别获得最高2.49和0.59的BLEU值提升。相似文献

16.

基于微引擎流水线的机器翻译系统结构 总被引：3，自引：0，他引：3

刘群《计算机学报》2004,27(5):651-658

该文比较了现有各种多引擎机器翻译方法的优缺点,提出了基于微引擎流水线的机器翻译系统结构,详细介绍了有关的数据结构和算法．这种结构的优点在于在部件层次上实现多重算法的并存,通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译方法的组合,而不需要修改系统的整体算法．文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现,给出了实验数据,并进行了总结．相似文献

17.

Generate and Repair Machine Translation

Kanlaya Naruedomkul & Nick Cercone 《Computational Intelligence》2002,18(3):254-269

We propose Generate and Repair Machine Translation (GRMT), a constraint–based approach to machine translation that focuses on accurate translation output. GRMT performs the translation by generating a Translation Candidate (TC), verifying the syntax and semantics of the TC and repairing the TC when required. GRMT comprises three modules: Analysis Lite Machine Translation (ALMT), Translation Candidate Evaluation (TCE) and Repair and Iterate (RI). The key features of GRMT are simplicity, modularity, extendibility, and multilinguality.
An English–Thai translation system has been implemented to illustrate the performance of GRMT. The system has been developed and run under SWI–Prolog 3.2.8. The English and Thai grammars have been developed based on Head–Driven Phrase Structure Grammar (HPSG) and implemented on the Attribute Logic Engine (ALE). GRMT was tested to generate the translations for a number of sentences/phrases. Examples are provided throughout the article to illustrate how GRMT performs the translation process. 相似文献

18.

统计机器翻译和翻译记忆的动态融合方法研究

汪昆宗成庆苏克毅《中文信息学报》2015,29(2):87-94

在融合翻译记忆和统计机器翻译的整合式模型的基础上,该文提出在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中,动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息,指导基于短语的翻译模型进行解码。实验结果表明该方法显著提高了翻译质量: 与翻译记忆系统相比,该方法提高了21.15个BLEU值,降低了21.47个TER值;与基于短语的翻译系统相比,该方法提高了5.16个BLEU值,降低了4.05个TER值。相似文献