共查询到14条相似文献,搜索用时 109 毫秒
1.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。 相似文献
2.
汉藏语言的文化交流,少不了语言之间的互译。为了汉藏音译规范化,提出了一种基于规则的汉藏音译方法,根据目前汉藏的音译情况以及汉藏拼音相似性制定了汉藏音译的规则集—汉文对应的拼音和拼音相应的藏文对照表。对于一个汉文存在多个拼音的情况,则要采用统计的方法,依赖上下文相关的词组等选取合适的拼音,然后再根据规则集翻译出所对应的藏文。在音译算法上,文中在汉藏音译的规则制定的基础上,对于存在的约定俗成译法词组优先处理,以及汉文的多音字结合了统计的多音字语料词组,提高音译系统的性能以及其音译的准确性。该算法实现简单,准确率高。 相似文献
3.
4.
5.
汉藏机器翻译的研究是一项有益而复杂的课题。本文的工作主要有两项, 一是分析了汉藏机器翻译中藏语句子特点,给出了一些汉藏翻译句型的举例;二是阐述了在汉藏机器翻译研究中一项前期的辅助工作,即设计了手写汉字切分方法和算法。 相似文献
6.
7.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。 相似文献
8.
9.
10.
本文介绍了德汉机器翻译系统的基本原理和方法, 指出了在汉语生成过程中, 汉语句子各成分的词组类型、句法功能、语义关系、逻辑关系之间存在着的极为错综复杂的各种联系。汉语语法的特点, 就在于汉语句子中词组类型与句法功能之间没有明确的对应关系, 而且, 词组类型与句法功能相同的成分, 它们的语义关系或逻辑关系还可能不同。因此, 汉语的自动生成就不能仅局限于依据其词组类型, 而且还要依据句法功能、语义关系、逻辑关系, 这样才能区分同形结构, 从而生成正确的汉语句子。 相似文献
11.
目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。 相似文献
12.
藏语语料库TEI标记规范探讨 总被引:1,自引:0,他引:1
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。 相似文献
13.
旅游业是藏族地区主要的经济来源之一。然而,目前互联网上缺乏藏文旅游信息智能化服务系统,且藏文景点介绍文本也十分匮乏;相反,汉文旅游网站信息量大,但各旅游网站包含的景点不尽相同,景点介绍文本篇幅较长,且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识,该文首先在汉文旅游领域分别采用基于BLSTM神经网络模型、基于维基百科以及基于网络爬虫等形式获取与景点相关的共8种属性知识;并通过采用基于维基百科等方法构建的旅游领域汉藏词典,将获取的汉文知识迁移到藏文,其翻译覆盖率平均值达70.44%。最终,构建汉藏双语旅游领域知识图谱。 相似文献
14.
班智达汉藏公文翻译系统中基于二分法的句法分析方法研究 总被引:3,自引:0,他引:3
机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术。本文结合863 项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。 相似文献