共查询到18条相似文献,搜索用时 93 毫秒
1.
基于未对齐汉英双语库的翻译对抽取 总被引:5,自引:2,他引:3
本文主要研究基于未对齐的汉英双语库翻译对抽取。文章首先介绍了Pascale Fung在这方面设计的两个算法。在此基础上,文章对后一种算法进行了部分的改进,使得其更适合于真实双语文本的翻译对抽取。实现结果表明改进后算法的有效性。本方法可以用于基于大规模双语语料库的短语翻译抽取、词典编纂等应用,具有较高的应用价值。 相似文献
2.
一种汉英双语句子自动对齐算法 总被引:2,自引:0,他引:2
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行.基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法主要采用一种新的基于长度的对齐算法,并结合基于词典的对齐算法,通过正反双向对齐,进一步提高了句子对齐的准确率.最后通过100个文件,5000多句英汉双语对该算法进行了验证,从对齐效果可以发现,结果比较理想,因而可以证明,该算法在实际工作中是可行的. 相似文献
3.
4.
基于锚点词对的双语词对齐算法 总被引:5,自引:0,他引:5
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采. 相似文献
5.
基于实例的机器翻译系统需要双语句对的支持。为大量获取双语句对,则需要以篇章对齐的双语文本为输入,实现句子的自动对齐。通过分析汉英双语法律文本的特征,提出了法律文本对齐假设。首先识别出法规源文和译文中的结构标识和句子,然后在句子一级对齐法律文本。该方法在150篇汉英法律文本语料上,取得了80.98%的对齐准确率。 相似文献
6.
双语对齐是自然语言处理研究的重要课题之一,结合基于句子长度和基于词典的两种经典的对齐算法,通过段内寻找锚点的算法对双语互译文本进行划分,实现了双语句子对齐,为双语语料库的建设提供了工具,并为双语教学词典的编纂做了基础性工作. 相似文献
7.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。 相似文献
8.
基于译文的英汉双语句子自动对齐 总被引:1,自引:0,他引:1
本文利用英汉互译译文间的内在联系,提出了基于译文的方法,通过使用一部翻译较完整的词典作为桥梁,将英汉句子间的对应关系连结起来,根据英语文本中的单词,在词典中找其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况。并且普遍适用于任何文本,它大大地提高了对齐的精度,其效果是令人满意的。 相似文献
9.
双语短语对齐的输入是源语言(英语)、目标语言(汉语)候选句法分析树集。由于翻译异常现象的大量存在,源语言句法树和目标语言句法树间往往不存在简单的对应关系。如何在翻译异常的情况下,从源语言、目标语言候选句法树集中排除歧义,选出正确的句法树,并揭示其短语层次上的对应关系,是双语短语对齐的主要困难。提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题。双语短语对齐本身是一个复杂度较高的处理过程,提出的有关定量和算法使系统在保证对齐正确率的前提下,保证了时间效率。 相似文献
10.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。 相似文献
11.
12.
基于统计的汉英句子对齐研究 总被引:6,自引:0,他引:6
翻译比较规范的汉英语料适合用统计方法实现句子对齐.但评价函数中的参数计算不能采用处理印欧语种的方法,而要针对汉英语种的特点进行调整.在已有两种评价函数的基础上又提出五种评价函数,并进行了对比研究。 相似文献
13.
14.
15.
16.
Text alignment is crucial to the accuracy of MT (Machine Translation) systems, some NLP (Natural Language Processing) tools or any other text processing tasks requiring bilingual data. This research proposes a language independent sentence alignment approach based on Polish (not position-sensitive language) to English experiments. This alignment approach was developed on the TED (Translanguage English Database) talks corpus, but can be used for any text domain or language pair. The proposed approach implements various heuristics for sentence recognition. Some of them value synonyms and semantic text structure analysis as a part of additional information. Minimization of data loss was ensured. The solution is compared to other sentence alignment implementations. Also an improvement in MT system score with text processed with the described tool is shown. 相似文献
17.
GUO Yi 《数字社区&智能家居》2008,(7)
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献
18.
自然语言处理中的语义关系与句法模式互发现* 总被引:3,自引:0,他引:3
在国家科技基础条件平台中如何建设汉语字词之间的语义关系库,并且利用初始的语义关系库自动获取句法模式和新的关系。使用了句法模式的概念,并提出了利用已有关系发现新模式、利用已有模式发现新关系的方法,创造性地设计相关模型并实现了一个中文语义关系知识库系统。利用此系统结合自然语言处理相关技术,从搜狗语料库和百度百科页面文件中大规模自动化获取了有效关系200多个,并从中提取了继承、同义等有效的新关系1 000多条。实验证明其效率达到约40%,主要取决于关系中查询词的距离取值和语料库本身的性质。 相似文献