首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
汉语句子相似度计算方法比对之研究   总被引:1,自引:0,他引:1  
相似句子检索,在自然语言处理领域具有非常广泛的应用背景,如信息过滤技术中的句子模糊匹配,基于实例的机器翻译的原语言检索,自动问答系统中常问题集的检索以及问题与答案的匹配,基于双语语料库的英文辅助写作等。本文在介绍了汉语句子相似度计算的有关概念之后,对几种典型的汉语句子相似度的计算方法进行了介绍,并分析了各方法的优缺点。  相似文献   

2.
基于译文的英汉双语句子自动对齐   总被引:5,自引:0,他引:5  
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错  相似文献   

3.
一种基于实例的汉英机器翻译策略   总被引:3,自引:0,他引:3  
介绍了一种基于实例的汉英机器翻译策略,重点讨论了汉英双语语料库的设计和基于该语料库的汉语句子的匹配算法。在进行汉语句子的匹配时,根据汉语的特点直接采用汉字的匹配,而没有进行汉语句子的分词。另外,匹配时确定匹配片断的边界也是基于实例机器翻译的难点之一,在这方面也采取了相应的解决方法。没有对翻译句子的连接装配进行更深入的研究,这是因为该翻译策略是用于多翻译引擎系统的,它要与其它翻译策略配合使用,以提高翻译结果的正确率。基于实例的机器翻译需要大量的双语语料库作为翻译时的依据,而人工建设大型语料库费时费力,所以尝试采用计算机进行汉英双语语料库的自动建立,包括篇章对齐和单词级的对齐。  相似文献   

4.
大规模句子相似度计算方法   总被引:4,自引:1,他引:4  
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一.本文提出一种多层次句子相似度计算方法首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子.在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%,准确率达90%,充分说明了本文算法的有效性.  相似文献   

5.
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来.根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况,它大大地提高了对齐的精度,其效果是令人满意的.  相似文献   

6.
一种维吾尔语句子相似度算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。  相似文献   

7.
针对政府文献的汉语维吾尔语语料库特点,充分利用汉语和维吾尔语的句子特性,提出一种汉维句子级别的对齐方法。该方法重点分析政府领域的汉语和维吾尔语的句型,分别对汉语和维吾尔语的语料进行边界识别,避免了复杂句型对汉语-维吾尔语句子对齐的影响,使得该方法取得句子对齐达到97%与99%之间的正确率。对齐的汉语-维吾尔语句子对可以充实语料库的规模,为汉语-维吾尔语短语对齐以及汉维机器翻译提供翻译语料。  相似文献   

8.
左世亮  刘稳良 《计算机仿真》2021,38(8):344-347,416
为降低多源信息背景下平行语料库重复句段对翻译工作的干扰,提升去重效率,设计一种基于词频-逆向文件频率技术的平行语料库相似句段去重算法.构建平行语料库句子一级对齐关联,设计概率模型,挑选最大概率路径为对齐输出,运用基于长度的句子对齐方法,确立源语料库中语言单位与目标语言文本间的翻译关系;根据句段词表层特性与信息熵,从多源语料库中择取少量待选实例并进行泛化匹配,得到句段相似程度;根据单词主题相关性推导出单词权重,把专业术语单词长度当作分辨单词主题相关性的前提,正态拟合单词长度获得关键词权重公式,以权重大小区分句段含义,完成相似句段去重.实验结果证明,所提方法去重效率较好、精度较高,适用范围广,为语言服务企业的业务发展带来新的契机.  相似文献   

9.
模板的自动抽取算法对机器翻译的研究具有重要意义。从面向英汉翻译的角度出发,论文对基于句子比较的翻译模板抽取(ATTEBSC)算法及其改进开展了比较研究,结果发现传统ATTEBSC算法在处理大规模语料库时运行效率较低,而且产生的无用模板比例较高,其中一个重要原因是没有事先对双语对齐语料库进行分类处理。通过相似性分析对句子进行聚类处理后再运行ATTEBSC算法,则发现该算法的运行效率和有用模板的比例都获得了较大的提高。  相似文献   

10.
基于词典的汉藏句子对齐研究与实现   总被引:1,自引:0,他引:1  
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为 81.11%。  相似文献   

11.
基于词类串的汉语句子结构相似度计算方法   总被引:9,自引:1,他引:9  
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。  相似文献   

12.
在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。  相似文献   

13.
句子相似度计算是信息处理领域一项基础技术,在基于实例的机器翻译中直接影响译文质量。该文以韩国语句子为研究对象,结合韩国语的句子特点提出了一种句子结构相似度的计算方法。该方法通过先提取句子的骨架结构,然后结合韩国语的句法特点制定标记转换规则,最后用转换后的句子结构与实例库中句子匹配得到与之相似的句子,得出两个句子间的结构相似度,并且通过实验验证了该方法的可行性,提高了相似度计算效果。  相似文献   

14.
面向EBMT的汉语单句谓语中心词识别研究   总被引:9,自引:3,他引:9  
在基于实例的汉英机器翻译( EBMT) 系统中,为计算语句相似度,需要对句子进行适当的分析。本文首先提出了一种折中的汉语句子分析方法———骨架依存分析法,通过确定谓语中心词来把握句子的整体结构,然后,提出了一种根据汉英例句集中英语例句的谓语中心词来识别相应的汉语例句的谓语中心词的策略。实验结果是令人满意的。  相似文献   

15.
基于汉语句模的中文分词算法   总被引:6,自引:2,他引:6  
张滨  晏蒲柳  李文翔  夏德麟 《计算机工程》2004,30(1):134-135,191
讨论了在汉语信息计算机处理中的中文分词问题。综合考虑可行性和准确性,提出了旨在降低分词难度和提高分词精度的基于汉语句模理论的处理策略。实验表明,该方法是可行的和具有广阔发展空间的。  相似文献   

16.
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。  相似文献   

17.
为了将中文树库更好地服务于国际汉语教学,考虑到语法教学中句式框架的整体性,该文引入基于句式结构的句本位图解树库,深入分析其结构特征,并基于句式结构的分层抽取思路,提取了蕴含在每个标注句中的句式实例,构建了汉语句式实例库,具体分为基础句式实例库和复杂句式实例库两部分。该项工作使得小规模标注树库可以获取较大规模的句式实例库,为句本位图解树库在国际汉语教学中的应用提供了一种有效的数据解决方案。  相似文献   

18.
在“现代汉语句法语义信息语料库”的基础上,我们将相对独立的句型系统、句模系统和句干系统有机整合在一起,建立了一个有层级体系的句系系统。并将[P]、[SP]、[SPO]、[PO]定义为基础句型,利用解析法,考察了基础句型对应的高频句模在复杂句模生成机制中的主体作用,此外还考察了补语、状语同语义成分的对应情况。通过寻求简单句型和复杂句型、简单句模和复杂句模之间的组合映射规律,从而找到句型句模对应机制研究的一个新的突破点。  相似文献   

19.
基于主题语言模型的句子检索算法   总被引:1,自引:0,他引:1  
提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过Aspect Model将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述 .对于初检结果的聚类,提出了"一个句子多个主题"和"一个句子一个主题"两种算法 .相对于PLSI算法的主题空间维度,提出的主题空间具有更加明确的物理意义;由于不需要迭代运算,运行速度更具优势 .对比实验的结果表明,与标准语言模型方法相比,基于主题语言模型的方法可以明显地提高汉语问答系统句子检索模块的性能 .  相似文献   

20.
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号