首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
该文运用自然语言处理的概念层次网络(Hierarchical Network of Concepts,HNC)理论提出了一种词语相似度计算方法。该方法利用HNC理论词汇层面联想的概念表述体系,根据HNC映射符号的编码规则和符号映射理论,综合概念内涵、概念外部特征、概念类别和组合符号来计算词语的相似度,并与基于知网的词语相似度算法和人工的主观判断的相似度进行了比较分析。实验结果表明,该方法能够较好地反映词语之间的语义差别,与人的直观判断基本一致,是一种有效可行的方法。  相似文献   

2.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

3.
基于改进编辑距离和依存文法的汉语句子相似度计算   总被引:3,自引:0,他引:3  
句子相似度计算在中文自然语言处理领域有着广泛的应用背景。要准确地刻画一个句子所表达的意思,必须深入到语义层面级并结合语法结构信息,提出了一种基于改进编辑距离和依存文法的汉语句子相似度计算方法。依存文法考虑到句子内部的结构和词语之间的相互作用关系,而编辑距离由于《同义词词林》的应用可以兼顾同义词之间的替换,因此该方法与其他方法相比,描述句子的信息更加全面,试验结果表明该方法是有效的。  相似文献   

4.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。  相似文献   

5.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

6.
基于语义树的中文词语相似度计算与分析   总被引:3,自引:1,他引:2  
词语相似度的分析与计算是自然语言处理关键技术之一,对句法分析、机器翻译、信息检索等能提供很好的帮助。基于语义资源Hownet的中文词语相似度计算是近年来的研究热点,但大多数的研究都是对中国科学院计算技术研究所刘群提出的计算方法的改进和完善。该文充分分析和利用新版Hownet(2007)的概念架构和语义多维表达形式,从概念的主类义原、主类义原框架以及概念特性描述三个方面综合分析词语相似度,并在计算中区分语义特征相似度和句法特征相似度。实验结果理想,与人的直观判断基本一致。  相似文献   

7.
基于语义依存的汉语句子相似度计算   总被引:44,自引:0,他引:44  
句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法结构信息,由此提出了一种基于语义依存的汉语句子相似度计算的方法,该方法取得了令人满意的实验效果。  相似文献   

8.
基于上下文词语同现向量的词语相似度计算   总被引:3,自引:0,他引:3  
词语的语义相似度是词语间语义相似紧密的一种数量化表示。提出一种词语的语义相似度计算方法 ,利用上下文词语同现向量来描述词语的语义知识 ,在此基础上 ,使用 min/ max的方法计算词语之间的语义相似度。实验结果表明 ,该方法能够比较准确地反映词语之间的语义关系 ,为词语间的语义关系提供一种有效度量。  相似文献   

9.
一种基于语境的词语相似度计算方法   总被引:1,自引:0,他引:1  
词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。该文引入模糊数学中隶属函数的概念计算词语上下文信息的模糊重要度,并结合基于《知网》的语义相似度计算方法,提出一种基于语境的词语相似度计算方法。实验表明,该算法可以根据语境有效地区分语义相近的词语。  相似文献   

10.
提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions, FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。  相似文献   

11.
知识表示是自然语言理解的重要基础。知识表示不统一、语义信息无法系统化利用是目前存在的亟待解决的问题。要解决这个问题,就要解决语义知识表示的问题。该文基于概念层次网络,描述了词语、句子和篇章层面的语义知识表示方法。基于文中描述的词汇层面的表示方法,构建了一个多语言本体知识库。该知识库的知识表示方法不仅可以为知识表示理论研究提供基础,还可以为自然语言处理相关领域的应用提供资源支持。  相似文献   

12.
Sentence and short-text semantic similarity measures are becoming an important part of many natural language processing tasks, such as text summarization and conversational agents. This paper presents SyMSS, a new method for computing short-text and sentence semantic similarity. The method is based on the notion that the meaning of a sentence is made up of not only the meanings of its individual words, but also the structural way the words are combined. Thus, SyMSS captures and combines syntactic and semantic information to compute the semantic similarity of two sentences. Semantic information is obtained from a lexical database. Syntactic information is obtained through a deep parsing process that finds the phrases in each sentence. With this information, the proposed method measures the semantic similarity between concepts that play the same syntactic role. Psychological plausibility is added to the method by using previous findings about how humans weight different syntactic roles when computing semantic similarity. The results show that SyMSS outperforms state-of-the-art methods in terms of rank correlation with human intuition, thus proving the importance of syntactic information in sentence semantic similarity computation.  相似文献   

13.
词向量在自然语言处理中起着重要的作用,近年来受到越来越多研究者的关注。然而,传统词向量学习方法往往依赖于大量未经标注的文本语料库,却忽略了单词的语义信息如单词间的语义关系。为了充分利用已有领域知识库(包含丰富的词语义信息),文中提出一种融合语义信息的词向量学习方法(KbEMF),该方法在矩阵分解学习词向量的模型上加入领域知识约束项,使得拥有强语义关系的词对获得的词向量相对近似。在实际数据上进行的单词类比推理任务和单词相似度量任务结果表明,KbEMF比已有模型具有明显的性能提升。  相似文献   

14.
基于知识图的汉语词语间语义相似度计算   总被引:2,自引:0,他引:2  
语义相似是词语间的基本关系之一,汉语词语间语义相似的研究对于许多自然语言处理的应用具有重要的指导意义。提出了一种基于知识图的词语间语义相似度计算的方法,把知识图这种属于语义网络范畴的知识表示方法应用于汉语信息处理中。实验结果表明该方法对词语间语义相似度计算是有效的。  相似文献   

15.
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值。基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法。提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码与语义相似度之间的内在联系,建立了更符合《同义词词林》中所蕴含的语义相似信息的函数关系式。该方法使用遗传算法搜索知识与语义相似度的函数表达式,克服了先验模型中函数形式及调节参数的局限性,所得计算结果与人工判定结果的皮尔逊相关系数为0.8645,为使用人工智能方法挖掘自然语言处理中的规律提供了一种新的思路和方法。  相似文献   

16.
汉语词语语义相似度计算研究   总被引:12,自引:0,他引:12       下载免费PDF全文
夏天 《计算机工程》2007,33(6):191-194
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。  相似文献   

17.
基于维基百科社区挖掘的词语语义相似度计算   总被引:1,自引:0,他引:1  
词语语义相似度计算在自然语言处理如词义消歧、语义信息检索、文本自动分类中有着广泛的应用。不同于传统的方法,提出的是一种基于维基百科社区挖掘的词语语义相似度计算方法。本方法不考虑单词页面文本内容,而是利用维基百科庞大的带有类别标签的单词页面网信息,将基于主题的社区发现算法HITS应用到该页面网,获取单词页面的社区。在获取社区的基础上,从3个方面来考虑两个单词间的语义相似度:(1)单词页面语义关系;(2)单词页面社区语义关系;(3)单词页面社区所属类别的语义关系。最后,在标准数据集WordSimilarity-353上的实验结果显示,该算法具有可行性且略优于目前的一些经典算法;在最好的情况下,其Spearman相关系数达到0.58。  相似文献   

18.
Information on subcategorization and selectional restrictions in a valency dictionary is important for natural language processing tasks such as monolingual parsing, accurate rule-based machine translation and automatic summarization. In this paper we present an efficient method of assigning valency information and selectional restrictions to entries in a bilingual dictionary, based on information in an existing valency dictionary. The method is based on two assumptions: words with similar meaning have similar subcategorization frames and selectional restrictions; and words with the same translations have similar meanings. Based on these assumptions, new valency entries are constructed for words in a plain bilingual dictionary, using entries with similar source-language meaning and the same target-language translations. We evaluate the effects of various measures of semantic similarity.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号