首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大...  相似文献   

2.
针对词义相似度计算问题,在《同义词词林》的基础上,从语言学角度分析了《词林》中词语间的组织关系,阐述了父结点深度对词义相似度的决定性作用。统计了各层结点及原子词群大小的分布情况。提出了仅使用父结点深度的计算模型和父结点深度与其分支信息相结合的计算模型。运用上述两种方法的词义相似度计算结果与Miller的人工标注值之间的皮尔逊相关系数达到0.854和0.857,根方误差达到1.003和0.991。  相似文献   

3.
现有词语相似度计算方法未深入考虑义原之间的距离与义原深度的主次关系,或直接指定含具体词概念的相似度,导致计算结果不够精确。针对该问题,通过义原之间的距离限制义原深度对义原相似度的影响,分析统计《知网》中概念的义项表达式,使用第一基本义原(能反映具体词本质)替换概念义项表达式中出现的具体词,从而提出一种改进的词语语义相似度计算算法。实验结果表明,该算法能有效提高词汇相似度计算的精确度。  相似文献   

4.
目前,词语语义相似度计算结果与人工判别结果存在一定差距主要是因为基于知识本体的语义相似度计算一般都是从数学计算的角度直接利用语义分类词典,而没有从词汇学角度充分利用词典中的语言学知识。因而提出运用语义场理论分析《同义词词林》中词语间的组织关系,阐述深度对语义相似度的决定性作用及分支信息的辅助作用。并且在《词林》深度与分支信息相结合的基础上,提出Logistic函数计算模型。运用上述方法对MC30语义相似度的计算结果与人工标注值之间的皮尔逊相关系数达到0.9540;均方根误差为0.0191;对RG65语义相似度的计算结果与人工标注值之间的皮尔逊相关系数达到0.9434;均方根误差为0.0193。  相似文献   

5.
词语语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。基于《知网》提出一种词语语义相似度算法。设计一种义原分类,将义原分为第一基本义原、其他基本义原和间接义原3类。与以往义项相似度计算方法不同,根据不同类义原对义项相似度影响的大小,分别使用不同的义原相似度计算方法进行义项相似度的计算。利用词语之间第一基本义原相似度最高的义项组合进行词语语义相似度计算,剔除相似度较低的组合对词语语义相似度结果的影响。实验结果表明,该算法能有效提高运算效率和精确度。  相似文献   

6.
针对目前词语相似度算法中普遍存在的信息源单一化,计算结果非线性偏高,以及计算性能和效率的不一致的缺陷,提出了一种基于边权重的WordNet词语相似度的计算方法。该方法在路径与深度的基础上,通过边权重改善WordNet结构中的层次不均匀性,引入编码概念唯一标识两个概念间的相似度,并利用余弦函数修正计算结果的非线性偏差。实验结果表明,对于MC30和RG65测试集,使用该方法计算的词语相似度值与人工判定值计算得到的Pearson相关系数均达到0.87;此外,该方法在计算性能和效率上均保持较高水平。  相似文献   

7.
设计了一种基于依存关系与同义词词林相结合的语义相似度计算方法。该方法通过依存关系分别提取两个文本的关系路径,同时基于同义词词林计算两个文本之间关系路径的语义相似度。在计算两个文本之间的语义相似度时,使用语言技术平台(language technology platform,LTP)对文本进行中文分词以及获取文本的依存关系图,从中提取关系路径,从而可以结合关系路径和同义词词林计算两个文本之间的语义相似度。通过实验,获得的平均偏差率为13.83%。实验结果表明,结合依存关系与同义词词林的语义相似度方法在准确率上相比较基于同义词词林的语义相似度和基于依存关系的语义相似度有了一定的提高。  相似文献   

8.
张帆  钟金宏  黄玲 《计算机工程》2010,36(23):66-68
在领域本体中,概念间往往存在多条路径,现有的基于语义距离的方法只考虑最短距离的路径,不能完全体现出概念间的相似度。基于此,提出一种基于加权语义距离的概念相似度计算方法。该方法搜索出两概念间的所有路径,以所有路径的加权平均距离代替最短距离来计算相似度,并综合考虑节点深度、公共父节点对相似度的影响。实验表明,该方法计算出的概念相似度能够更准确地体现出概念间的相似程度。  相似文献   

9.
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。  相似文献   

10.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

11.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。  相似文献   

12.
针对目前中文词语语义相似度方法中,基于信息内容的算法研究不足的问题,对知网信息模型上使用基于信息内容的中文词语相似度算法进行了研究。根据知网采用语义表达式表示知识而缺乏完整概念结构的特点,通过抽取知网语义表达式中的抽象概念,结合原知网义原树构建具有多重继承特征的知网义项网作为基于信息内容的计算本体。根据该义项网,对基于信息内容的词语相似度算法进行了改进,提出了新的信息内容含量计算方法。经过Miller&Charles(MC30)基准平台的测试,验证了基于信息内容方法在计算中文语义相似度方面的可行性,也证明了本文的计算策略和改进算法的合理性。  相似文献   

13.
王小林  王义 《计算机应用》2011,31(11):3075-3077
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。  相似文献   

14.
《计算机工程》2017,(6):177-181
通过分析短文本的高维性和稀疏性,提出一种融合特征词间统计信息与语义相似度的短文本特征扩展算法。根据词的贡献度对候选特征集进行筛选,得到扩展集合初始值。计算特征词之间的统计相关度,构建二元相关词对集合。利用外部知识库知网中的语义关系获取相关词对的义项集合并计算语义相似度,将满足条件的义项扩展为短文本的特征词,得到扩展后的特征集。实验结果表明,使用该算法对短文本进行特征扩展后,可显著提升分类器的分类效果。  相似文献   

15.
《软件工程师》2019,(10):36-43
针对目前基于维基百科的相似度计算方法预处理过程烦琐、计算量大的问题,本文以维基百科为本体引入基于特征的词语语义计算,提出了一种基于维基百科的快速词语相似度计算方法。根据维基百科页面链接结构的特点,该方法把页面的入链接和出链接作为页面特征值构建特征向量模型,通过计算页面的特征向量相关系数计算对应词语的语义相似度。本文还改进了维基百科消歧处理算法,在一词多义的处理中减少社会认知度低的义项页面的干扰,进一步提高了计算准确度。经Miller&Charles(MC30)和Rubenstein&Goodenough(RG65)测试集的测试,测试结果表明了基于维基百科链接特征的方法在计算相似度方面的可行性,也验证了本文的计算策略和消歧改进算法的合理性。  相似文献   

16.
为了更好地提高短文本语义相似度分析能力,提出了基于神经网络和组合语义的短文本语义相似度分析算法。利用神经网络构建词义表示模型,结合局部和全局上下文信息学习词语在实际语境下的表示;通过句法分析,得到文本的依存关系,并依此构建组合关系树,使用组合语义模型得到整个文本的语义表示;通过计算两个语义表示结果之间的相似性来计算文本的语义相似度。实验分析结果表明,该方法能够在一定程度上提高文本语义分析能力。  相似文献   

17.
提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较.实验结果表明,该算法取得了更好的准确率和效率.  相似文献   

18.
汉语词语间语义相似是词语间的基本关系之一,文章提出了一种基于知网和知识图的词语语义相似度计算的方法,通过改进传统的知识图表示方式,根据知网中概念项的抽取结果对词语的义项进行表示,用词图的相似度来表示相应词语的语义相似度。实验结果表明该算法对词语间语义相似度计算是有效的。  相似文献   

19.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

20.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号