首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 171 毫秒
1.
为改善余弦相似度不能反映词袋模型中词项间顺序差异的缺点,提出了一种基于编辑距离的文档相似度度量方法.首先分析了基于 tf - idf 的词袋模型和余弦相似度计算方法所存在的问题; 其次利用Jaccard系数和编辑距离描述两个字符串的公共子串中词语之间的顺序差异,并提出了一种词序敏感相似度计算方法; 最后利用实验数据对算法的有效性进行了验证,结果显示本文方法在Top1、Top3上的F1指标比原始的余弦相似度方法分别提高了0.082 5、 0.112 6,表明本文方法能够有效地提升信息检索系统的性能,具有很好的应用价值.  相似文献   

2.
基于图理论的概念间语义度量方法,改进了语义相似度部分影响因素,提出一种结合设计良好的领域本体来计算自然语言概念间的语义相似度的算法.对自然语言与本体的关系进行分析,并通过本体对节点密度、节点深度与节点层次顺序等影响概念语义相似度的因素进行了改进,综合考虑概念的语义距离、概念间关系、概念的属性与概念所处的层次等影响因素,利用本体对相关领域的基本术语和关系的准确定义,改进了基于本体的概念间语义相似度的算法.实验结果表明,该算法对于提高概念间相似度的计算精度明显高于其他算法.  相似文献   

3.
WordNet中的综合概念语义相似度计算方法   总被引:1,自引:0,他引:1  
作为语义异构问题的基础,概念间语义相似度计算已成为研究热点,对此,提出一种基于WordNet的综合概念语义相似度计算方法. 该方法不仅集成了传统的基于语义距离的算法和基于信息内容的算法,而且引入了深度、密度因子和语义重合度来进行综合分析,并针对综合算法中权值难以确定的问题,引入主成分分析改进权值分配方法. 实验结果表明,改进后的方法计算的相似度与人工判断的相似度相关性较高,有效改善了概念语义相似度计算的准确性.  相似文献   

4.
针对传统距离或相似度度量未考虑个体样本对整体样本集影响的情况,对K近邻算法提出了一种相似度改进策略.首先提出了一种新的亲和距离函数,以样本对整体样本集的紧密度和分散度为关注点;其次在亲和距离函数的基础上,提出了一种新的基于紧密度和分散度的亲和相似度函数,并将其作为K近邻算法相似度度量函数;最后通过理论分析及18个数值类型UCI数据集,以5交叉验证模式对所提出亲和相似度函数与传统距离和相似度函数进行验证对比.实验表明,所提出方法是一种有效的相似度策略,且与高效索引算法相结合,可降低在大规模数据集的分类时间.  相似文献   

5.
基于潜在语义分析的文档检索设计方法   总被引:1,自引:0,他引:1  
文档检索系统围绕如何基于语义层面进行检索来展开研究.基于关键词匹配的检索系统不能处理多词一义的情况,针对此问题设计了基于潜在语义分析的文档检索系统.首先改进了文档一词矩阵单元值的计算过程,调整了传统高频词与低频词在权重上的线性关系,利用Sigmiod函数对权重做平滑处理,使其更符合文档中词的权重;其次利用潜在语义分析结合多维尺度分析算法,优化计算文档在语义间的距离.实验结果显示,能有效在语义上聚类文档,完成查询语句与文档集之间的相似度检索计算.  相似文献   

6.
一种基于语义体系的同义词识别研究   总被引:6,自引:0,他引:6  
针对基于字面和词素相似度识别同义词的不足之处,首次引入《同义词词林》(以下简称《词林》),作为语义体系,提出了基于《词林》语义体系的同义词识别算法,并进行了词汇问的语义相似度度量,实现了同义词识别。实验结果表明,此方法在效率上远高于基于字面、词素相似度识别方法。  相似文献   

7.
针对普适计算环境中上下文变化存在的复杂情况,提出面向波动复杂性的上下文预测方法,在分析上下文波动变化的影响因素的基础上,提出相似上下文序列的概念,给出了上下文序列相对距离和相似上下文序列的定义,以及相关的上下文预测推理算法和架构.通过计算上下文序列之间的相对距离,确定相似的上下文序列,根据相似的上下文序列进行上下文预测.该预测方法不仅提供了一种度量上下文序列的新方法,而且解决了传统精确匹配预测方法的局限性问题,有效地提高了普适计算中上下文预测的能力,使其具有更强的适应性和实用性.  相似文献   

8.
采用经典的欧几里德距离、曼哈顿距离以及形状相似距离3种不同相似度度量方式,应用标准模糊C均值聚类算法在多个表示矩形对象的二维随机数据集上进行聚类,分析对比其相似度评估性能。聚类结果的分类统计表明,形状相似距离相比其他两种距离,能够考虑矩形对象的形状相似因素进行相似度评估。  相似文献   

9.
针对向量空间模型在文档相似度量方面的局限,提出了基于计算公共子串的文档相似度量算法。对求公共子串算法进行了改进,提高了空间效率。用XML存储学生毕业设计论文文档,通过Java提供的DOM API生成文档对象树。深度优先搜索树中结点,进行结点比较,计算论文文档中出现的雷同文本,结合文档的结构相似性,能有效计算文档相似度。  相似文献   

10.
基于条件概率的思想,利用赋值集的随机化方法,在三值乘积逻辑系统中引入公式的条件随机真度,证明了条件随机真度的MP规则和HS规则,引入公式间的条件相似度和条件伪距离,建立了条件逻辑度量空间,推导出条件伪距离的若干性质.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号