首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
针对现有基于语词的术语相似度典型算法存在的问题,提出了将WordNet和编辑距离计算应用于术语词语匹配过程,并根据术语修饰词的位置赋予特征权重的术语相似度改进算法.和已有算法相比,新的算法在三个方面有所改进.首先,在术语中心词匹配过程中引入WordNet的同义词、近义词检索功能,实现中心词之间的语义匹配;其次,将术语词语的直接匹配改进为基于编辑距离计算的模糊匹配;最后,在计算过程中充分考虑了术语修饰词与中心词之间的距离对修饰词权重分配的影响因素.针对新算法提出了具体的实现步骤,并选取基因工程领域实验数据对改进算法和现有典型算法进行对比评测.实验证明,每种改进方法在单独测试时效果优于或至少不低于Nenadic算法.基于三种改进方法的综合计算方法在计算效果方面具有明显提升.  相似文献   

2.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能.  相似文献   

3.
在对概念语义相似度方法调研的基础上,本文提出基于概念向量的文本语义相似度测度方法,借助MetaMap工具抽取文本中的概念术语,将概念术语通过词表层级结构转化为概念向量,通过计算两文本中概念向量的语义相似度来测度两文本的语义相似度。为验证基于概念向量文本语义相似度方法的准确性,选取TREC-05 genomics track数据进行实验,实验结果表明,本文提出的方法较常用的余弦方法更优,与专家评估方法更接近,在测度文本语义相似度上具有一定的可行性和有效性。  相似文献   

4.
大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的.  相似文献   

5.
基于多层特征的字符串相似度计算模型   总被引:18,自引:6,他引:12  
章成志 《情报学报》2005,24(6):696-701
针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法。对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正。实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义。  相似文献   

6.
曾文  徐红姣  李颖  王莉军  赵婧 《情报工程》2016,2(3):037-042
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。  相似文献   

7.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

8.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

9.
介绍本体的基本概念,论述本体的形式化表示和信息源表示,以及影响术语相似度的3个因素(距离,深度和密度),并在阐述如何计算术语相似度的基础上,描述基于本体和相似度检索过程。  相似文献   

10.
利用查询术语同义词关系扩展信念网络检索模型   总被引:2,自引:0,他引:2  
信念网络模型是一种重要的、基于贝叶斯网络的信息检索模型.它定义了一个明确的样本空间,给出了信息检索的一个灵活有效的基本框架.本文针对传统信念网络模型没有利用术语之间关系的缺陷,利用信息检索用同义词和词语相似度等概念,提出了最优同义词、相似概念、概念相似度等定义,提出了一种概念相似度的计算方法.然后利用上述定义对传统信念网络模型进行扩展,提出了一种基于查询术语同义词关系的扩展信念网络检索模型,讨论了扩展模型的拓扑结构和利用扩展模型进行信息检索的具体方法.实验结果表明,扩展后的信念网络模型比传统模型具有更好的检索性能.  相似文献   

11.
基于领域本体的文献模糊相似度算法研究   总被引:1,自引:0,他引:1  
利用分类主题一体化的主题词表构建领域本体,并通过概念间的关系定义及语义相似度公式,引入调整因子,确定概念相似度算法,再通过余弦系数法进一步得到文献间的相似度。对于本算法的结果,与领域专家预测的相似度进行比较,结果证实该算法有效。  相似文献   

12.
利用多策略模糊综合评判的方法进行术语关系识别,首先采用多种相似度计算方法计算术语的相似度,然后利用连续属性离散化方法确定关系类别及阈值区间的划分,利用样本分布概率确定区间对类别的隶属度,利用粒子群算法和交叉验证法确定因素权重,最后利用模糊综合评判方法将所有相似度计算方法的计算结果进行融合处理,实现术语关系的识别。本研究将以中国科学技术信息研究所已有的新能源汽车领域汉语科技词系统中的术语作为测试集,用准确率、召回率和 F 值对关系识别的结果进行评价,论证该方法的有效性。  相似文献   

13.
基于句子相似度的文档复制检测算法研究   总被引:3,自引:0,他引:3  
提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。  相似文献   

14.
一种新的数字图书馆图像检索算法   总被引:1,自引:0,他引:1  
提出一种适应图书馆特点的视觉特征和高层语义相结合的图像检索算法,通过相关反馈构建了动态的相似性度量方程。实验结果表明,综合视觉特征和语义特征的检索比仅利用视觉特征的检索能获得更高的检索率。  相似文献   

15.
In this paper a distance-angle-based visual retrieval tool DARE is introduced. The distance-based similarity distribution, angle-based similarity distribution, and the differences of their distributions in the visual space are analyzed. The document cluster analysis in the visual space and the document cluster comparison between the document space and the visual space are addressed. A new concept—Distance to Reference Axis—is introduced to better understand the visual space. The impact of other operations in DARE on the document distribution is discussed. Future research directions including significance of the index term distribution in the visual space and a user study are addressed.  相似文献   

16.
Exploiting the Similarity of Non-Matching Terms at Retrieval Time   总被引:2,自引:0,他引:2  
In classic Information Retrieval systems a relevant document will not be retrieved in response to a query if the document and query representations do not share at least one term. This problem, known as term mismatch, has been recognised for a long time by the Information Retrieval community and a number of possible solutions have been proposed. Here I present a preliminary investigation into a new class of retrieval models that attempt to solve the term mismatch problem by exploiting complete or partial knowledge of term similarity in the term space. The use of term similarity enables to enhance classic retrieval models by taking into account non-matching terms. The theoretical advantages and drawbacks of these models are presented and compared with other models tackling the same problem. A preliminary experimental investigation into the performance gain achieved by exploiting term similarity with the proposed models is presented and discussed.  相似文献   

17.
基于模糊语义距离的多媒体信息检索方法研究   总被引:4,自引:1,他引:3  
张李义 《情报学报》2003,22(2):131-135
与传统的数据库精确查询不同 ,多媒体信息检索的查询条件是不完备的。本文叙述利用模糊语义距离来检索多媒体数据库中信息的原理、算法 ,并将模糊相似测试作为检索结果判断标准 ,最后通过一个示例来说明本方法的使用。  相似文献   

18.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号