首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
为更加精确的计算科学数据共享工程中科学元数据间的相似度,提出了一种内容与结构相结合的科学元数据相似度计算方法。在综合分析各个领域元数据特点的基础上,把科学元数据相似度的计算分为两个方面:内容相似度和结构相似度。其中内容相似度基于改进的向量空间模型计算而得,结构相似度包含元数据树的节点相似度和层次相似度两个方面,两者叠加计算出相似度值,并通过实验证明了该方法具有更高的准确性和有效性。  相似文献   

2.
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。  相似文献   

3.
传统的手工构建本体是一项费时费力的工作.对比和借鉴了国内外本体自动获取的方法和思路,提出了基于WordNet和聚焦爬虫的半自动领域本体构建方法,以WordNet为中心,聚焦爬虫为辅助,通过计算概念之间相似度,构建本体,实验结果表明,该方法可以有效地快速构建领域本体,还可用于扩展本体.  相似文献   

4.
基于问句相似度的中文FAQ问答系统   总被引:5,自引:0,他引:5  
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。  相似文献   

5.
图像特征匹配是基于内容的图像检索(Content based image retrieval,CBIR) 实现的一个关键环节,而图像特征的匹配主要依赖于图像特征之间的相似度测量。为了提高CBIR的检索性能,本文提出了一种有效的相似度测量方法——基于图像k近邻的相似度测量(Similarity measure based on k-nearest neighbors of images, SBkNN)方法。在该方法中,查询图像与被检索图像的相似度通过计算这两幅图像属于同一语义(无论是哪种语义)种类的联合概率来衡量,而此概率可分别通过分析这两幅图像与各自近邻图像的距离得到。最后利用Corel5k数据集对本文所提出的SBkNN方法和传统的相似度测量方法进行了对比。实验结果表明,在CBIR中使用本文提出的SBkNN方法,有效地提高了CBIR的检索性能。  相似文献   

6.
使用联合链接相似度评估爬取Web资源   总被引:1,自引:0,他引:1  
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.  相似文献   

7.
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性.  相似文献   

8.
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。  相似文献   

9.
在已有P2P模型的基础上提出了基于内容相似度和推荐反馈计算节点推荐值的对等网络信用模型IPBS(Integrated-partial based similarity Trust).该模型利用节点间的内容相似度来评价节点提供推荐服务的能力,根据每次交易的内容不同而改变节点间相似度值;同时依据节点交易历史时间和推荐反馈值自适应动态地调整节点的推荐值;实例表明,IPBS节点间推荐值,通过参考节点内容相似度、交易历史时间和推荐反馈3种机制,加强了模型的动态适应能力和搜索服务的效率.  相似文献   

10.
提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较.实验结果表明,该算法取得了更好的准确率和效率.  相似文献   

11.
基于单类别文档分类的主题爬虫   总被引:1,自引:0,他引:1       下载免费PDF全文
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。  相似文献   

12.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

13.
为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.  相似文献   

14.
基于贝叶斯分类器的主题爬虫研究*   总被引:4,自引:0,他引:4  
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。  相似文献   

15.
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。  相似文献   

16.
为了提高目前爬虫算法抓取结果的有效性, 提出了一种旨在获取有效信息的改进网络爬虫算法, 主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中, 网络资源定位符被分层存储, 在保留信息全部拓扑关系的基础上, 将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下, 实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据, 结果表明, 改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此, 分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。  相似文献   

17.
Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。  相似文献   

18.
基于语义分析的主题信息采集系统的设计与实现   总被引:5,自引:0,他引:5  
设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较高的采集效率及精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号