首页 | 官方网站   微博 | 高级检索  
     

使用联合链接相似度评估爬取Web资源
引用本文:张乃洲,李石君,余伟,张卓.使用联合链接相似度评估爬取Web资源[J].计算机学报,2010,33(12).
作者姓名:张乃洲  李石君  余伟  张卓
摘    要:如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.

关 键 词:聚焦爬行  主题相似度  链接评估  Web链接图  Q学习

Using a Joint Link Similarity Evaluation Based Method for Crawling the Resources on Web
ZHANG Nai-Zhou,LI Shi-Jun,YU Wei,ZHANG Zhuo.Using a Joint Link Similarity Evaluation Based Method for Crawling the Resources on Web[J].Chinese Journal of Computers,2010,33(12).
Authors:ZHANG Nai-Zhou  LI Shi-Jun  YU Wei  ZHANG Zhuo
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号