首页 | 官方网站   微博 | 高级检索  
     

基于信息增益的自适应主题爬行策略*
引用本文:熊忠阳,史艳,张玉芳.基于信息增益的自适应主题爬行策略*[J].计算机应用研究,2012,29(2):501-503.
作者姓名:熊忠阳  史艳  张玉芳
作者单位:重庆大学计算机学院,重庆,400044
基金项目:中央高校研究生科技创新基金个人项目(CDJXS11180014)
摘    要:结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。

关 键 词:主题爬行  维基百科  主题描述  自适应方法  信息增益

Adaptive focused crawling method based on information gain
XIONG Zhong-yang,SHI Yan,ZHANG Yu-fang.Adaptive focused crawling method based on information gain[J].Application Research of Computers,2012,29(2):501-503.
Authors:XIONG Zhong-yang  SHI Yan  ZHANG Yu-fang
Affiliation:(College of Computer Science, Chongqing University, Chongqing 400044, China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号