首页 | 官方网站   微博 | 高级检索  
     

基于贝叶斯分类器的主题爬虫研究*
引用本文:邹永斌,陈兴蜀a,王文贤.基于贝叶斯分类器的主题爬虫研究*[J].计算机应用研究,2009,26(9):3418-3420.
作者姓名:邹永斌  陈兴蜀a  王文贤
作者单位:1. 四川大学计算机学院,网络与可信计算研究所,成都610064
2. 四川大学计算机学院,网络与可信计算研究所,成都610064;四川大学信息安全研究所,成都610064
基金项目:国家“973”计划资助项目(2007CB311106)
摘    要:主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。

关 键 词:贝叶斯    分类器    主题爬虫    主题相关度

Research on focused crawler based on Bayes classifier
ZOU Yong-bin,CHEN Xing-shu,WANG Wen-xian.Research on focused crawler based on Bayes classifier[J].Application Research of Computers,2009,26(9):3418-3420.
Authors:ZOU Yong-bin  CHEN Xing-shu  WANG Wen-xian
Affiliation:(a.Network & Trusted Computing Institute, Computer College, b.Institute of Information Security, Sichuan University, Chengdu 610064, China)
Abstract:Focused crawler is the core technology to implement a focused search engine. This paper made a research on focused crawler based on Bayes classifier, introduced the system architecture and key implementation of a focused crawler based on Bayes classifier. The key parts of the crawler include URL queue, crawling history, page downloader and page analyzer. This paper focused on the page ranking algorithm based on Bayes classifier.Used an improved TF-IDF algorithm to extract the characteristics of the page content, and adopted Bayes classifier to compute the page rank. The experiment results show that Bayes classifier is a better choice than PageRank algorithm to implement a focused crawler, under the condition of large network of resources.
Keywords:Bayes  classifier  focused crawler  page ranking
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号