首页 | 官方网站   微博 | 高级检索  
     

Na(i)ve Bayes分类器制导的专业网页爬取算法
引用本文:韩国辉,陈黎,梁时木,唐小棚,王亚强,于中华.Na(i)ve Bayes分类器制导的专业网页爬取算法[J].中文信息学报,2010,24(4).
作者姓名:韩国辉  陈黎  梁时木  唐小棚  王亚强  于中华
作者单位:四川大学,计算机学院,四川,成都,610065
摘    要:从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术.在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件.该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Naive Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法.以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Naive Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率.

关 键 词:计算机应用  中文信息处理  搜索引擎  专业爬虫  链接前后文

Na(i)ve Bayesian Classifier Guided Domain Specific Webpage Crawling Algorithm
HAN Guohui,CHEN Li,LIANG Shimu,TANG Xiaopeng,WANG Yaqiang,YU Zhonghua.Na(i)ve Bayesian Classifier Guided Domain Specific Webpage Crawling Algorithm[J].Journal of Chinese Information Processing,2010,24(4).
Authors:HAN Guohui  CHEN Li  LIANG Shimu  TANG Xiaopeng  WANG Yaqiang  YU Zhonghua
Abstract:
Keywords:Na(i)ve Bayesian Classifier
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号