Nave Bayes分类器制导的专业网页爬取算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Nave Bayes分类器制导的专业网页爬取算法

引用本文：	韩国辉,陈黎,梁时木,唐小棚,王亚强,于中华.Nave Bayes分类器制导的专业网页爬取算法[J].中文信息学报,2010,24(4):32-39.

作者姓名：	韩国辉陈黎梁时木唐小棚王亚强于中华

作者单位：	四川大学计算机学院, 四川成都 610065

摘要：	从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。
关键词：	计算机应用中文信息处理搜索引擎专业爬虫 Nave Bayesian Classifier 链接前后文
本文献已被 CNKI 等数据库收录！
	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文