基于内容与链接分析的主题爬虫研究与设计 |
| |
引用本文: | 舒 奔,尹 珂. 基于内容与链接分析的主题爬虫研究与设计[J]. 计算机与现代化, 2014, 0(4): 77 |
| |
作者姓名: | 舒 奔 尹 珂 |
| |
摘 要: | 现存主题爬虫算法在抓取主题网页方面,其准确性不是很高。本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法。首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡。新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高。
|
关 键 词: | 主题爬虫 主题相关度 主题网页 |
收稿时间: | 2014-04-23 |
Research and Design on Topical Crawler Based on Analysis of Content and Link |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《计算机与现代化》浏览原始摘要信息 |
|
点击此处可从《计算机与现代化》下载全文 |
|