DeepWeb可配置聚焦爬虫设计与实现 |
| |
引用本文: | 罗成,程耀东,胡庆宝,李海波.DeepWeb可配置聚焦爬虫设计与实现[J].核电子学与探测技术,2014(3). |
| |
作者姓名: | 罗成 程耀东 胡庆宝 李海波 |
| |
作者单位: | 中国科学院高能物理研究所;中国科学院大学; |
| |
摘 要: | 大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
|
关 键 词: | 聚焦爬虫 Deep Web 大数据 |
本文献已被 CNKI 等数据库收录! |
|