首页 | 官方网站   微博 | 高级检索  
     

基于WebDriver的定向网络爬虫设计与实现
作者单位:;1.华北计算技术研究所
摘    要:随着Web 2.0的兴起,网络上的海量信息迎来了爆发性地增长。从网络上的公开数据中提取有效信息成为了数据挖掘领域的新热点。数据获取是数据分析的第一步。Web 2.0时代的网站在内容和形态方面发生了深刻的变化,对传统的以静态页面分析为基础的网络爬虫提出了新的挑战。本文利用Web Driver实现了一个定向网络爬虫,该爬虫能够自动采集指定网页数据,支持Ajax等动态技术,能够对简单验证码进行识别,并绕过爬虫检测。利用该爬虫对全国企业信用信息系统进行爬取,取得了良好效果。

关 键 词:网络爬虫  网页解析  动态内容获取

Design and Implement of WebDriver Based Crawler
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号