首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
工业技术   2篇
  2015年   1篇
  2013年   1篇
排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
严磊  马勇男  丁宾  郑涛 《福建电脑》2013,29(3):83-85
21世纪的今天,网络信息量呈几何倍数的增长。传统的通用搜索引擎已经不能很好的满足我们对特定信息的需求。所以,针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的垂直搜索引擎应运而生。而主题网络爬虫则是为垂直搜索引擎提供数据的自动化程序。本文主要研究了主题爬虫的各种搜索策略,指出了其中的劣以及最后对将来的发展做出了一个展望。  相似文献   
2.
随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为DNS解析以及url去重而消耗大量的时间,为了更好地改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,使用哈希链表缓存DNS并将DNS解析的效率相对于普通不做DNS优化的爬虫提高了2.5~3倍。再将MD5加密算法以及树相结合设计出一种基于MD5的url去重树,理论上使得url去重的空间复杂度相对于普通哈希表缩小60倍,而让其查重的时间复杂度接近于O(1)。最终通过实验证明了该设计的数据结构较为良好。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号