排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
2.
随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为DNS解析以及url去重而消耗大量的时间,为了更好地改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,使用哈希链表缓存DNS并将DNS解析的效率相对于普通不做DNS优化的爬虫提高了2.5~3倍。再将MD5加密算法以及树相结合设计出一种基于MD5的url去重树,理论上使得url去重的空间复杂度相对于普通哈希表缩小60倍,而让其查重的时间复杂度接近于O(1)。最终通过实验证明了该设计的数据结构较为良好。 相似文献
1