首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
介绍了分布式爬虫系统的背景、需求和实现目标,提出分布式爬虫系统的结构及任务调度策略,核心思想是以总控式的分布式结构设计整个爬虫系统,任务调度策略上采用二次Hash算法对把URL发送到指定附属机上机型爬行抓取。通过主控服务器和附属服务器的任务分工,多机协同合作,提高爬行整个网络的效率。  相似文献   

2.
利用用户指定的关键字和搜索引擎生成URL种子,通过分布式网络爬虫抽取符合用户需求的网页作为研究所用的语料.实验结果表明:分布式网络爬虫可以较好地解决在短时间内抽取大量语料的需求.  相似文献   

3.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

4.
垂直搜索中网页抓取技术的研究   总被引:1,自引:0,他引:1  
陈哲 《科技信息》2009,(22):I0182-I0182
网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。  相似文献   

5.
互联网信息的快速增长,给搜索引擎的信息采集系统带来更大的挑战.将优化的主动哈希策略和多级缓存策略应用到分布式信息采集系统的域名解析过程中,使得无需为DNS服务器进行额外设置就能极大提高域名解析的性能,在一定程度上提高了分布式信息采集系统的性能.  相似文献   

6.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

7.
针对双结构网络的特点及其URL去重面临的挑战,根据Bloom Filter的工作原理,提出一种基于可扩展的动态可分裂Bloom Filter的URL去重机制,并在原型系统中进行实现和部署。实验结果表明,该机制能够有效适用于大规模、高性能和分布式的双结构网络爬虫应用。  相似文献   

8.
分布式网络爬虫URL去重策略的改进   总被引:1,自引:0,他引:1  
分布式网络爬虫作为一门新兴技术,已经应用在一些大型商业的搜索引擎系统当中.重点放在分布式技术在网络爬虫领域中,URL去重这一分布式网络爬虫的核心问题上,以基于内存的去重方式为基础,扩展改进传统的广义表数据结构,提出了一种新的基于内存改进广义表的URL去重算法.这种算法与传统的去重算法相比较,在空间效率可行范围之内,有效地缩短了单次去重的时间,使总控服务器上的去重不再成为整个系统的瓶颈.  相似文献   

9.
随着网络资源的不断丰富,人们获取信息的途径已被网络代替。维吾尔文,在语言信息处理,WEB应用等领域有了迅速的发展。文章针对网络爬虫的工作原理以及聚焦爬虫策略进行阐述,在此基础上结合维吾尔语信息提取的相关研究,研究了维吾尔文的网络爬虫技术的结构和策略,从而为维吾尔文搜索引擎的网页数据库建设和维吾尔文网络舆情分析研究提供海量的语料。  相似文献   

10.
为提高DNS服务的响应时间,在分析DNS查询日志的基础上,提出了基于My SQL数据库的高可靠性缓存DNS系统,设计了该系统的框架结构,并在bind源代码的基础上使用C语言实现了该系统。通过大量域名对该系统进行压力测试表明,将DNS缓存存储于My SQL数据库相比传统DNS系统,在RTT max、RTT min、RTT average、Ran for、查询命中率和查询请求等方面都具有突出的性能,可大大改善DNS服务的响应时间。  相似文献   

11.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。  相似文献   

12.
为提高Web服务组合的运行效率,提出了基于有色Petri网的Web服务组合网系统概念,用于Web服务组合的建模和性能分析.以电子资源跨库查询过程为实例,构建实例的理想模型和缓存限制模型.模型支持Web服务组合协调节点间的网络延迟、数据依赖、控制依赖等因素.基于CPN Tools仿真平台,验证了模型的正确性,并在仿真实验中监测了查询延迟、查询成功率、缓存占用率等指标.结果表明,实施缓存限制策略前后,分布式模型比集中式模型均有更好的性能.  相似文献   

13.
目的针对百度和360等通用搜索引擎搜索旅游信息速度不够快、不准确和分类不明确的缺点,设计和实现了一个面向游客查找旅游信息的网络爬虫,给出了该网络爬虫所采用的自适应垂直搜索算法.方法基于领域本体,建立相应的知识模型和查询模型,并在基于知识模型和查询模型的基础上设计一个综合查询方法,拓展所需要查询的信息.结果设计了一种自适应旅游信息垂直搜索算法和相应的网络爬虫,并用软件实现了该网络爬虫.用设计的网络爬虫对辽宁省公园、辽宁省儿童公园和辽宁省森林公园进行的搜索,采用自适应算法搜索时,Per(用户搜索百分比)为92%,采用基于网页内容的URL选取算法搜索时,Per为82%.对吉林省旅游景点、吉林省公园和吉林省森林公园进行的搜索,采用自适应算法搜索时,Per为91%,采用基于网页内容的URL选取算法搜索时,Per为80%.与经典的搜索方法相比,搜索结果更准确,分类效果更好.结论所设计的垂直搜索算法对旅游信息的搜索是有效的,在查询的准确率和信息的分类上都有一定的提高和改进.  相似文献   

14.
结合主题爬虫和本体学习的研究现状,设计并实现了基于本体的主动学习主题爬行系统.通过更好地规划爬虫爬行流程,详细地划分功能相对独立的模块,提高了整个系统爬行工作效率和抓取相关网页的准确率.  相似文献   

15.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

16.
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。  相似文献   

17.
针对网络存储中I/O的瓶颈问题,设计了一个基于网络存储的分布式I/O缓存机制,通过本地缓存和远程缓存的两级缓存机制进行I/O性能的优化.其中本地缓存用来保存本地磁盘的读写信息,远程缓存用来协调远程机器的本地缓存.针对以上的缓存机制,设计了相应的数据块更新算法和缓存一致性策略,有效地保证了I/O缓存的性能.  相似文献   

18.
Web任务的分配影响Web服务器集群系统的整体性能。常用的分配方法是对用户的URL请求,根据服务器数量进行轮询分配。这种策略影响缓存的命中率和服务器性能的发挥。在分析了Web站点中文件的组织方式及用户对Web请求特征的基础上,提出了基于URL分配树的LT分配策略,根据URL地址构建URL分配树,对用户的请求进行响应。同时考虑任务的处理代价,各服务节点服务能力和当前负载状况,对服务节点进行负载均衡的任务分配。本文从缓存队列剩余、请求任务溢出情况和轮询分配策略进行了比较,实验表明本文的分配策略能根据服务节点的服务能力、负载状况进行合理地分配,实现了负载的真正均衡,提高了系统整体吞吐量。  相似文献   

19.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

20.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号