首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
《计算机工程》2019,(11):62-67
传统分布式爬虫系统负载均衡方法仅考虑少量的负载影响因素,未对各爬虫节点负载情况进行全面有效的评估,使得任务量的分配不合理。针对该问题,提出一种面向分布式爬虫系统的高效负载均衡策略。分析影响爬虫节点运行时间的因素,采用BP神经网络构建基于多影响因素的非线性分布式爬虫节点运行时间模型。以该模型预测的各子节点运行时间的最小方差为负载均衡策略的目标函数,并利用带约束条件的改进粒子群优化算法求解目标函数,确定负载均衡的任务分配方案。实验结果表明,该负载均衡策略在满足爬虫节点高性能要求的前提下,能有效缩短分布式爬虫系统的运行时间。  相似文献   

2.
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.  相似文献   

3.
针对将海量爬虫节点组织成全分布式爬虫集群所遇到的高效、均衡、可靠、可拓展等问题,提出了一种基于Kademlia的全分布式爬虫集群方法。该方法通过改进的Kademlia技术建立起爬虫节点间的底层通信机制。在此基础上,根据Kademlia的异或特性及节点的可用资源情况,设计并实现具有任务划分、异常处理、节点加入退出处理及负载均衡的全分布式爬虫集群模型。在实际网络系统上的实验结果表明,该方法能有效利用海量弱计算终端的计算、存储和带宽资源,构建高效、均衡、可靠、可大规模拓展的全分布式爬虫集群。  相似文献   

4.
BitTorrent网络主动测量技术与特性分析*   总被引:2,自引:0,他引:2  
对BitTorrent进行了系统的研究,详细阐述了一种用于测量BitTorrent网络拓扑的爬虫设计与实现,并通过主动测量所获取的信息分析研究了BitTorrent的网络节点分布情况、在线节点周期特性、扩散跟踪、做种节点变化趋势,研究结果为BitTorrent网络的监管提供了良好的依据。  相似文献   

5.
面向垂直搜索引擎的Web站点划分方案   总被引:2,自引:1,他引:1       下载免费PDF全文
分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。  相似文献   

6.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

7.
《软件》2017,(10):83-87
随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。  相似文献   

8.
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.  相似文献   

9.
NOW环境中一种负载平衡系统ALBSIN的研究与实现   总被引:1,自引:1,他引:0  
本文介绍了一种在NOW(Network of Workstation)环境中进行负载平衡的方法-ALBSIN(A Loand Banlancing System in NOW),它采用分布式负载信息存储和交互的方式在节点间进行任务分配和负载平衡,实验表明,此方法具有良好的自适应性,可行性和可扩放性,是NOW中任务分配和负载平衡的一种理想方法。  相似文献   

10.
曹义亲  陈宁霞  黄晓生 《计算机科学》2017,44(3):89-96, 104
针对现有无线传感器网络任务分配策略通常不考虑任务内部结构,从而会影响网络生命周期、能耗及负载平衡等问题,基于逻辑依赖性提出一种新的无线传感器网络任务分配策略。该策略首先由选出的盟主根据任务本身具有的逻辑依赖性,逐层将任务分解为一系列的子任务,并依据逻辑依赖性赋予子任务优先级,最后运用矩阵的二进制编码设计一种基于位置加权的离散粒子群优化的带混合联盟的无线传感器网络任务分配算法,找到某个合适节点执行此子任务。引入虚拟节点以加强盟主间的交流;引入能量阈值对节点能量进行预测并决定子任务是否迁移;运用拓扑和逆拓扑排序法,根据子任务预期完成时间及权重系数求出关键子任务,选择优先分配能力强、执行效率高的节点执行相应子任务。仿真结果表明,该任务分配策略能有效延长网络生命周期、均衡网络负载和减少网络能耗等。  相似文献   

11.
分布式Web信息采集系统的研究与设计   总被引:6,自引:0,他引:6  
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。  相似文献   

12.
针对传统高校网站信息分散不便于智能终端访问的问题,提出将网络爬虫技术和微信公众号开发技术相结合开发高校信息服务平台,利用网络爬虫技术对分散的网站信息进行自动采集清洗归整,并使用微信公众平台向高校师生即时推送。实验表明,该平台与传统的信息获取方式相比,运行效率更高,用户的服务体验更好。  相似文献   

13.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。  相似文献   

14.
针对现有分布式循环自调度方案在异构云平台中存在负载不平衡等问题,提出一种基于多层架构的分层分布式动态循环调度方案。首先,通过HPLS算法来评估计算环境中各Worker节点的计算速度。然后,在传统自调度方案中融入节点计算速度,构建一种能够处理异构环境的调度方案,提高负载平衡能力。最后,将计算系统构建成一个由SuperMaster,Master和Worker节点组成的多层架构,利用层次化方法来解决传统Master-Worker架构中单个Master节点的瓶颈问题,用来提高任务分配效率。仿真实验结果表明,提出的方案能够有效提高云平台的计算效率。  相似文献   

15.

Web crawlers collect and index the vast amount of data available online to gather specific types of objective data such as news that researchers or practitioners need. As big data are increasingly used in a variety of fields and web data are exponentially growing each year, the importance of web crawlers is growing as well. Web servers that currently handle high traffic, such as portal news servers, have safeguards against security threats such as distributed denial-of-service (DDoS) attacks. In particular, the crawler, which causes a large amount of traffic to the Web server, has a very similar nature to DDoS attacks, so the crawler’s activities tend to be blocked from the web server. A peer-to-peer (P2P) crawler can be used to solve these problems. However, the limitations with the pure P2P crawler is that it is difficult to maintain the entire system when network traffic increases or errors occur. Therefore, in order to overcome these limitations, we would like to propose a hybrid P2P crawler that can collect web data using the cloud service platform provided by Amazon Web Services (AWS). The hybrid P2P networking distributed web crawler using AWS (HP2PNC-AWS) is applied to collecting news on Korea’s current smart work lifestyle from three portal sites. In Portal A where the target server does not block crawling, the HP2PNC-AWS is faster than the general web crawler (GWC) and slightly slower than the server/client distributed web crawler (SC-DWC), but it has a similar performance to the SC-DWC. However, in both Portal B and C where the target server blocks crawling, the HP2PNC-AWS performs better than other methods, with the collection rate and the number of data collected at the same time. It was also confirmed that the hybrid P2P networking system could work efficiently in web crawler architectures.

  相似文献   

16.
刘君  王恩泽  乔建忠  林树宽 《计算机科学》2011,38(2):103-105,113
对以充分利用空闲资源为目的的分布式计算环境来说,可用节点具有波动性,网络环境具有不确定性,从而影响计算效率。提出一种基于超边际分析的分布式计算资源分配方法,该方法把计算任务分配到具有比较优势的节点,选择执行能力更强的节点进行计算,提高了分布式计算环境中资源分配的效率。仿真结果表明此方法合理、有效,适用于分布式计算环境。  相似文献   

17.
分布式系统中的双向启动自适应任务分配算法   总被引:5,自引:0,他引:5  
本文讨论一种分布式系统中的任务分配算法,对它所使用的数据结构、算法实现以及性能等给予阐述,本算法采用双向启动策略,而且能根据系统总负功情况等自动选择发送者或接受者启动,所以称为双向启动自适应算法,同时,利用阈值和阈长两种参数把系统中的节点分为接受节点,负载适中节点和发送节点,它保证了寻找合作节点的优化和寻找速度的提高,是一种启发式算法。  相似文献   

18.
分布式多主题网络爬虫系统的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
白鹤  汤迪斌  王劲林 《计算机工程》2009,35(19):13-16,1
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。  相似文献   

19.
对集群环境下大规模遥感影像并行计算中任务分配效率低、负载不均衡的问题进行分析讨论,在此基础上建立多机任务分配模型,提出一种基于计算节点优先级的任务分配算法。该算法综合考虑计算节点的负载和性能,在任务分配时实时地收集各个节点的信息,计算出各个计算节点的优先级,按照优先级的高低分配任务,保证在满足集群间负载均衡的前提下能合理地将任务分配到计算节点。实验结果表明,该算法能快速实时地进行任务分配,任务的分布更加合理和均匀,并且当任务个数增多时,算法的执行效率要比轮转调度算法高出约2倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号