首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 297 毫秒
1.
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。  相似文献   

2.
一个P2P IPTV多协议爬行器——TVCrawler   总被引:2,自引:0,他引:2  
P2P IPTV网络测量是研究P2P IPTV行为和特征的重要手段,不仅有利于设计出更符合真实网络环境的系统或协议,也是实现P2P IPTV监测、引导和控制等方面的重要依据和基础。爬行器是P2P IPTV网络的一种主动测量技术,也是目前P2P IPTV测量的主要方式之一。提出了一个P2P IPTV多协议爬行器——TVCrawler,能够对PPLive、PPStream和UUSee三个系统的直播频道进行测量。TVCrawler主要具有三个特点:1)采用基于反馈的引导节点集构造机制;2)采用主从结构,并行爬行获取拓扑数据;3)采用基于拓扑增长系数的自适应爬行时长控制。实验表明,TVCrawler的爬行测量速度达到20~100节点/秒和130~500边/秒。  相似文献   

3.
陈良育  张召  曾振柄 《计算机应用》2007,27(Z2):246-248
提出一种新型的EstateSpider信息系统.EstateSpider基于并行技术,在网络上爬行并搜索有用的房产信息,利用统计学和数据挖掘等相关技术得到有实际应用价值的房产领域经验准则.实际运行结果表明Estatespider所归纳的规律是正确有效的.  相似文献   

4.
高性能并行爬行器   总被引:2,自引:0,他引:2  
爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。  相似文献   

5.
一种新的网络爬虫带宽控制策略   总被引:1,自引:0,他引:1  
网络爬虫如何在限定带宽的条件下进行爬行是一个有巨大应用价值的问题,但是目前对这个方面的研究较少,本文提出了一种基于对站点礼貌爬行的爬虫带宽控制策略,通过对不同站点下载速度的建模分析和基于礼貌爬行的访问频率控制,得到了面向站点的爬行控制算法,最后实验证明这种方法能够充分利用所限定的带宽.  相似文献   

6.
一种新的主题网络爬虫爬行策略   总被引:1,自引:0,他引:1  
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对二次爬行过程进行改进。在传统的主题网络爬虫流程中增加一份经验树,将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的经验,实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。  相似文献   

7.
凸曲面爬行波射线寻迹的研究   总被引:2,自引:0,他引:2  
吴萍  吴先良 《微机发展》2003,13(9):60-62
爬行波是非镜面散射问题中的一类重要问题,射线寻迹是求解爬行波散射贡献的关键环节。文中基于短程线的定义,结合自由曲线曲面几何造型技术,探讨了对任意凸曲面导体目标表面进行爬行波射线寻迹的方法。对可展面爬行波射线寻迹计算进行了讨论,计算结果与理论值吻合,证明了方法的有效性;在此基础上,对解析求解困难的非可展面的爬行波射线寻迹进行了计算。  相似文献   

8.
爬行波是非镜面散射问题中的一类重要问题,射线寻迹是求解爬行波散射贡献的关键环节.文中基于短程线的定义,结合自由曲线曲面几何造型技术,探讨了对任意凸曲面导体目标表面进行爬行波射线寻迹的方法.对可展面爬行波射线寻迹计算进行了讨论,计算结果与理论值吻合,证明了方法的有效性;在此基础上,对解析求解困难的非可展面的爬行波射线寻迹进行了计算.  相似文献   

9.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.  相似文献   

10.
张秀丽  梁艳 《机器人》2016,(4):458-466
受婴儿爬行时独特的躯体形态的启发,设计了具有柔性脊柱和弹性膝关节的欠自由度四足爬行机器人BabyBot,其脊柱为变截面通体柔顺结构,膝关节为无自由度可变形被动关节.利用伪刚体法对柔性脊柱和弹性膝关节的结构参数进行设计,采用中枢模式发生器(CPG)运动控制模型生成对角爬行步态轨迹,柔顺机构与仿生控制有机结合形成了BabyBot机器人"以膝着地、腰髋耦合"的仿婴儿爬行步态.对欠自由度仿婴儿机器人的机构可行性,以及柔性脊柱对机器人运动性能的影响进行仿真及实验,结果表明,具有弹性膝关节的欠自由度四足机器人可以实现平稳的爬行运动,变截面柔性脊柱能够减小机器人行走时躯干在横滚及偏转方向的姿态波动程度,提高了机器人运动的协调性和轨迹准确性,并揭示出婴儿爬行时脊柱的柔顺运动对稳定视觉的潜在作用.  相似文献   

11.
为了提高Web海量数据的抓掘效率,引入并行机群抓掘机制。为使机群中每个计算节点的能力得到充分发挥,应用向量度量技术解决抓取任务和计算节点能力匹配的问题。对抓取任务向量、计算节点向量进行定义,提出余弦向量匹配算法,描述相关并行算法。理论分析和实验表明,基于余弦向量匹配算法的挖掘任务分配模型具有良好的分配适应性和负载平衡性。  相似文献   

12.
徐文杰  陈庆奎 《计算机应用》2009,29(4):1117-1119
介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。  相似文献   

13.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

14.
The on-line auction is one of the most successful types of electronic marketplace and has been the subject of many academic studies. In recent years, empirical research on on-line auctions has been flourishing because of the availability of large amounts of high-quality bid data from on-line auction sites. However, the increasingly large volumes of bid data have made data collection ever more complex and time consuming, and there are no effective resources that can adequately support this work. So this study focuses on the parallel crawling and filtering of on-line auctions from the social network perspective to help researchers collect and analyze auction data more effectively. The issues raised in this study include parallel crawling architecture, crawling strategies, content filtering strategies, prototype system implementation, and a pilot test of social network analysis. Finally we conduct an empirical experiment on eBay US and Ruten Taiwan to evaluate the performance of our crawling architecture and to understand auction customers?? bidding behavior characteristics. The results of this study show that our parallel crawling and filtering methods are able to work in the real world, and are significantly more effective than manual web crawling. The collected data are useful for drawing social network maps and analyzing bidding problems.  相似文献   

15.
杨天奇  周晔 《计算机应用》2007,27(1):225-227
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的Web信息采集结构模型,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集。  相似文献   

16.
针对并行爬虫系统在多任务并发执行时所遇到的模块间负载平衡问题,提出流水线负载平衡模型(PLB),将不同的任务抽象为独立模块而达到各模块的处理速度相等,采用多线程的方式实现基于PLB的并行爬虫,根据线程的休眠和缓冲区的变化对线程数量进行动态调整以实现PLB。实验结果表明该方法具有良好的运行效率和稳定性。  相似文献   

17.
Identifying file systems metadata changes such as which files have been added, modified or removed from the file system has many usages. In this paper we present a framework we developed for identifying those changes in increasing speeds. Our framework which is composed of crawling, hashing, and scheduling components, allows to scale the crawl to multiple client workstations that operate in parallel on the same file system in a non-overlapping fashion. Experiments carried using real-world data indicate performance improvement (speedup) of up to 36X using our framework compared to legacy crawling utilities such as Linux’s ‘find’.  相似文献   

18.
聚焦爬虫技术研究综述   总被引:51,自引:1,他引:50  
周立柱  林玲 《计算机应用》2005,25(9):1965-1969
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。  相似文献   

19.
杨天奇  周晔 《计算机工程》2006,32(20):97-99
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。  相似文献   

20.
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号