首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
现有针对MapReduce的负载均衡调度的研究均未考虑中间数据的分布特点及网络传输的开销,导致额外的网络传输代价与系统效率的下降。为解决上述问题,提出了一种数据本地性感知的负载均衡策略。充分利用YARN中资源管理的新特性,在Map阶段对内存数据溢写的同时进行统计以获取数据分布,根据数据分布情况及各节点的计算能力进行任务调度,减少网络传输开销的同时尽量保证各节点的负载平衡。此外,通过引入细粒度分区与分区的自适应分裂策略,进一步提高在数据倾斜时调度策略的性能。对比实验结果表明,提出的负载均衡调度策略能有效提升性能,同时较好地降低网络总开销。  相似文献   

2.
袁丽娜 《计算机科学》2017,44(Z11):397-399, 431
HDFS默认的数据副本放置策略仅仅只根据磁盘空间使用单个指标进行负载衡量,无法实现各节点真正的负载均衡。提出了一种基于性能的副本负载均衡放置改进策略,从磁盘空间负载能力、CPU处理能力、内存处理能力、磁盘读写处理能力、带宽等5个方面考究节点实际工作负载,并定义了一个负载能力模型。实验结果表明,该改进策略比默认策略能更好地实现副本的均衡放置。  相似文献   

3.
连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。  相似文献   

4.
数据倾斜是严重影响MapReduce性能的因素之一.数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担.为解决上述问题,提出了一种基于压力统计的负载均衡策略.该策略充分利用MapReduce中的混洗阶段,在reducer准备数据的同时进行统计,以获取全局数据分布.系统根据数据分布情况对负载较重节点进行调度,平衡整个集群负载,而无需用户提供额外的输入.此外,考虑到上层不同的应用类型,引入了压力反馈机制来进一步提高调度策略的性能.实验结果表明,提出的负载均衡调度策略的性能优于默认策略性能.  相似文献   

5.
王鑫  孟雨  覃琴  蒋华 《计算机应用研究》2020,37(4):1111-1114
为了提高云计算数据调度和副本访问的效率,对副本策略中的副本放置问题进行研究,提出一种基于蚁群算法的副本放置策略。根据自然界中蚁群觅食的原理,把蚁群算法应用于副本放置的整个过程; 利用信息素的动态更新以及拉普拉斯概率分布改进的蚁群算法得出一组最优解进行副本放置。在CloudSim平台上进行了仿真模拟,实验结果表明,提出的方案在平均作业完成时间、网络利用率和负载均衡度上均优于原始蚁群算法,并在一定程度上降低了副本放置的时间消耗和网络负载。  相似文献   

6.
7.
基于MapReduce虚拟集群的能耗优化算法   总被引:1,自引:0,他引:1  
随着全球能源危机的出现,许多研究者开始关注数据中心的能耗问题。在满足用户需求的前提下,减少数据中心的活跃节点个数能够有效地降低其能耗。传统的减少活跃节点的方式是虚拟机迁移,但虚拟机迁移会造成极大的系统开销。提出一种基于MapReduce虚拟集群的能耗优化算法--在线时间平衡算法OTBA,能够减少活跃物理节点数,有效降低数据中心的能耗,并且避免了虚拟机的迁移。通过建立云数据中心的能耗模型、用户提交服务的排队模型和评价作业完成质量的作业运行模型,确定了数据中心节能模型的目标函数和变量因子。在线时间平衡算法是基于虚拟云环境和在线MapReduce作业的一种节能调度算法,能够在虚拟机的生命周期和资源利用率之间做出权衡,使数据中心激活的服务器达到最少,能耗降到最低。此外,该结果通过仿真和Hadoop平台上的实验得到了验证。  相似文献   

8.
网络流媒体服务具有数据流量大、服务时间长的特点,同时,高并发的服务请求会造成流媒体服务质量明显下降等性能瓶颈问题。针对这种现象,设计了一种基于Zipf分布规律的两阶段副本放置策略,并成功应用于某市中小学心理辅导的视讯平台。实践结果表明,与传统的方法相比,该方法具有较好的实用值和健壮性。  相似文献   

9.
一种周期性MapReduce作业的负载均衡策略   总被引:1,自引:0,他引:1  
MapReduce任务负载均衡主要是通过分区函数来实现的,Hadoop默认的分区函数并不能很好地保证reducer的负载均衡。针对周期性的业务处理提出了一种基于权重计算的负载均衡策略,周期性任务的数据分布与历史数据相比具有相似性。本策略根据历史数据运行的信息运算出数据权重信息(文中用权重表示每条记录的处理复杂 度),再通过Map阶段抽样分析当前这批数据的分布特征来预测待处理数据带权重的整体近似分布情况,从而指导Reduce分区,以保证其负载均衡。通过简单的例子仿真了整个策略的运作过程,并且对比了与TeraSor、思路的不同点。最后通过分析用户访问视频的日志证明了文中提到的策略比默认的策略性能提高了接近1倍。  相似文献   

10.
在MapReduce模型任务处理过程中,当Reduce任务开始执行,远程拉取Map阶段的输出数据时,会消耗大量的网络带宽,甚至会出现网络瓶颈问题。本文提出基于数据本地化和负载均衡的任务分配策略。该策略中用户首先设置采样数据量M,在Map阶段对前M个数据块进行采样;其次根据采样结果,同时考虑数据本地化因素,将Reduce任务进行分配;然后基于负载均衡将Reduce任务进行再分配,通过任务分配,系统生成一个任务分配表;最后启动Reduce任务,系统开始数据拉取,未被采样的数据根据任务分配表进行任务分配。通过大量实验验证,基于数据本地化和负载均衡的任务分配策略,既能减少Shuffle阶段数据的传输量,又能降低网络带宽的消耗,同时可以避免出现某些节点空闲而其它节点任务量大甚至处理不了的情况,从而提高了集群处理数据的整体能力。   相似文献   

11.
宋杰  王智  李甜甜  于戈 《软件学报》2015,26(8):2091-2110
在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗优化方法多采用负载集中和节点开关算法,但由于MapReduce任务的特点,集群节点不仅要完成运算,还需要存储数据,因此,传统方法难以应用到MapReduce集群.提出了良好的数据布局可以优化集群能耗.基于此,首先定义了数据布局的能耗优化目标,并提出相应的数据布局算法;接着,从理论上证明该算法能够实现数据布局的能耗优化目标;最后,在异构集群中部署3种数据布局不同的MapReduce系统,通过对比三者在执行CPU密集型、I/O密集型和交互型这3种典型运算时的集群能耗,验证了所提出的数据布局算法的能耗优化效果.理论和实验结果均表明,所提出的布局算法能够有效地降低MapReduce集群的能耗.上述工作都将促进高能耗计算和大数据分析的应用.  相似文献   

12.
一种流媒体文件的分块放置方法   总被引:9,自引:0,他引:9  
吴松  金海  邹德清 《计算机学报》2006,29(3):500-507
在研究了文件内部访问倾向性特征的基础上,提出了一种新型的流媒体文件分块放置策略.它能够有效消除流媒体访问倾向性对服务器性能的负面影响,提高流媒体服务器的服务能力.  相似文献   

13.
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络.针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法.根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销.使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性.  相似文献   

14.
数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性, MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型。由于所处理的数据可能不是均匀分布的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题。数据倾斜问题严重降低了MapReduce执行连接操作的效率。针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略。实验结果表明,所提方法明显提高了连接的效率。  相似文献   

15.
汤小春  胡杰 《计算机工程》2008,34(23):76-78
数据放置活动在以计算为主的分布式计算中被看作是次要的任务。文章将数据放置工作与计算工作区别对待,定义分布式计算过程中的数据放置模型,给出数据放置协议和可靠的数据传输算法,使得数据放置活动在分布式计算中像计算工作一样被排列、调度、监控、管理以及检测。对数据放置方法进行了系统的评价,取得了较好的效果。  相似文献   

16.
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。  相似文献   

17.
机群系统中,结点机差异及动态运行环境是导致系统运行状态不均衡的主要原因.提出了结点机差异及负载测量指标和方法.以SPMD编程模型中的单一并行任务为测试程序,在机群系统性能测试、分析的基础上,进行运行时间相同原则基础上的静态任务分配;在应用运行过程中,通过对并发线程运行状态测试,用已完成任务的高速设备重复执行低速机器未完成任务,选取最快运行结果.从而缩小不均衡因素的影响.以空间划分大规模Monte Carlo仿真问题为例进行算法实际测试,取得良好运行效果.  相似文献   

18.
多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的“木桶效应”,通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.该研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接、社交网络中社团发现的链式连接等应用的性能.  相似文献   

19.
数据分布是并行数据库系统实现的基础,其方法的优劣,直接影响到并行数据库的运行效率。通过对一维、多维几种数据分布方法的分析、对比,阐述并行数据库数据分布策略及方向。  相似文献   

20.
针对传统MapReduce算法结构在处理大数据时,负载均衡性能不理想的缺点,设计了一种具有负载均衡机制的层次MapReduce模型。该模型利用超立方拓扑结构对MapReduce的映射操作进行改进,通过特定算法将八个结构化的数据中心链接到一个对等的云环境结构中,并使用奇偶直方图组合采样方式的均衡划分方法,实现在用户请求下的节点工作负荷指数均衡。最后,基于Hadoop框架对所提算法进行仿真实验,结果显示本文所提算法结构相对于原始MapReduce结构,具有更高的并行计算的资源利用率,以及更佳的容错和负载均衡性能,综合性能得到有效提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号