共查询到18条相似文献,搜索用时 671 毫秒
1.
在大规模的Hadoop集群中,良好的任务调度策略对提高数据本地性、减小网络传输开销、减少作业执行时间以及提高集群的作业吞吐量都有着重要的影响。本文针对Hadoop架构中Reduce任务的数据本地性较低问题,提出了一种基于延迟调度策略的Reduce任务调度优化算法,通过提高Reduce任务的数据本地性来减少作业执行时间以及提高作业吞吐量,该算法在Hadoop架构的Early Shuffle阶段,使用多级延迟调度策略来提高Reduce任务的数据本地性。最后重写原生公平调度器代码实现了该调度算法,并与原生公平调度器进行了对比实验分析,实验结果表明该算法明显减少了作业执行时间,提高了集群的作业吞吐量。 相似文献
2.
作为开源云计算平台的核心技术之一,Map Reduce作业处理框架及其作业调度算法,对整个系统的性能起着至关重要的作用,而数据本地性是衡量作业调度算法好坏的一个重要标准,首先本文介绍和分析了Map Reduce基本原理,Map Reduce作业处理机制和Map Reduce作业调度机制及其在数据本地性方面表现出的优缺点等相关内容。其次,针对原生作业调度算法在数据本地性考虑不周全的问题,结合数据预取技术的可行性与优势,通过引入资源预取技术设计并实现一种基于资源预取的Hadoop Map Reduce作业调度算法,使作业执行效率更高。 相似文献
3.
4.
Hadoop处理海量数据时,无论是Map任务还是Reduce任务都需要耗费大量的时间传输数据,故提出一种基于双重预取的调度算法;该算法通过估算节点上任务执行的进度来预测Map任务的执行节点,然后通知节点提前预取所需的数据,并且在Map任务完成的数量达到预定值时,开始为Reduce任务预取部分数据;由于在异构的环境下集群中节点的性能各不相同,为此采取了改进的预测模型,以提高任务进度判断的准确性;实验证明,本算法在作业响应时间等方面优于现有的调度算法。 相似文献
5.
胡静 《计算机工程与设计》2023,(2):432-439
为满足服务商获得最大收益、达到平台资源利用率最大的要求,提出一种基于奖惩共存收益模式的大数据作业调度器,该调度器中包括基于任务执行时间的确定轮数算法(TRN)和基于最大轮数的作业调度算法(MRNS)。TRN确定作业在不同奖惩阶段的Map和Reduce的最大轮数组合以及最大标准时间;MRNS选择具有局部最大收益的作业和该作业的任务最大轮数方案,制定出基于任务的作业调度策略。实验结果表明,提出的作业调度器对比已有的调度器,作业平均完成时间缩短了13.5%~25.9%、服务商收益提高了16.3%~26.4%,平台资源利用率平均提高了7.8%~10.3%,故该大数据作业调度器具有一定的高效性和可用性。 相似文献
6.
《计算机应用与软件》2016,(1)
针对MapReduce的默认调度策略先进先出(FIFO)在执行任务时考虑本地性调度带来的任务等待时间长、资源利用率不高和没有考虑任务的优先级等问题,提出一种基于集群拓扑结构的工作流实时调度算法。MapReduce在对工作流进行Map处理时,首先根据taskTracker的计算能力和数据大小对map阶段工作流的完成时间进行估计,得到一个完成时间隶属函数,然后再利用集群的拓扑结构,得到taskTracker在集群中的距离隶属函数,根据这两个隶属函数来对集群中的taskTracker在工作流处理时间和数据传输时间进行综合性能评估,这样可以有效地缩短任务的等待时间并提高资源的利用率。同时该算法采用对作业进行优先级划分的方式,满足不同类型作业的需求。大量的实验结果表明:该优化策略在平均完成时间和平均等待时间方面要优于FIFO算法,可以有效提高工作流处理的实时性。 相似文献
7.
针对Hadoop平台下默认调度算法FIFO、计算能力调度算法以及公平调度算法在调度过程中遵守严格的队列顺序,导致一些任务被调度到不满足数据本地性节点上的问题,提出一个基于本地性的调度算法——延时调度。该算法在维护公平性原则的同时,当一个被调度的作业无法启动一个本地的任务时,让这个任务等待一小段时间,调度其他作业先执行。实验结果表明,此调度算法缩短了作业平均响应时间,有效增加了集群系统的吞吐量,提高了集群资源利用率。 相似文献
8.
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 相似文献
9.
10.
11.
研究对比Hadoop平台下默认的推测任务调度算法和异构环境下LATE调度算法的优势和不足,提出了一种基于Hadoop集群的改进的推测任务调度算法.该算法以节点历史信息对Reduce任务各阶段比例进行动态调整和更新,并对任务实时处理速率进行局部平滑处理来提高预估任务剩余完成时间的准确性,最后采用MCP模型对备份任务有效性进行验证.通过实验结果分析可知:该算法能够有效提升备份任务成功率,减少作业完成时间. 相似文献
12.
对于具有相关性的任务,调度顺序不合理将影响任务的执行时间和实时性。结合物联网终端任务间依赖关系复杂的特点提出了一种利用任务相关性的调度策略。该策略设计了以作业轮询组为主体的任务模型,根据任务时限建立了优先级因子矩阵作为任务调度的凭据,对于周期任务,在每个任务执行完毕后生成,以任务相关性为参数的增量矩阵用以动态修改任务优先级,使前驱任务能优先执行;对于非周期任务采用了构建临时作业轮询组的方式进行抢占调度。测试结果表明,该策略能够有效减少具有相关性的周期任务集执行时间和调度失败次数,缩短非周期任务响应时间。 相似文献
13.
考虑网格资源异构、自治、动态等特性,讨论本地用户具有强占优先权情况下的任务调度问题,提出了TBBS(Time-Balancing Based Scheduling Algorithm)算法.建立调度优化模型,以期望完成时间最小为目标选择执行任务的最佳资源组合.以时间均衡策略将任务分解并调度到资源上执行,减少了子任务同步时因等待而产生的延时,获得较好的并行计算性能.采用重复调度策略,适应计算网格中资源的特性. 相似文献
14.
针对在异构环境下采用现有MapReduce任务调度机制可能出现各计算节点间数据迁移和系统资源分配难以管理的问题, 提出一种动态的任务调度机制来改善这些问题。该机制先根据节点的计算能力按比例放置数据, 然后通过资源预测方法估计异构环境下MapReduce任务的完成时间, 并根据完成时间计算任务所需的资源。实验结果表明, 该机制提高了异构环境下任务的数据本地性比例, 且能动态地调整资源分配, 以保证任务在规定时间内完成, 是一种有效可行的任务调度机制。 相似文献
15.
MapReduce编程模型被广泛应用于大数据处理平台,而一个有效的任务调度算法对模型的运行效率至关重要。将MapReduce工作流的Map和Reduce阶段分别拆解为若干个有先后序限定关系的作业,每个作业再拆解为多个任务。之后基于计算集群的可用资源和任务异构性,构建面向作业和任务的2级有向无环图(DAG)模型,同时提出基于2级优先级排序的异构调度算法2-MRHS。算法的第1阶段进行优先级排序,即对作业和任务分别进行优先权值计算,再汇总得到任务的调度队列;第2阶段进行任务分配,即基于最快完成时间将每个任务所包含的数据块子任务分配给最适合的计算结点。采用大批量随机生成的DAG模型进行实验,结果表明与其他相关算法相比,本文算法有更短的调度长度(makespan)且更加稳定。 相似文献
16.
MapReduce是云计算中重要的批数据处理框架,多任务共享MapReduce机群并满足任务实时性要求是调度算法急需解决的问题。提出两阶段实时调度算法,将调度划分为任务间调度和任务内调度。对于任务间调度,使用抽样法和经验值法确定子任务执行时间,利用该参数建立资源分配模型,动态确定任务优先级进行调度;对于子任务使用延迟调度策略进行调度,保证计算的本地性。实验结果显示,两阶段实时调度算法相比公平调度算法和FIFO算法,在保证吞吐量的同时能够满足任务实时性要求。 相似文献
17.
由于任意的MapReduce作业都需要独立地进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切分成多个MapReduce job协作完成。以ItemBased算法为例,对多MapReduce作业协同下的大数据挖掘算法存在的资源效率问题进行了分析,提出基于DistributedCache的ItemBased算法,利用DistributedCache将多个MapReduce job之间的I/O数据进行缓存处理,打破作业之间独立性的缺陷,减少map与reduce任务之间的等待时延。实验结果表明,DistributedCache能够提高MapReduce作业的数据读取速度,利用DistributedCache重构后的算法极大地减少了map与reduce任务之间的等待时延,资源效率提高3倍以上。 相似文献