期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘宇于炯蒲勇霖李梓杨张译天《计算机应用研究》2021,38(1):198-203

作为新一代大数据流式计算框架,Heron忽略了任务实例之间不同通信方式的差异以及节点资源利用率不均衡的问题导致系统性能下降。针对这一问题,设计了节点资源限制模型、通信开销优化模型和实例数据流关系模型,并在此基础上提出了Heron环境下基于实例重分配的传输负载优化策略(transmission load optimization strategy based on instance reallocation in Heron,TLIR-Heron)。该策略包括节点资源限制算法和实例重分配算法,通过判定实例重分配条件并执行重分配算法将节点间数据流转换为节点内数据流,从而降低通信开销。实验结果表明,在三组拓扑测试下,TLIR-Heron相较于Heron默认调度策略能够降低节点间通信开销和系统的计算延迟,并提升了计算节点资源利用的均衡性。相似文献

2.

Storm环境下基于权重的任务调度算法

鲁亮于炯卞琛英昌甜师康利蒲勇霖《计算机应用》2018,38(3):699-706

大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度,未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式,在负载均衡和通信开销方面存在较大的优化空间。针对这一问题,提出一种Storm环境下基于权重的任务调度算法（TSAW-Storm）。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小,分别确定拓扑的点权和边权;并利用最大化边权增益的思想,逐步构建起各工作节点中承载的任务集合,在保证集群负载均衡的同时,尽可能将边权较大的节点间数据流转化为节点内数据流,从而降低网络传输开销。实验结果表明,在包含有8个工作节点的WordCount基准测试中,TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%,且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%;此外,在与在线调度算法的对比实验中,TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%,且算法的执行开销明显降低,有效提高了Storm系统的运行效率。相似文献

3.

Storm环境下基于拓扑结构的任务调度策略

刘粟于炯鲁亮李梓杨《计算机应用》2018,38(12):3481-3489

针对Storm流式计算平台中默认轮询调度策略存在通信开销大、负载不均衡的问题,提出基于拓扑结构的任务调度策略（TS²）。首先,选取CPU资源充足且可用的工作节点并各分配一个进程,消除节点内进程间通信开销,优化进程部署;然后,分析拓扑结构,找出拓扑中度最大的组件,优先分配该组件的线程;最后,在满足节点可承载最大线程数的条件下,尽可能将关联任务部署到同一个节点来减少节点间通信开销,改善集群负载均衡,优化线程部署。实验结果表明：在系统延迟方面,与Storm默认调度策略和离线调度策略相比,TS²的平均优化率分别为16.91%和5.69%,有效提高了系统的实时性;在节点间通信开销方面,TS²相比于Storm默认调度策略平均降低了15.75%;在平均吞吐量方面,TS²相比于Storm默认调度策略平均提升了14.21%。相似文献

4.

基于Flink的任务调度策略

何贞贞于炯李梓杨国冰磊《计算机工程与设计》2020,41(5):1280-1287

针对大数据流式计算平台拓扑中因各关键节点上任务间不同类型的通信方式导致的通信开销较大问题,提出一种Flink环境下的任务调度策略。通过各任务间数据流大小确定拓扑边权重,将有向无环图转化为拓扑关键路径模型,在保证关键路径上节点负载差异较小的同时,最小化关键任务的节点间通信开销。实验结果表明,该算法与Flink平台现有的任务调度策略相比,在WordCount和TwitterSentiment作业执行过程中计算平均时延降低了13.09%,有效提升了系统性能。相似文献

5.

一种降低核间通信开销的调度算法

韩乐陈香兰李曦《计算机系统应用》2014,23(9):65-71

近年来,多核处理器在嵌入式领域得到越来越广泛的应用,但多核间不可避免的通信开销阻碍了系统性能大幅提升,因此研究如何降低核间通信开销变得尤为重要. 针对同构多核平台上周期依赖任务,提出一种降低核间通信开销的任务调度算法并在该基础上进行优化,通过对部分任务预先调度一个周期,将周期内任务间的数据依赖转换成周期间的数据依赖,从而缩短调度长度,提高系统性能. 对以上算法进行仿真模拟,并分别在双核和四核平台上进行多组实验. 结果表明：提出的调度优化算法可以显著降低周期依赖任务核间通信开销,提高执行效率. 相似文献

6.

改进蚁群算法的Storm任务调度优化

下载免费PDF全文

王林王晶《计算机测量与控制》2019,27(8):236-240

Apache Storm 默认任务调度机制是采用Round-Robin（轮询）的方法对各个节点平均分配任务,由于默认调度无法获取集群整体的运行状态,导致节点间资源分配不合理。针对该问题,利用蚁群算法在NP-hard问题上的优势结合Storm本身拓扑特点,提出了改进蚁群算法在Storm任务调度中的优化方案。通过大量实验找到了启发因子α与β的最佳取值,并测得改进后蚁群算法在Storm任务调度中的最佳迭代次数;引入Sigmoid函数改进了挥发因子ρ,使其可以随着程序运行自适应调节。从而降低了各个节点CPU的负载,同时提高了各节点之间负载均衡,加快了任务调度效率。实验结果表明改进后的蚁群算法和Storm默认的轮询调度算法在平均CPU负载上降低了26%,同时CPU使用标准差降低了3.5%,在算法效率上比Storm默认的轮询调度算法提高了21.6%。相似文献

7.

面向云环境的Flink负载均衡策略

徐浩桐黄山孙国璋贺菲莉段晓东《计算机工程与科学》2022,44(5):779-787

作为新一代的大数据计算引擎,Flink得到了广泛应用。Flink在云环境下进行容器化部署时,其默认任务调度算法不能感知节点的资源信息,导致即时调整负载和自主均衡能力较差,而主流的容器编排工具虽然提供了管理容器的可能性,却也未能结合Flink特点解决平衡资源利用的同时降低容器组内的通信开销问题。针对以上问题开展研究,提出了一种面向云环境的Flink负载均衡策略FLBS,综合考虑了Flink集群中算子的分布特点和容器间通信机制,以节点间通信开销和均衡负载作为评估标准。实验结果表明,与Flink默认调度策略相比,FLBS能够有效提高计算效率,提升系统性能。相似文献

8.

基于温度感知任务调度的3D NoC混合拓扑结构_*

冯申杰程良伦《计算机应用研究》2017,34(8)

3D NoC较高的功率密度容易造成温度过高,对系统性能和芯片可靠性造成负面影响。利用温度感知任务调度来控制节点温度的思路是在运行时把“热”节点上的任务迁移到“冷”节点上,这不可避免会出现迁移之后任务间通信距离变大进而影响整体性能。因此,在任务调度的过程中保持通信开销已经成为迫切需求。提出了分层次的ring/mesh 混合拓扑结构RMH,可以在任务迁移的同时保持原来较小的通信延迟。仿真结果表明,相比于3D NoC拓扑结构,RMH拓扑可以有效缓解散热问题,并且平均减少31.1%的网络延迟。相似文献

9.

面向温度优化的片上网络任务调度方法

吉慧周磊《计算机工程与科学》2018,40(9):1527-1533

随着片上网络规模的扩大和研究的逐步深入,如何将芯片上众多的任务进行合理的调度成为系统温度优化的关键之一。针对片上网络任务调度问题, 提出一种基于最短曼哈顿距离的任务调度SMDS方案。该策略充分考虑核通信图中通信节点对之间最短曼哈顿路径,通过搜索算法寻找任务调度的目的节点,使用模拟退火算法确定任务调度对。实验结果显示,与传统的分布式任务调度 DTM策略相比,针对6*6、8*8和10*10的拓扑结构,SMDS实验方案在迁移次数方面的平均优化率分别为2208%、21.74%和23.02%。在平均跳数方面的平均优化率分别为24.04%、29.18%和23.04%,实现了系统温度优化。相似文献

10.

基于调度器的Hadoop性能优化方法研究

刘娟豆育升何晨唐红《计算机工程与设计》2013,34(1):190-194

为了提高Hadoop调度器的调度性能,缩短Hadoop集群的任务整体响应时间,提出了一种基于CPU占用率的动态调度改进算法.首先对Hadoop传统的性能优化方法进行了对比,指出其存在问题的关键是缺乏动态性和灵活性.在此基础上,深入分析Hadoop默认任务调度模型,提出了一种以CPU占用率作为负载指标,在循环分配任务时根据反馈的负载指标判断节点负载情况的算法,动态适应负载变化.实验结果表明,该算法在Hadoop集群中,能有效提高集群性能. 相似文献

11.

基于Storm平台的数据恢复节能策略

蒲勇霖于炯鲁亮李梓杨国冰磊廖彬《计算机研究与发展》2021,58(3):479-496

作为目前主流的大数据流式计算平台之一,Storm在设计之初以性能为目的进行研究而忽视了高能耗的问题,但是其高能耗问题已经开始制约着平台的发展.针对这一问题,分别建立了任务分配模型、拓扑信息监控模型、数据恢复模型以及能耗模型,并进一步提出了基于Storm平台的数据恢复节能策略(energy-efficient strategy based on data recovery in Storm,DR-Storm),包括吞吐量检测算法与数据恢复算法.其中吞吐量检测算法根据拓扑信息监控模型反馈的拓扑信息计算集群吞吐量,并通过信息反馈判断是否终止整个集群内拓扑的任务.数据恢复算法根据数据恢复模型选择备份节点用于数据存储,并通过拓扑信息监控模型反馈的信息判断集群拓扑是否进行数据恢复.此外,DR-Storm通过备份节点内存恢复集群拓扑内的数据,并根据大数据流式计算的系统延迟与能效评估DR-Storm.实验结果表明:与现有研究成果相比,DR-Storm在减少系统计算延迟、降低集群功率的同时,有效节约了能耗. 相似文献

12.

基于关联数据本地化的多密码作业流调度算法

关川江李建鹏史国振毛明《计算机工程与科学》2020,42(11):1988-1995

针对云密码服务系统中服务请求多样、数据依赖性作业流与非数据依赖性作业流随机交叉并发等问题,为了避免处理节点之间关联数据的交互而带来的系统通信性能开销和数据安全性威胁,设计一种基于关联数据本地化的云密码作业流调度算法。首先通过任务请求密码功能的映射,保障多作业流请求密码功能的正确实现;然后对于具有相同请求密码功能的各任务中不同工作模式交叉问题,在提出任务优先级计算方法以促进多作业流调度公平性的基础上,采用分类调度的方法,在实现关联数据本地化的同时,保障了调度系统的整体性能。仿真结果表明,该算法不仅可以有效减少系统任务完成时间,提高资源利用率和公平性,并且具有良好的稳定性。相似文献

13.

减少候选项集的数据流高效用项集挖掘算法

茹蓓贺新征《计算机应用研究》2017,34(11)

大数据环境下高效用项集挖掘算法中过多的候选项集极大地降低了算法的时空效率,提出了一种减少候选项集的数据流高效用项集挖掘算法。首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本算法的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。相似文献

14.

基于异构Flink集群的节点优先级调度策略

汪文豪史雪荣《计算机工程》2022,48(3):197-203

Flink流处理系统默认的任务调度策略在一定程度上忽略了集群异构和节点可用资源,导致集群整体负载不均衡。研究分布式节点的实时性能和集群作业环境,根据实际作业环境的异构分布情况,设计结合异构Flink集群的节点优先级调整方法,以基于Ganglia可扩展分布式集群资源监控系统的集群信息为依据,动态调整适应当前作业环境的节点优先级指数。基于此提出Flink节点动态自适应调度策略,通过实时监测节点的异构状况,并在任务执行过程中根据实时作业环境更新节点优先级指数,为系统任务找到最佳的执行节点完成任务分配。实验结果表明,相比于Flink默认的任务调度策略,基于节点优先级调整方法的自适应调度策略在WorldCount基准测试中的运行时间约平均减少6%,可使异构Flink集群在保持集群低延迟的同时,节点资源利用率和任务执行效率更高。相似文献

15.

面向分布式漂移数据流的集成分类模型

尹春勇张帼杰《计算机应用》2021,41(7):1947-1955

针对大数据环境下分类精度不高的问题,提出了一种面向分布式数据流的集成分类模型。首先,使用微簇模式减少局部节点向中心节点传输的数据量,降低通信代价;然后,使用样本重构算法生成全局分类器的训练样本;最后,提出一种面向漂移数据流的集成分类模型,采用动态分类器和稳定分类器的加权组合策略,使用混合标记策略标记最具代表性的样本以更新集成模型。在两个虚拟数据集和两个真实数据集上的实验结果表明,该模型与DS-means、BDS-ensemble这两个分布式挖掘模型相比,受到概念漂移时的波动较小;而与在线主动学习集成模型（OALEnsemble）相比,准确率更高,在四个数据集上的准确率分别提高了1.58、0.97、0.77和1.91个百分点。该模型虽然在内存消耗上略高于DS-means和BDS-ensemble模型,但是可以在较小的内存代价下获得较大的分类性能的提升。因此,该模型适用于具有分布式和流动性特征的大数据的分类工作,如网络监控、银行业务系统等。相似文献

16.

高通信效率的分布式流数据聚类算法

朱强孙玉强《计算机应用》2014,34(9):2505-2509

传感器节点的资源是有限的,高的通信开销会消耗大量的电量。为了减小分布式流数据分类算法的通信开销,提出一种高效的分布式流数据聚类算法。该算法包含在线局部聚类和离线全局协同聚类两个阶段。在线局部聚类算法将每个流数据源进行局部聚类,并将聚类后的结果通过序列化技术发往协同节点;协同节点得到来自不同流数据源的局部聚类信息后进行全局聚类。从实验中可以看出,当不断增加窗口的大小时,算法用于数据发送的时间恒定不变,算法的聚类时间和总的时间呈线性增长,即所提出算法的执行时间不受滑动窗口宽度和聚类个数的影响;同时该算法与集中式算法的准确性接近,并且通信开销远远小于相关的分布式算法。实验结果表明,该算法具有很好的可扩展性,可应用于对大规模分布式流数据源进行聚类分析。相似文献