首页 | 官方网站   微博 | 高级检索  
     

纠删码存储下的离线批处理作业性能优化
引用本文:杨振宇,吕敏,李永坤.纠删码存储下的离线批处理作业性能优化[J].集成技术,2022,11(3):85-97.
作者姓名:杨振宇  吕敏  李永坤
作者单位:中国科学技术大学计算机科学与技术学院 合肥 230026
摘    要:随着互联网数据的爆发式增长,越来越多的分布式存储系统开始引入纠删码存储机制,以在提供数据可靠性的同时降低存储开销。但纠删码机制的引入改变了数据放置模式,从而影响分布式系统上层业务的数据访问和运行效率。在异构 Hadoop 集群环境中,一类典型的离线批处理作业——MapReduce 应用在条带式纠删码存储模式下需要从多个节点访问数据,该“一对多”的数据访问模式由于节点性能差异造成应用执行效率下降。对此,该文提出了一种基于异构环境的数据放置和任务分 配策略。通过对异构集群中各节点的硬件参数和历史负载进行分析,将同一纠删码条带的数据块尽可能分布在性能相近的节点上;在系统进行任务分配时,针对各节点当前负载和运算能力确定节点的任务并发度,以平衡各节点计算资源的占用情况,从而避免因数据访问或计算过程中的资源竞争产生极端缓慢任务以致降低整个 MapReduce 应用的运行效率。实验结果表明,相比当前 Hadoop 默认的随机数据放置和任务分配策略,该文提出的异构感知数据放置策略和动态任务分配策略能够在不同类型的MapReduce 应用中有效削弱任务的长尾效应,使得作业整体运行时间节约 10.5%~42%,验证了该方案的有效性。

关 键 词:分布式存储系统  纠删码存储系统  离线批处理作业  MapReduce应用  数据布局  任务调度

Performance Optimization of Offline Batch Jobs in Erasure-Coded Storage Systems
Authors:YANG Zhenyu  LV Min  LI Yongkun
Affiliation:School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China
Abstract:
Keywords:distributed storage systems  erasure-coded storage systems  offline batch jobs  MapReduceapplications  data layout  task scheduling
本文献已被 万方数据 等数据库收录!
点击此处可从《集成技术》浏览原始摘要信息
点击此处可从《集成技术》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号