首页 | 官方网站   微博 | 高级检索  
     

基于ARM的硬件压缩算法在Spark中的性能研究
引用本文:朱常鹏,汤景仁,梁昀,张小川,韩博,赵银亮.基于ARM的硬件压缩算法在Spark中的性能研究[J].计算机学报,2023(12):2626-2650.
作者姓名:朱常鹏  汤景仁  梁昀  张小川  韩博  赵银亮
作者单位:1. 重庆理工大学数据科学与大数据系;2. 华为科技有限公司;3. 西安交通大学网络空间安全学院;4. 西安交通大学计算机科学与技术学院
基金项目:国家留学基金委员会(201708505099);;国家自然科学基金(61702063)资助~~;
摘    要:鲲鹏920 CPU是2021年面世、全球第一款基于7纳米制造工艺的ARM 64位CPU,该CPU内置一个名为KAEzip的硬件加速引擎,其核心是一个硬件压缩算法,能通过硬件提升压缩与解压缩性能.相关研究表明,压缩算法的硬化与传统软件压缩算法相比具备明显性能优势.但大数据领域中的基础性系统软件都无法识别和使用这类算法.因此研究评估硬件压缩算法在大数据环境下的性能,发现揭示制约这类算法性能的关键因素以及可能存在的缺陷具有重要意义.为此,本文首先提出一种基于“生产-消费”模型的Spark任务性能模型,形式化地表示多维资源、压缩算法和Spark任务性能之间的内在关系,从理论上分析揭示出Spark下影响压缩算法性能的关键因素.然后提出一种三层架构支持Spark识别使用硬件压缩算法.这种分层架构为进一步调优硬件压缩算法在Spark中的性能提供了灵活性,也能复用到其他大数据系统软件.在此基础上本文以KAEzip为实验对象,使用经典Spark基准测试程序全面评估它在Spark中的性能,结合性能模型分析挖掘制约KAEzip性能的关键因素与根源.对KAEzip的测试表明:(1)硬件压缩算法可有效提升Spa...

关 键 词:鲲鹏920  CPU  KAEzip  大数据  Spark  硬件压缩算法  根源分析
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号