首页 | 官方网站   微博 | 高级检索  
     

基于ImpaIa的大数据查询分析计算性能研究
引用本文:郭超,刘波,林伟伟.基于ImpaIa的大数据查询分析计算性能研究[J].计算机应用研究,2015(5).
作者姓名:郭超  刘波  林伟伟
作者单位:1. 华南师范大学 计算机学院,广州,510631
2. 华南理工大学 计算机科学与工程学院,广州,510006
基金项目:国家自然科学基金资助项目(61070015);广东省自然科学基金资助项目(S2011010001754,S2012030006242);广东省科技计划资助项目
摘    要:分析了 Cloudera 公司推出的 Impala 实时查询引擎原理与架构,并深入比较 Impala 与传统 MapReduce 的性能与特点,针对 Impala 进行复杂大数据处理方面的不足,提出了 MapReduce 与 Impala 结合的大数据处理方法,通过使用 MapReduce 对 Impala 的输入数据进行预处理,利用 MapReduce 在复杂作业处理方面的长处弥补了Impala 在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于 MapReduce 与 Impala 结合的大数据处理速度比传统 MapReduce 快了一倍。特别地,在迭代查询实验中,基于 MapReduce 与 Impala 结合的处理方法超过传统 MapReduce 方法八倍以上。基于 MapReduce与 Impala 结合的处理方法在单次查询中的效率仍然高于传统 MapReduce;而在迭代查询中,MapReduce 与 Impala结合的处理方法远远地超过了 MapReduce。因此,MapReduce 与 Impala 结合的处理方法能够发挥 Impala 和 Ha-doop 各自的优点,让处理效率远超传统 MapReduce,对于复杂的大数据处理的能力高于 Impala。

关 键 词:大数据  Hadoop  MapReduce  Impala  计算性能  查询分析

Research on performance of big data computing and query processing based on Impala
GUO Chao,LIU Bo,LIN Wei-wei.Research on performance of big data computing and query processing based on Impala[J].Application Research of Computers,2015(5).
Authors:GUO Chao  LIU Bo  LIN Wei-wei
Abstract:
Keywords:big data  Hadoop  MapReduce  Impala  calculated performance  query analysis
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号