首页 | 官方网站   微博 | 高级检索  
     

一种Hadoop小文件存储和读取的方法
引用本文:张春明,芮建武,何婷婷.一种Hadoop小文件存储和读取的方法[J].计算机应用与软件,2012(11).
作者姓名:张春明  芮建武  何婷婷
作者单位:1. 中国科学院软件研究所基础软件国家工程中心 北京100190
2. 中国科学院研究生院 北京100190
摘    要:HDFS(HadoopDistributedFileSystem)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用.然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想.提出一种基于小文件合并的方法HIFM(HierarchyIndexFileMerging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引.采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载.此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率.实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合.

关 键 词:HDFS  小文件  HIFM  分层索引  索引预加载  数据预取
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号