首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于Hadoop的海量MP3文件存储架构研究   总被引:2,自引:0,他引:2  
赵晓永  杨扬  孙莉莉  陈宇 《计算机应用》2012,32(6):1724-1726
MP3作为数字音乐时代的事实标准,数量已相当巨大,用户的访问需求也与日俱增,有效存储和管理海量的MP3文件,为用户提供良好的体验,越来越引起人们的关注。Hadoop的出现,提供了一种新的思路。但由于Hadoop自身并不适合海量小文件处理,提出一种基于Hadoop的海量MP3文件存储架构,充分利用MP3文件自身包含的丰富描述信息,通过预处理模块的归类算法,将小文件归并到Sequence File中,同时引入高效的索引机制,很好地解决了小文件过多时NameNode内存瓶颈问题。实验证明,该架构能达到良好的效果。  相似文献   

2.
在互联网中重复上传他人已经分享的歌曲会消耗网络带宽,浪费存储空间,但目前的重复数据删除方法主要基于文件的二进制特征,无法识别经过信号处理或压缩后的歌曲.针对该问题,提出一种基于声学指纹的海量MP3文件近似去重方法.结合文件消息摘要的确定性与声学指纹的鲁棒性,在采用布隆过滤器对文件消息摘要一次去重的基础上,根据降维后的声学指纹值进行二次近似去重,保证高效的同时提高去重率.实验结果表明,与可变分块检测方法相比,该方法的去重率可提高1倍以上,扩展性较好.  相似文献   

3.
提出一种基于分布式数据库与分布式文件系统相结合的海量图片文件存储去重技术。该技术通过提取图片文件二进制流的特征段计算文件MD5码签名,依据签名对图片文件进行存储去重。结合实验数据分析验证该技术不仅能够准确地去重图片,有较高的删除率,且经对比得到该技术在计算签名时间、上传速度等方面均优于文件级去重和块级去重技术,是对海量图片数据存储的一种优化。同时针对该技术的不足提出了改进方案。  相似文献   

4.
在智慧医疗中,各种医疗设备采集录入的都是一些小文件数据。但是由于Hadoop在处理小文件存在天生的不足,同时对智慧医疗数据有高并发高响应读写要求,提出一种基于Redis针对智慧医疗小文件的优化存储架构。充分结合Redis内存数据库存储优势以及智慧医疗数据自身数据类型的特点设计存储架构以及混合索引策略。通过改进的AHP算法进行均衡负载预测,实现数据高并发快速响应。实验结果表明,该存储架构大大提高了智慧医疗小文件存储和访问效率,达到了预期良好的效果。  相似文献   

5.
数据的海量存储需求对传统数据存储模式带来了巨大的挑战.目前大多数集群/分布式文件系统都被设计用来管理大文件.当在处理海量的小文件时,这些文件系统并不具有良好的性能表现.论文提出了一种面向海量小文件的元数据模型,该模型是基于具有超级节点的混合P2P拓扑结构,对小文件的优化管理具有一定的普适性.通过测试对比发现,在小文件读写性能上有数量级的提升.  相似文献   

6.
Hadoop分布式文件系统( HDFS) 在大数据存储中具有优良的性能,适用于处理和存储大文件,但在海量小文件处理时性能显著下降,过多的小文件使得整个系统内存消耗过大。为了提高HDFS处理小文件的效率,改进了HDFS的存储方案,提出了海量小文件的存储优化方案。根据小文件之间的相关性进行分类,然后将同一类小文件合并上传,并生成索引文件,读取时采用客户端缓存机制以提高访问效率。实验结果表明,该方案在数据迅速增长的情况下能有效提高小文件访问效率,降低系统内存开销,提高HDFS处理海量小文件的性能。  相似文献   

7.
为解决单机环境下海量地震观测数据计算和分析效率低下的问题,提出一种基于分布式架构的地震观测数据的存储、计算和分析处理方法,选择噪声功率谱复杂计算过程的应用场景进行实现.基于Hadoop在海量数据处理上的性能优势,在分布式文件存储系统HDFS上进行地震观测数据的存储和调度,研究测震数据噪声功率谱的质量评估方法在Spark分布式计算架构上的实现,采用弹性数据集Spark RDD将计算任务自动分配到计算节点,解析存储在HDFS中的测震波形数据,计算结果采用RowKey方式放入分布式数据库HBase中,实现了长周期地震噪声功率谱结果的存储和提取.计算结果表明,基于Spark分布式架构的该方法可以支撑TB级海量数据的处理,并且具有较高的处理效率,可应用于海量地震观测数据的分析计算.  相似文献   

8.
网络日志分析对网络安全管理具有重要意义,但现有的网络日志分析系统具有无法处理海量日志数据、采用离线模式、处理时延较长等弊端。因此,提出网络日志数据的分级归档机制,实现海量数据的分级优化存储功能。通过将传统的网络日志分析模式和基于Hadoop的离线处理模式相结合,设计基于Hadoop的在线网络日志分析系统,并深入分析系统的功能架构和业务处理流程。实验结果表明:该系统具有良好的可扩展性,可以有效存储处理海量日志数据,具有较快的请求响应速度,并能够满足在线处理的要求。从而验证了系统设计的可行性和有效性。  相似文献   

9.
郑通  郭卫斌  范贵生 《计算机科学》2017,44(Z11):516-519, 541
HDFS在存储海量文件时具有明显的优势, 但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其存于HBase中。为了提高读取速度,建立了基于LRU的预取机制。实验表明,该方法能明显提高HDFS在处理海量文件时的整体性能。  相似文献   

10.
针对海量数据的指数级增长,现有的文件存储系统很难满足现有系统需求,提出基于Hadoop的Scool云存储平台,系统通过采用Linux集群技术、分布式文件系统和云计算框架等技术,来实现海量数据存储和高速数据处理。通过比较云存储和传统存储模式的区别,分析了云存储技术优势和可行性,介绍了云存储架构模型,设计了基于Hadoop的Scool云存储文件管理系统,为今后深入研究云计算和云存储提供了一定的基础。  相似文献   

11.
为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案.存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销.检索阶段,改进MapFile映射关系结构、索引存储位置与组...  相似文献   

12.
为了解决HDFS(Hadoop Distributed File System)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。  相似文献   

13.
为了解决当前车载MP3功能单一、存储介质固定且存储容量小、不支持WMA音频文件播放、音源不足等问题。在完成硬件平台设计的基础上,提出了车载数字音频系统的软件设计方案,包括整个软件系统架构、工作流程及各主要功能子模块的实现过程。搭建的系统实现了播放USB/SD卡海量存储设备上的MP3/WMA音频文件,高灵敏度FM立体声收音机播放,iPod/iPhone音频播放控制,高低音音效控制,LCD液晶显示系统状态,更预留音频接口,可以方便连接CD、MP3、笔记本电脑、手机等外部音源。  相似文献   

14.
为实现音频文件的播放和摇动控制,设计并实现了基于VS1053和ADXL345的MP3播放器。硬件上以SD卡作为音频、字库文件存储介质,选用芬兰公司的VS1053搭建音频解码模块,IAP15F2K61S2单片机通过SPI总线发送音频数据到VS1053解码播放,采用ADXL345完成加速度的测量。软件上使用FatFs文件系统模块挂接SD卡,高效地管理SD卡上的数据。人机界面上采用条形菜单方式进行管理,方便系统功能扩展。经过测试该播放器的播放效果良好。  相似文献   

15.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及...  相似文献   

16.
With the exponential growth of digital data, it is becoming more and more popular to store data in shared distributed storage systems inside the same organization. In such shared distributed storage systems, an ordinary user usually does not have the control permission over the whole system, and thus cannot secure data storage or data sharing of his own files. To solve this issue, this paper proposes a new system architecture to secure file storing and sharing efficiently over untrusted shared storage and n...  相似文献   

17.
为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明:14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。  相似文献   

18.
基于光盘库的Hadoop分布式文件系统(HDFS光盘库)在单位存储成本、数据安全性、使用寿命等方面非常符合当前大数据存储要求,但是HDFS不适合存储大量小文件和实时数据读取。为了使HDFS光盘库能更好地运用到更多大数据存储场景,本文提出一种更加适合大数据存储的磁光虚拟存储系统(MOVS, Magneto-optical Virtual Storage System)。系统在HDFS光盘库与用户之间加入磁盘缓存,并在磁盘缓存内通过文件标签分类、虚拟存储、小文件合并等技术将磁盘缓存内小文件合并为适合HDFS光盘库存储的大文件,提高系统的数据传输速度。系统还使用了文件预取、缓存替换等文件调度算法对磁盘缓存内文件进行动态更新,减少用户访问HDFS光盘库次数。实验结果表明,MOVS相对HDFS光盘库在响应时间和数据传输速度方面得到很大改善。  相似文献   

19.
全球范围内数据量的飞速增长,对存储系统提出了更高的要求,网络存储越来越受到人们的关注。目前流行的网络存储技术是NAS和SAN。NAS和SAN各有自己的体系架构、互联协议、文件组织和管理方式等。而将这两种技术融合到一个统一的结构框架下已经成为目前人们关注的热点问题。本文利用存储虚拟化技术,采用非对称结构模型,实现了一种融合NAS和SAN的虚拟存储网络。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号