共查询到20条相似文献,搜索用时 723 毫秒
1.
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操作,并实现了基于CCA的数据库原型系统——D-DBMS。理论分析和在1 TB数据上的实验结果表明,该压缩算法能够显著提高大数据的存储效率和数据操作性能,与BAP和TIDC压缩方法相比,在压缩率分别提高了51%、14%;在执行速度上提高了47%、42%。 相似文献
2.
文件数据的数据库Blob存储及效率分析 总被引:2,自引:1,他引:1
为了提高信息系统中将丈件数据直接存入数据库的效率,研究了ADO.NET技术对存储文件数据的支持.阐述了运用ADO.NET中的SqlCommand对象,以Blob形式存储文件数据的两种方法,运用存储过程和执行SQL语句直接存储.研究了SQL语句直接存储方法的原理和过程,提出了一种基于二进制流读取对象和缓冲区的存储算法.建立了效率分析的两个量化模型,评测了存储算法各个环节的效率.通过局域网环境下的实验结果验证了该算法的有效性,对比了两种方法的实验结果,表明存储过程方法效率略高. 相似文献
3.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及... 相似文献
4.
针对物联网技术中亟待解决的海量数据存储问题,提出了一种基于射频识别(RFID)的三层数据存储压缩模型。该模型将数据分为当前数据层、临时数据层和历史数据层,利用每一层中数据的特点分别设计了相应的数据汇总算法,最终实现RFID数据的压缩存储。在该模型的基础之上,提出了针对路径的编码算法,用于对路径进行压缩存储。实验结果表明,该三层存储模型可以有效地压缩存储RFID数据,同时数据汇总算法具有较低的时间复杂度与较高的数据压缩比。 相似文献
5.
数据信息的规模呈指数级增长与现有存储介质储存能力不足的矛盾日益凸显,亟需通过开发新型介质解决相应问题。DNA 基于其数据存储密度超高、能耗低及寿命长等特点,作为一种新兴的数据存储媒介备受关注,尤其在海量“冷数据”存储方面,有望替代现有存储方式。在数据存储过程中,DNA 的有效保存是其中重要的一环,该环节直接影响数据的存储密度、稳定性、存储时间,以及数据的写入和读取。针对目前文献中关于 DNA 保存技术的介绍较少,该文综述了数据存储中 DNA 保存技术的研究进展和策略,讨论了现有的 DNA 保存技术应用在 DNA 数据存储中面临的困难与挑战,对 DNA 数据存储的实现方式进行了展望。 相似文献
6.
在对矢量图数据的存储特性进行深入研究的基础上,提出了综合运用通用无损数据压缩算法和几何压缩算法的两步压缩策略。根据矢量图数据中各几何图形要素的不同存储特点,特别是根据点类文件的特点,研究实现了有效的点类几何数据无损压缩算法。 相似文献
7.
数据复用是数据仓库管理中节约存储空间、提高查询效率的重要手段.列存储技术将来自同一属性的数据连续存储,极大地提高了数据仓库等分析型应用软件的性能,同时增加了复用的可行性和灵活性.为此,提出了一种列存储数据仓库中的数据复用策略.首先,利用模式匹配技术发掘候选可复用列,排除大量无法复用的数据列,在此基础上对候选可复用数据进行筛选和过滤,大大降低复用数据检测的复杂度.针对确定的可复用数据,提出了基于列存储的复用实现策略,分别给出了原始数据列、压缩数据列及索引数据列的复用实现方法.最后提出了基于复用数据的查询实现技术.在大规模数据仓库基准数据集上的实验结果验证了数据复用策略在减少存储量、节省数据装载时间及提升查询性能方面的有效性. 相似文献
8.
从语音文件中正确地读取实际的语音数据是进行语音技术研究的首要任务,WAVE文件是语音文件的一种,它被广泛地使用于语音技术研究中。该文分析讨论WAVE文件的存储结构,用C语言实现PCM编码的WAVE文件的读取,滤波以及存储。 相似文献
9.
三维图形数据的压缩与网上浏览 总被引:2,自引:0,他引:2
尽管互联网上存在着大量的压缩图像,但互联网上的三维图形数据却很少,其中一个重要原因就是三维图形数据的数据量比较大,所以要进行高效的压缩,以节约存储空间和网络带宽。文章结合Edgebreaker连接关系编码算法、平行四边形顶点坐标预测以及算术编码,来实现三角形网格的压缩,得到了50倍左右的压缩比;然后设计了一种存储压缩三维图形数据的eb文件格式,实现了一个支持网上浏览压缩三维图形数据的IE浏览器插件,可用于三维网页、数字博物馆等应用中。 相似文献
10.
11.
12.
13.
14.
15.
基于数据仓库的数据转移方法 总被引:1,自引:0,他引:1
数据转移是企业实施数据仓库的关键 ,针对数据仓库的技术特点 ,结合微软公司的数据仓库解决方案和数据转移服务 DTS,对数据转移过程中的几个典型问题 ,给出了其各自的解决方案 相似文献
16.
17.
18.
19.