首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 723 毫秒
1.
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操作,并实现了基于CCA的数据库原型系统——D-DBMS。理论分析和在1 TB数据上的实验结果表明,该压缩算法能够显著提高大数据的存储效率和数据操作性能,与BAP和TIDC压缩方法相比,在压缩率分别提高了51%、14%;在执行速度上提高了47%、42%。  相似文献   

2.
文件数据的数据库Blob存储及效率分析   总被引:2,自引:1,他引:1  
为了提高信息系统中将丈件数据直接存入数据库的效率,研究了ADO.NET技术对存储文件数据的支持.阐述了运用ADO.NET中的SqlCommand对象,以Blob形式存储文件数据的两种方法,运用存储过程和执行SQL语句直接存储.研究了SQL语句直接存储方法的原理和过程,提出了一种基于二进制流读取对象和缓冲区的存储算法.建立了效率分析的两个量化模型,评测了存储算法各个环节的效率.通过局域网环境下的实验结果验证了该算法的有效性,对比了两种方法的实验结果,表明存储过程方法效率略高.  相似文献   

3.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及...  相似文献   

4.
夏秀峰  赵龙 《计算机应用》2012,32(3):625-628
针对物联网技术中亟待解决的海量数据存储问题,提出了一种基于射频识别(RFID)的三层数据存储压缩模型。该模型将数据分为当前数据层、临时数据层和历史数据层,利用每一层中数据的特点分别设计了相应的数据汇总算法,最终实现RFID数据的压缩存储。在该模型的基础之上,提出了针对路径的编码算法,用于对路径进行压缩存储。实验结果表明,该三层存储模型可以有效地压缩存储RFID数据,同时数据汇总算法具有较低的时间复杂度与较高的数据压缩比。  相似文献   

5.
数据信息的规模呈指数级增长与现有存储介质储存能力不足的矛盾日益凸显,亟需通过开发新型介质解决相应问题。DNA 基于其数据存储密度超高、能耗低及寿命长等特点,作为一种新兴的数据存储媒介备受关注,尤其在海量“冷数据”存储方面,有望替代现有存储方式。在数据存储过程中,DNA 的有效保存是其中重要的一环,该环节直接影响数据的存储密度、稳定性、存储时间,以及数据的写入和读取。针对目前文献中关于 DNA 保存技术的介绍较少,该文综述了数据存储中 DNA 保存技术的研究进展和策略,讨论了现有的 DNA 保存技术应用在 DNA 数据存储中面临的困难与挑战,对 DNA 数据存储的实现方式进行了展望。  相似文献   

6.
在对矢量图数据的存储特性进行深入研究的基础上,提出了综合运用通用无损数据压缩算法和几何压缩算法的两步压缩策略。根据矢量图数据中各几何图形要素的不同存储特点,特别是根据点类文件的特点,研究实现了有效的点类几何数据无损压缩算法。  相似文献   

7.
数据复用是数据仓库管理中节约存储空间、提高查询效率的重要手段.列存储技术将来自同一属性的数据连续存储,极大地提高了数据仓库等分析型应用软件的性能,同时增加了复用的可行性和灵活性.为此,提出了一种列存储数据仓库中的数据复用策略.首先,利用模式匹配技术发掘候选可复用列,排除大量无法复用的数据列,在此基础上对候选可复用数据进行筛选和过滤,大大降低复用数据检测的复杂度.针对确定的可复用数据,提出了基于列存储的复用实现策略,分别给出了原始数据列、压缩数据列及索引数据列的复用实现方法.最后提出了基于复用数据的查询实现技术.在大规模数据仓库基准数据集上的实验结果验证了数据复用策略在减少存储量、节省数据装载时间及提升查询性能方面的有效性.  相似文献   

8.
从语音文件中正确地读取实际的语音数据是进行语音技术研究的首要任务,WAVE文件是语音文件的一种,它被广泛地使用于语音技术研究中。该文分析讨论WAVE文件的存储结构,用C语言实现PCM编码的WAVE文件的读取,滤波以及存储。  相似文献   

9.
三维图形数据的压缩与网上浏览   总被引:2,自引:0,他引:2  
尽管互联网上存在着大量的压缩图像,但互联网上的三维图形数据却很少,其中一个重要原因就是三维图形数据的数据量比较大,所以要进行高效的压缩,以节约存储空间和网络带宽。文章结合Edgebreaker连接关系编码算法、平行四边形顶点坐标预测以及算术编码,来实现三角形网格的压缩,得到了50倍左右的压缩比;然后设计了一种存储压缩三维图形数据的eb文件格式,实现了一个支持网上浏览压缩三维图形数据的IE浏览器插件,可用于三维网页、数字博物馆等应用中。  相似文献   

10.
基于字频特征的自动机多模匹配增效算法   总被引:1,自引:0,他引:1  
针对自动机类多模匹配算法内存占用过多的缺点,分析了DFA存储的列特征,并结合模式串所属字符集的编码范围,提出了按字符频率特征压缩自动机状态空间的多模匹配增效算法.本算法采用了榆入字符阅值映射技术,在保存高频率字符对应列的同时,用位图信息提高对压缩列的检索速度.实验结果表明,在万条配置规则级的环境下,能够同时有效降低内存和CPU利用率.  相似文献   

11.
用于不均衡数据集的挖掘方法   总被引:2,自引:0,他引:2  
传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本文对相关的研究做了综述。  相似文献   

12.
QAR数据的数据融合算法   总被引:1,自引:0,他引:1  
分析了QAR数据中影响飞机性能衰减的主要因素,采用自适应加权数据融合算法和扩展卡尔曼滤波算法对相关性能参数进行了状态参量的估计,并验证了自适应加权融合算法在外界环境影响较小时的便捷性和外界环境影响过大时的局限性.引入扩展卡尔曼滤波算法,加入高斯噪声的计算,提高了状态估计值的精确度,为航空公司改善飞机运行提供了参考.  相似文献   

13.
《软件工程师》2015,(8):3-5
随着社会信息大爆炸和大量数据的产生,数据挖掘成了广泛关注的话题。本文从Check-in签到事件的数据出发,回顾了基于LBS的数据分析和挖掘现状。通过对Gowalla数据处理与分析,统计签到事件的数据分布规律,分析用户的签到行为,发现Check-in的时间戳具有明显的规律性,体现了人们的工作休闲活动特点,进一步探讨了签到数据在用户的行为习惯分析及兴趣发现等方面的应用。  相似文献   

14.
基于Clementine的图书馆流通数据挖掘   总被引:1,自引:0,他引:1  
数字图书馆改变了传统图书馆的服务模式,同时也积累了大量的读者信息,为个性化服务提供了数据基础。本文重点研究聚类分析技术及其在图书馆中的应用,利用Clementine的两步聚类模型实现对读者的聚类分析,将读者聚类为消极型、一般型和积极型三种类型,针对不同类型的读者,图书馆可以提供相应的个性化服务。  相似文献   

15.
基于数据仓库的数据转移方法   总被引:1,自引:0,他引:1  
数据转移是企业实施数据仓库的关键 ,针对数据仓库的技术特点 ,结合微软公司的数据仓库解决方案和数据转移服务 DTS,对数据转移过程中的几个典型问题 ,给出了其各自的解决方案  相似文献   

16.
面向海量数据的数据一致性研究   总被引:6,自引:0,他引:6  
复制是实现海量数据管理的关键技术之一,多副本之间的数据一致性维护是提高分布式系统的容错能力与性能的重要保证。强一致性确保并发的修改操作不会发生冲突,但是限制了系统的可用性、连通性以及副本数量;弱一致性确保副本的最终一致,提高了系统的容错能力。本文从已有的一致性维护方法出发,结合海量数据的特点,对一致性维护过程中所涉及的更新发布、更新传播方式、更新传播内容以及更新冲突解决等几个方面进行了分析,提出了相应的解决方法。  相似文献   

17.
随着信息化技术的快速发展,高校的信息系统日趋完善,各种信息系统如学习平台、教学和办公应用系统都运行在数据中心,数据中心存储了大量的业务信息.对高校数据中心存储的各类应用数据进行抽取、转化和处理,建立面向主题的数据仓库.对系统数据进行挖掘和探索式分析,以可视化驾驶舱的方式直观地展现学校的实际数据状态,通过对数据的可视化分析可以为学校在办学、人才培养和学生管理等方面提供数据支持和决策.  相似文献   

18.
本文主要研究数据过滤器技术征数据链中的应用,并往此基础上提出了数据过滤器的关键技术,在数据管理和资源分配等工程领域具有参考价值。  相似文献   

19.
多维数据管理的数据仓库技术研究   总被引:2,自引:0,他引:2  
新一代信息系统对多维数据管理提出要求,而目前的数据库系统无法发现数据中存在的关系和规则,数据仓库技术已成为信息决策系统的研究热点。以数据仓库技术思想为核心,研究在关系数据库和现有低资源环境下,设计基于多维数据管理的分布式数据库及信息管理系统。  相似文献   

20.
基于数据立方体的数据挖掘系统   总被引:3,自引:0,他引:3  
介绍了一个通用的数据挖掘系统-基于数据立方体的数据挖掘系统的设计与实现过程。该系统基于C/S构架,引入了挖掘模型的概念,集成了两种算法,图形化显示挖掘结果。文中详细介绍了系统的这些特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号