首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 937 毫秒
1.
超大型压缩数据仓库上的CUBE算法   总被引:9,自引:2,他引:7  
高宏  李建中 《软件学报》2001,12(6):830-839
数据压缩是提高多维数据仓库性能的重要途径,联机分析处理是数据仓库上的主要应用,Cube操作是联机分析处理中最常用的操作之一.压缩多维数据仓库上的Cube算法的研究是数据库界面临的具有挑战性的重要任务.近年来,人们在Cube算法方面开展了大量工作,但却很少涉及多维数据仓库和压缩多维数据仓库.到目前为止,只有一篇论文提出了一种压缩多维数据仓库上的Cube算法.在深入研究压缩数据仓库上的Cube算法的基础上,提出了产生优化Cube计算计划的启发式算法和3个压缩多维数据仓库上的Cube算法.所提出的Cube算法直  相似文献   

2.
数据仓库中的维数据通常都是有层次的,基于维层次路径的聚簇能有效地在物理空间上将关联数据组织到一起,减少查询访问磁盘的次数。而现在的Cube存储结构都关注于Cube操作的计算和存储,忽视了这一特点。论文提出基于维层次聚簇的Cube存储结构HC(HierarchicallyClustered)Cube及相关算法,解决了目前存在的问题。  相似文献   

3.
Cube计算对OLAP有着极其重要的作用。本文根据数据仓库模式的前端用户接口之一OLAP,设计了一个多维的超压缩立方体结构HierarchicalCompressCube(CHCube)HH,并详细讨论了它的创建、增量更新及快速查询算法。在创建CHCube结构时,充分利用了元数据信息,因而在OLAP查询及更新等操作上具有很好的时空有效性。在实际的OLAP应用系统中,使得对多维数据的描述更加灵活,对多维数据的操作更加高效。  相似文献   

4.
现有压缩数据集上的Cube计算方法只适用于稀疏数据,针对该问题,设计一种用于压缩常量和基本单一元组的压缩方法并提出一种新的Cube算法。该算法在计算过程中无需解压缩、计算速度快、数据压缩率高,适用于冰山计算。实验结果表明,与自底向上立方体算法相比,新算法计算速度快、所需存储空间小。  相似文献   

5.
基于频繁概念直乘分布的全局闭频繁项集挖掘算法   总被引:2,自引:0,他引:2  
柴玉梅  张卓  王黎明 《计算机学报》2012,35(5):990-1001
基于概念格的集中式数据挖掘算法,不能充分地利用分布式计算资源来改善概念格构造效率,从而影响了挖掘算法的性能.文中进一步分析了Iceberg概念格并置集成的内在并行特性;以频繁概念直乘及其下覆盖为最小粒度,对Iceberg概念格并置集成过程进行分解和分布式计算;在对其正确性理论证明的基础上,提出了一个新颖的异构分布式环境下闭频繁项集全局挖掘算法.此算法利用Iceberg概念格的半格以及可并置集成特性,充分发挥了分布式环境下计算资源的优势.实验证明,在稠密数据集和稀疏数据集上,该挖掘算法都表现出较好的性能.  相似文献   

6.
数据更新是数据仓库上支持联机分析处理的一种重要操作。增量更新是一种有效的数据更新方法。实现了二维层次式数据立方体(Cube)存储结构HDC的建立以及基于此结构的数据增量更新算法。  相似文献   

7.
用于数据仓储的一种改进的多维存储结构   总被引:7,自引:2,他引:7  
冯建华  蒋旭东  周立柱 《软件学报》2002,13(8):1423-1429
对于数据仓库中数据的物理存储组织,目前主要有关系和多维数组两种方式.这两种方式各有自己的优缺点,从提高联机分析处理(online analytical processing,简称OLAP)查询处理性能的角度出发,多维数组方式相对较优,目的主要是解决数据仓库的多维存储结构问题.针对当前多维数组存储组织方式存在的一些问题,提出了Cube(立方体)逻辑存储和物理存储的概念,首先将原多维数据空间划分为逻辑子空间,逻辑块再划分为多个物理块.在物理存储时充分考虑了多维数组的大容量和高稀疏度的问题,并采用新的多维数组的分布和压缩方法.这些概念和方法有效地解决了维内部层次结构的聚集操作和Cube操作的效率问题,显著提高了涉及维内部层次的聚集查询的响应速度,同时还解决了增量维护的效率问题.  相似文献   

8.
数据仓库中CUBE大小估计算法   总被引:2,自引:0,他引:2  
刘宁  宋晔 《计算机工程与应用》2004,40(4):193-194,215
文章叙述了数据仓库中Cube估计的三个相关算法,提出了一种优化的估计方法。这种新的优化方法在一定程度上弥补了常用估计方法的缺陷,大大提高了估计值的准确性。Cube的大小估计对于数据仓库进行多维分析是非常重要的。原因是为了提高多维分析的查询速度,要进行一定程度的预计算,这种计算是相当复杂的,而且会占用大量数据库的存储空间,因此预先估计出所需空间大小是非常必要的。  相似文献   

9.
最大频繁项集挖掘算法存在扫描数据集次数多和候选集规模过大等局限。基于Iceberg概念格模型,提出一种在Iceberg概念格上挖掘最大频繁项集的算法ICMFIA。该算法通过一次扫描数据集构建Iceberg概念格,利用Iceberg概念格中频繁概念之间良好的覆盖关系能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。实验结果表明,该算法具有扫描数据集次数少和挖掘效率高的优点。  相似文献   

10.
CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法   总被引:1,自引:0,他引:1  
数据立方的计算是数据仓库和OLAP研究的一个重要方向,同时又是数据仓库中代价很大的操作。针对在生物信息、统计分析、文本处理等领域中存在的基数较小的高维数据集,X.L.Li等人提出了Frag-Cubing算法。为了提高Frag-Cubing算法的效率,本文提出了基于分片思想的算法CBFrag-Cubing。该算法使用了位图索引结构,优化了数据立方的存储,减少了数据立方的计算时间。实验表明,与Frag-Cubing算法相比,该算法在存储空间上至少节省25%,在计算时间上节省30%。  相似文献   

11.
New Algorithm for Computing Cube on Very Large Compressed Data Sets   总被引:2,自引:0,他引:2  
Data compression is an effective technique to improve the performance of data warehouses. Since cube operation represents the core of online analytical processing in data warehouses, it is a major challenge to develop efficient algorithms for computing cube on compressed data warehouses. To our knowledge, very few cube computation techniques have been proposed for compressed data warehouses to date in the literature. This paper presents a novel algorithm to compute cubes on compressed data warehouses. The algorithm operates directly on compressed data sets without the need of first decompressing them. The algorithm is applicable to a large class of mapping complete data compression methods. The complexity of the algorithm is analyzed in detail. The analytical and experimental results show that the algorithm is more efficient than all other existing cube algorithms. In addition, a heuristic algorithm to generate an optimal plan for computing cube is also proposed  相似文献   

12.
随着数据采集尤其是3维激光扫描技术的发展,对地物目标建立的表面模型越来越精细,由于其不仅导致数据存储量急剧增大,也降低了图形实时交互显示的速度,因此必须对表面模型数据进行压缩处理。为了对原始扫描构模表面模型进行合理、有效的压缩处理,在Garland提出的表面模型压缩算法的基础上,提出了一种新的基于边收缩的表面模型数据压缩算法。该算法首先依据二次误差度量准则计算边收缩的代价,同时确定各边收缩的顺序,然后利用半空间测试方法判断边收缩的合法性,以实现表面模型的边界区域与内部区域的同步压缩。实践表明,该算法不仅在高压缩比的情况下仍能保留原始模型的几何特征,而且能有效地保证压缩模型的质量。  相似文献   

13.
Encryption techniques ensure security of data during transmission. However, in most cases, this increases the length of the data, thus it increases the cost. When it is desired to transmit data over an insecure and bandwidth-constrained channel, it is customary to compress the data first and then encrypt it. In this paper, a novel algorithm, the new compression with encryption and compression (CEC), is proposed to secure and compress the data. This algorithm compresses the data to reduce its length. The compressed data is encrypted and then further compressed using a new encryption algorithm without compromising the compression efficiency and the information security. This CEC algorithm provides a higher compression ratio and enhanced data security. The CEC provides more confidentiality and authentication between two communication systems.  相似文献   

14.
压缩技术在数据采集系统中的应用   总被引:1,自引:0,他引:1  
介绍了一种通用编码的数据压缩技术-LZW算法,并以此算法为核心,对采集的数据预先作有条件的有损压缩和自适应编码变换,在压缩数据的同时,使数据和LZW算法要求的数字输入格式相匹配,使之能更好地发挥作用,经实际验证,数据经有压缩,自适应编码和LZW压缩之后,达到较高的压缩率,该方法具有通用性好,易于实现的特点。  相似文献   

15.
遥感图像的存储、传送和处理等均涉及到图像压缩技术,而图像压缩质量的好坏直接关系到压缩遥感图像的应用价值。为了正确评价图像质量,首先给出了用于遥感图像压缩质量评价的主要评价指标和相关概念,并讨论了图像压缩比、压缩质量、压缩速率和复杂度等评价指标的构建原理和基本算法;然后在此基础上,开发了遥感图像数据压缩质量评价软件。  相似文献   

16.
在医学图像三维重建中,经典的等值面重建算法Marching Cube是一种比较常用的算法。该算法具有可以在给定阈值的情况下提取任意三维数据场的等值面的优点,但因需计算大量的数据和三角面片而使得该算法速度较慢。提出了使用不同尺度的等值面重建理论,实现了一个多尺度的Marching Cube算法,经过实验对比,该算法比原Marching Cube算法具有效率高、速度快的优点。  相似文献   

17.
For the classification of very large data sets with a mixture model approach a two-step strategy for the estimation of the mixture is proposed. In the first step data are scaled down using compression techniques. Data compression consists of clustering the single observations into a medium number of groups and the representation of each group by a prototype, i.e. a triple of sufficient statistics (mean vector, covariance matrix, number of observations compressed). In the second step the mixture is estimated by applying an adapted EM algorithm (called sufficient EM) to the sufficient statistics of the compressed data. The estimated mixture allows the classification of observations according to their maximum posterior probability of component membership. The performance of sufficient EM in clustering a real data set from a web-usage mining application is compared to standard EM and the TwoStep clustering algorithm as implemented in SPSS. It turns out that the algorithmic efficiency of the sufficient EM algorithm is much more higher than for standard EM. While the TwoStep algorithm is even faster the results show a lack of stability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号