首页 | 官方网站   微博 | 高级检索  
     

列存储数据仓库中基于概率的保序字符串压缩方法
引用本文:夏小玲,李海燕,王梅.列存储数据仓库中基于概率的保序字符串压缩方法[J].计算机研究与发展,2013,50(8):1674-1682.
作者姓名:夏小玲  李海燕  王梅
作者单位:东华大学计算机科学与技术学院 上海 201620
基金项目:"核高基"国家科技重大专项基金项目,国家自然科学基金项目,上海市自然科学基金项目
摘    要:数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法.首先,提出一种扩展的共用叶子结构,使得编码索引和解码索引共享同一个码表,大大减少了编码和解码索引的维护时间.同时在该结构中,记录字符串出现的概率,并根据概率的高低建立解码索引,有效降低了高频字符串的解压时间.进一步,根据列存储的特点,将用于列连接的行号信息保存在扩展的叶子结构中,从而有效减少了列值索引的存储空间和创建时间.实验结果验证了该方法的有效性.

关 键 词:列存储  字符串压缩  保序轻量级压缩  共享叶子  字符串出现次数

Probability-Based Order-Preserving String Compression in Column-Oriented Data Warehouse
Xia Xiaoling , Li Haiyan , Wang Mei.Probability-Based Order-Preserving String Compression in Column-Oriented Data Warehouse[J].Journal of Computer Research and Development,2013,50(8):1674-1682.
Authors:Xia Xiaoling  Li Haiyan  Wang Mei
Affiliation:( School of Computer Science and Technology , Donghua University , Shanghai 201620 )
Abstract:
Keywords:column-oriented  string compression  order-preserving lightweight compression  shared leaf  string occurence
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号