首页 | 官方网站   微博 | 高级检索  
     

一种支持ANSI编码的中文文本压缩算法
引用本文:常为领,方滨兴,云晓春,王树鹏,余翔湛.一种支持ANSI编码的中文文本压缩算法[J].中文信息学报,2010,24(5):96-106.
作者姓名:常为领  方滨兴  云晓春  王树鹏  余翔湛
作者单位:1. 哈尔滨工业大学 计算机网络与信息安全技术研究中心,黑龙江 哈尔滨 150001;
2. 中国科学院 计算技术研究所,北京 100190
基金项目:国家重点基础研究发展计划"973" 基金资助项目,国家863高技术研究发展计划基金资助项目 
摘    要:该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。

关 键 词:CRecode  数据压缩  Huffman  压缩算法  

An Efficient Compression Method for ANSI Coded Chinese Text
CHANG Weiling,FANG Binxing,YUN Xiaochun,WANG Shupeng,YU Xiangzhan.An Efficient Compression Method for ANSI Coded Chinese Text[J].Journal of Chinese Information Processing,2010,24(5):96-106.
Authors:CHANG Weiling  FANG Binxing  YUN Xiaochun  WANG Shupeng  YU Xiangzhan
Affiliation:1. Research Center of Computer Network and Information Security Technology,
Harbin Institute of Technology, Harbin, Heilongjiang 150001, China;
2. Institute of Computing Technology, Chinese Academy of Science, Beijing 100190, China
Abstract:After surveying the proposal for compressing Chinese text, we present in this paper a universal compression algorithm for Chinese text, CRecode, which demonstrates an accurate understanding of the properties of the ANSI coded Chinese text. CRecode highlights the importance of pre-processing work for Chineseit collect the Chinese Characters and sorts them by frequency order, then recode them into 8-bit, 16-bit or 24-bit code. CRecode can act as a pre-processing tool for ANSI coded Chinese text by all the popular compression utilities, which can improve their compression ratio from 4% to 30%.
Key wordsCRecode; data compression; Huffman; compression algorithm
Keywords:CRecode  Huffman
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号