首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
李海燕  夏小玲 《计算机工程》2011,37(21):58-60,67
传统基于字典的保序字符串压缩方法对数据的压缩和解压时间较长。为此,对编码索引CS-Prefix-Tree进行改进,根据字符串出现的概率,设计一种新的解码索引,从而减少查找时间,提高压缩性能。实验结果表明,与传统方法相比,改进方法的创建时间减少1/3,较大地降低内存消耗,查找时间降低近30%。  相似文献   

2.
支持块编辑距离的索引结构   总被引:1,自引:0,他引:1  
在近似字符串匹配中,传统的编辑距离不能很好地衡量诸如人名、地址等数据的相似关系,而块编辑距离可以很好地衡量两个字符串的相似性.如何有效地支持块编辑距离,进行近似字符串查询处理具有重要的意义.计算两个字符串的块编辑距离是一个NP完全问题,因此希望提供有效的方法可以增强过滤能力,并减少假通过率.设计了一种支持移动编辑距离的新颖的索引结构SHV-Trie,通过研究移动编辑距离的操作特性,使用字母出现的频率作为支持移动编辑距离操作的一个下界,并且提出相应的查询过滤算法,同时,针对索引SHV-Trie的空间开销过大的问题,提出一种优化字母排列的索引结构和一种压缩的索引结构及相关查询过滤算法.真实数据集上的实验结果与分析显示了所提出的索引结构具有良好的过滤能力,并通过减少效率假通过率提高查询的效率.  相似文献   

3.
为使Fortran与VB混合计算工程中的接口容纳更丰富的数据类型,研究了以内建类型为载体的字符串数据的传递.通过协调两种语言在字符串表达、存储及参数传递方面的不同,成功实施了单一字符串的传递.根据CVF字符串型函数调用机制,提出了VB调用Fortran字符串型函数的变通手段.基于对VB安全数纽参数的本质认识,并通过挖掘CVF语言扩展功能,解决了字符串数组的传递.通过对Fortran 90派生类型存储结构及VB字符串成员编码的剖析,给出了含字符串派生类型数组的传递方式.结合实例验证了各种传递方法的可行性.  相似文献   

4.
无线环境的特殊性导致传统的关键字检索方法不能很好地用于周期数据广播之中.倒排表是全文检索中广泛使用的一种索引技术,但倒排表索引和基于哈希的数据索引无法解决索引结构过大的问题.为此,在周期数据广播环境下,提出一种新型的关键字索引结构,对倒排表进行编码压缩,缩减索引结构来减少访问时间和调谐时间.同时,与编码压缩索引相结合,设计一种周期数据广播下的文档调度方法.在真实数据集上进行的实验结果表明,该方法可缩减索引结构的规模,降低访问延迟和能耗.  相似文献   

5.
在全文信息检索系统中,存储文本及其上关键词的索引结构需要大量的空间。位图索引不能支持基于信息量的查询,倒排文件需要的空间比较大。提出了频率向量这种索引结构的压缩存储方法,设计并实现了基于这种压缩存储方法的存储结构,理论分析表明该压缩方法与存储结构可以获得较高的压缩比;此外,还讨论了压缩频率向量上的查询处理技术,实验结果表明这种压缩的索引结构能够保证查询结果的完备性,并能有效地提高频率向量的存储和查询效率。  相似文献   

6.
在编制汉字输入法的过程中遇到了字符串的存储和检索问题,对此提出了一种基于有序二叉树的高效优化索引树,给出了优化索引树的生成算法和搜索算法.在该高效优化索引树中,采用特定的非定长结构存储树节点,并把索引树存放在一个字节型逻辑数组中,从而大大减少了索引树中儿子指针和兄弟指针的个数,使得索引树中不存在空指针.优化后的索引树不仅占用存储空间少,而且检索速度极快,非常适合存储编码信息.  相似文献   

7.
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——Inc-Join,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、 短字符串重复匹配次数减少为√n(n是批处理方式的匹配次数)。 实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。  相似文献   

8.
移动计算环境中曲线数据实时压缩方法   总被引:2,自引:0,他引:2  
移动计算环境中存储、计算和通信等资源受限,为了解决在资源受限环境中实时压缩和解压缩海量曲线数据的问题,提出了基于整形小波变换和FFEP编码的压缩方法.将曲线坐标根据给定容限从浮点数转换为整数,计算其一阶差分后进行整形小波变换;为了加快编码解码速度,提出FFEP编码方案,根据数据的概率分别采用4位、5位、8位及变长码进行编码,对经小波变换后的高频部分有较好的编码效果.由于坐标类型转换、小波变换和FFEP编码主要采用整数位运算及加减法运算并且在原存储空间实现,因此该方法具有较小的时间和空间复杂度.实验结果表明,本文方法能够在当前流行的PDA上将等高线数据实时地压缩到10%以内.  相似文献   

9.
图相似性搜索是在给定的度量标准下查找与查询图相似的图集合,目前大多采用“过滤-验证”的计算框架。针对现有方法中过滤下界不紧密和索引空间占用较大等问题,提出了一种基于查询图分区的多层级过滤、低索引空间占用的图相似性搜索算法Z-Index。该算法首先通过全局粗粒度过滤得到预候选集;然后提出基于扩展概率的查询图分区算法,并采用层级过滤机制进一步精简候选集,增强下界紧密性;最后引入序列相似性差值计算序列中数据分布的稀疏度,提出分区压缩和差值压缩两种编码压缩算法,并据此构建“零”索引结构,降低索引空间开销。实验结果表明,Z-Index算法所得下界更加紧密,产生的候选集大小可减少50%左右,算法执行时间大大缩短,且该算法在索引空间占用极小的情况下仍具有可扩展性。  相似文献   

10.
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操作,并实现了基于CCA的数据库原型系统——D-DBMS。理论分析和在1 TB数据上的实验结果表明,该压缩算法能够显著提高大数据的存储效率和数据操作性能,与BAP和TIDC压缩方法相比,在压缩率分别提高了51%、14%;在执行速度上提高了47%、42%。  相似文献   

11.
This paper presents an effective approach for unsupervised language model adaptation (LMA) using multiple models in offline recognition of unconstrained handwritten Chinese texts. The domain of the document to recognize is variable and usually unknown a priori, so we use a two-pass recognition strategy with a pre-defined multi-domain language model set. We propose three methods to dynamically generate an adaptive language model to match the text output by first-pass recognition: model selection, model combination and model reconstruction. In model selection, we use the language model with minimum perplexity on the first-pass recognized text. By model combination, we learn the combination weights via minimizing the sum of squared error with both L2-norm and L1-norm regularization. For model reconstruction, we use a group of orthogonal bases to reconstruct a language model with the coefficients learned to match the document to recognize. Moreover, we reduce the storage size of multiple language models using two compression methods of split vector quantization (SVQ) and principal component analysis (PCA). Comprehensive experiments on two public Chinese handwriting databases CASIA-HWDB and HIT-MW show that the proposed unsupervised LMA approach improves the recognition performance impressively, particularly for ancient domain documents with the recognition accuracy improved by 7 percent. Meanwhile, the combination of the two compression methods largely reduces the storage size of language models with little loss of recognition accuracy.  相似文献   

12.
多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和Cache性能是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大,自动机的巨大存储开销导致现有的串匹配算法性能大幅度下降.从压缩存储空间以提高Cache命中率的思想出发,提出了一种对经典SBOM算法的优化策略,它用Suffix Tree代替SBOM算法中的Factor Oracle结构,同时用剪枝的方法将Suffix Tree降低为近似线性的空间复杂度,然后用双数组Trie表示之,以压缩存储空间.与SBOM算法相比,改进算法不仅能够有效地节省存储空间,而且显著地提高了串匹配的速度,非常适合于在线高速匹配的应用环境.  相似文献   

13.
经典字符串匹配算法的本质都是从左向右或者从右向左顺序进行字符匹配的,在主串中存在大量子串与模式串前缀或者后缀相同时效率较低,并且模式串最大右移长度为模式串长度。改进算法采用二分匹配字符串的方法,有效地避免了由主串中大量子串与模式串前缀相同或者后缀相同引起的无意义比较次数。模式串的移动距离根据改进的坏字符规则进行计算,增大了模式串的移动距离。实验结果表明,改进的字符串匹配算法可以有效地减少字符串的匹配次数和移动次数,达到了提高算法效率的目的。  相似文献   

14.
本文提出了一种基于web的字符串的模糊匹配方法。将给定的源字符串S和T目标字符串按照分割好的字符串单元进行匹配,得到两个字符串的相似程度。此方法不同与串的模式匹配。  相似文献   

15.
本文提出了一种基于web的字符串的模糊匹配方法.将给定的源字符串S和T目标字符串按照分割好的字符串单元进行匹配,得到两个字符串的相似程度.此方法不同与串的模式匹配.  相似文献   

16.
李娟  陈维锋  郭勇 《工业控制计算机》2011,24(8):80+83-80,83
通过比较C语言中字符串数组和字符串指针的不同,说明正确掌握字符串数组和字符串指针在程序设计中的重要性.  相似文献   

17.
分析了基于大随机数的字符串加密算法原理,给出了一个具体的加密、解密算法并利用VFP实现。利用该算法对一个具体实例进行了加密,实验结果表明,基于大随机数的字符串加密算法完全可以满足VFP数据库应用系统保密的要求。  相似文献   

18.
在评价新手的C语言程序时,需要根据程序的结构串表示建立结构关系图,用于描述程序的语句、块间的同级关系和依附关系,以方便比较语句的结构。文章根据结构关系图的构建方法和其使用特点,给出了语句结构串问公共结构串的求法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号