首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能.  相似文献   

2.
哈希技术被视为最有潜力的相似性搜索方法,其可以用于大规模多媒体数据搜索场合。为了解决在大规模图像情况下,数据检索效率低下的问题,提出了一种基于分段哈希码的倒排索引树结构,该索引结构将哈希码进行分段处理,对每段哈希码维护一个倒排索引树结构,并结合高效的布隆过滤器构建哈希索引结构。为了进一步提高检索准确性,设计了一种准确的排序融合算法,对多个哈希算法的排序结果分别构建加权无向图,采用PageRank的思想对基于多个哈希算法的排序列表的融合技术进行了详细的说明。实验结果表明,基于分段哈希码的倒排索引树结构能极大地提升数据的检索速度。此外,相比于传统的单个哈希算法排序技术,基于多个哈希算法的排序列表融合技术的检索准确率优势显著。  相似文献   

3.
压缩树索引技术是XML数据压缩的热点问题之一,本文提出一种压缩树索引改进方法.针对压缩树在查询过程中不能很好的解决向上匹配与向下匹配的问题,改进方法引入正排索引和倒排索引.当查询到组一级时,利用正排索引可以快速的查找出以该组为父节点的子组.而选出符合值谓词的元素后,在进行向上匹配时利用倒排索引可找出该元素的父节点.新的索引方法在保留原压缩树索引优点的基础上,解决了压缩树索引在查询过程中匹配问题.  相似文献   

4.
高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎性能的最重要的手段之一。针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;对于ASCS算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对于分布不均的长序列在ASCS算法下压缩率不理想问题,提出先排序后差分编码操作后再以ASCS算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。  相似文献   

5.
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库.因此网页索引库建立的好坏直接影响最后的查询结果的准确性和用户的查询速度.本文提出了一种建立倒排索引的算法并进行了分析和研究.  相似文献   

6.
连续查询(continuous queries,CQ)是时空数据库中重要的查询类型.针对基于TPR树索引和R树索引的大量并发连续查询处理,提出了一种可伸缩的增量连续查询处理(scalable processing of incremental continuous queries,SICQ)框架,通过引入搜索区域进行预裁剪以减少查询更新所需要的索引节点访问代价,并引入了增量结果表保存候选对象、批量地更新查询结果集.SICQ框架能够高效处理大量并发的连续查询,具有良好的可伸缩性.基于SICQ框架提出了一种增量更新的SICQ查询处理算法,能够基于上次查询结果增量地更新查询,支持查询集合中加入或删除查询和对象数据集的插入、删除等动态更新操作.实验结果与分析表明,基于SICQ算法的SICQ框架可以很好地支持大量并发的连续查询处理,具有良好的实用价值.  相似文献   

7.
本文分析了SLCA查询语义处理算法,建立了XML查询关键字的倒排索引,然后对SLCA算法进行了改进,设计了短路算法SA(Shorted Algorithm),SA算法在搜索SLCA过程中根据XML编码判断节点是否包含一个SLCA。实验结果显示,本文设计的短路算法与已有算法比较在查询质量方面接近,但具有较高的查询效率。  相似文献   

8.
针对地图匹配算法中低采样率ST-matching算法运行时间长的问题,利用索引结构来加速搜索过程.采用了R树及其变种索引,以ST-matching算法为基础,改进并优化ST-matching算法.将搜索圆形区域转化为矩形区域以支持覆盖和交叉查询,利用滑动窗口优化回退问题.实验结果表明,以R树和其变种索引能在扩大搜索范围情况下,明显减少搜索时间,从而缩短算法运行时间,提高匹配系统效率.  相似文献   

9.
倒排索引是大多数大型文本搜索系统的核心数据结构,索引压缩可以有效地减少倒排索引的空间占用,提升检索效率。针对倒排索引压缩算法中的字节对齐编码进行研究,对于其压缩率不够优秀的问题,提出了分区可变单位编码(PVU编码)。算法以可变单位方式代替固定字节存储,使实际存储空间更加贴合原码长度,从而提高压缩效果。针对序列均匀分区并非最优分区的问题,提出将最优分区问题转化为图论中最短路径问题的方法,使用Dijkstra算法求解序列的最优编码分区。通过对比实验验证了改进优化的PVU编码相较于传统的字节对齐编码能够更好地压缩倒排索引序列。  相似文献   

10.
对分词检索算法n-Gram/2L的索引结构作了改进,在第二级倒排表中加入对文章标识的索引,提出一种基于Zigzag的分词检索算法n-Gram/2LZ(n-Gram/2L on Zigzag join)。在对数据量较大的文章进行检索和索引时,该算法在保留原有算法特性的基础上进一步减少了索引冗余,降低了索引的存储量,同时对查询算法的优化降低了查询时的系统开销,并且减少索引中记录访问次数,提高了查询效率。  相似文献   

11.
针对PFUP算法存在扫描多次数据库这个瓶颈问题,提出一种优化的关联规则增量更新算法MIFUP(Mixed Improve Fast Updating).该算法提出了两种优化策略:借鉴事务压缩原理和用数组存放一阶非频繁项集个数.实验仿真说明,MIFUP算法效率明显优于PFUP算法.  相似文献   

12.
基于遗传神经网络的MADA   总被引:2,自引:1,他引:1  
宏观质量决策方案的评价与选择,需要能准确给出各影响因素的权重系数,文中在分析了多属性决策问题及现有方法之后,提出子用遗传神经网络建立权重分配模型,从而改进多属性决策的方法,使权重的确定较为客观准确,并具有自学习功能,实践表明,效果良好。  相似文献   

13.
一种防火墙规则冲突快速检测算法   总被引:1,自引:0,他引:1  
目前,在防火墙规则冲突检测算法中,效率问题一直没有很好的解决,当防火墙规则数目较大时,检测规则冲突的速度很难满足客户的需要。为了能够快速地检测出防火墙中的规则冲突,在目前使用较多的ASBV算法上提出一种规则冲突检测算法(DBBV算法)。该算法采用的方法是使用位向量和分治技术,该设计在检测规则冲突的时候,设计的算法只是进行了一次位运算。同时该算法采用的是范围形式的规则集。经过对算法详细的分析,以及通过实验方法的验证,改进的DBBV算法的规则冲突检测效率明显高于ASBV算法。  相似文献   

14.
随着生物信息学的发展,模体识别已经成为一种能够从生物序列中提取有用生物信息的方法。文中介绍了有关模体的一些概念,讨论了模体识别算法(MEME)的基础,即EM(expectation maximization)算法,由于MEME算法是建立在EM算法的基础上的,所以又由此引出了MEME算法,并对MEME算法的一些基本问题比如时间复杂度、算法性能等进行了详细讨论,对算法的局限性和有待改进的地方作了说明。实践证明,MEME是一个较好的模体识别算法,它能够识别出蛋白质或者DNA序列中单个或多个模体,具有很大的灵活性。  相似文献   

15.
针对当前算法在求解聚类问题时存在精度低、速度慢及鲁棒性差等问题,提出一种改进的蝴蝶优化聚类算法,借鉴精英策略思想重新定义蝴蝶优化算法的局部搜索迭代公式,然后融合遗传算法的选择、交叉和变异操作.在1个人工数据集和5个UCI数据集上的测试结果表明所提出算法的性能,且与其他算法相比具有一定优势.  相似文献   

16.
张德喜  黄浩 《计算机应用》2006,26(8):1884-1887
EM算法的计算强度较大,且当数据集较大时,计算效率较低。为此,提出了基于部分E步的混合EM算法,降低了算法的计算强度,提高了算法对数据集大小的适应能力,并且保持了EM算法的收敛特性。最后通过将算法应用于大的数据集,验证了该算法能减少计算强度。  相似文献   

17.
优化问题广泛存在于各个领域,对该问题的求解问题从没停止过.自从优化问题提出以来,人们提出了各种各样的智能优化算法.文中简要介绍了遗传算法、蚁群算法、模拟退火算法3种智能优化算法,并简述其优缺点及应用研究的使用情况.  相似文献   

18.
针对当前算法求解多处理机调度问题的不足,从剪枝策略的角度提出了一种笨人算法。笨人算法的思路是:不断排除最差解,直到剩下唯一解。这种剪枝算法至少保证当前的选择不是最差的,并且对计算过程的最大复杂度作了一个估计。经过实验分析,对于◢N×N◣的MSP,多数情况下,笨人算法比贪心算法、遗传算法、差分进化算法的表现更为稳定和优秀,是一种有效的算法,也为相关问题的研究提供了一种新的思路。  相似文献   

19.
一种基于小波理论的LMS算法研究   总被引:3,自引:0,他引:3  
基于LMS算法原理和MALLAT算法,提出了小波自适应算法,并对算法进行了理论分析和仿真研究,仿真结果表明,小波自适应算法在非线性系统辩识中表现出了良好的性能。  相似文献   

20.
基于仿生理论的几种优化算法综述   总被引:2,自引:1,他引:1  
简要介绍了目前比较流行的三种新型仿生优化算法,即人工鱼群算法、免疫算法和禁忌搜索算法,就这些算法的特点和异同进行了分析,并对它们的发展进行了进一步的阐述,提出了今后的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号