首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
过滤器数据结构可以近似地判断某个元素是否属于给定集合。典型的过滤器数据结构,如布隆过滤器、布谷鸟过滤器、商过滤器,以牺牲查询准确性为代价换取更低的内存空间消耗和查询时间开销。因此,得益于空间时间高效性,过滤器数据结构现已被广泛应用于计算机网络、物联网、数据库系统、文件系统、生物信息学、机器学习等领域的近似成员资格查询操作中。自20世纪70年代以来,过滤器数据结构受到了广泛的研究,在诸多领域取得了重要的进展,其研究思路也在不断变化。文中整理了近五十年来关于过滤器数据结构的经典研究成果,从过滤器数据结构的原理出发对已有工作进行分类总结,并比较不同工作之间的引证关系和改进思路,最后讨论了过滤器数据结构的未来研究方向。  相似文献   

2.
探讨双布鲁姆过滤器查询法查询集合并集、交集、补集、差集或对称差成员的性能问题。理论分析和实验结果表明,双布鲁姆过滤器查询法能够较好地支持集合并集、交集、补集、差集及对称差的成员查询问题,其中双布鲁姆过滤器并集及交集查询不会产生假阴性,仅有少量假阳性的存在,而双布鲁姆过滤器补集、差集及对称差查询则除存在少量假阳性外,还存在少量假阴性。  相似文献   

3.
布隆过滤器(BF)可以高效查询元素是否在指定集合中,广泛应用于区块链成员查询中.针对现有的通用布隆过滤器无法充分利用区块链数据特性及通用设备计算资源的问题,提出一种新型区块链布隆过滤器(BBF).首先,改进布隆过滤器数据结构,对BBF以组为单位进行细分,从而将元素的映射范围限制在一个组内,减少访存失败次数,提高访存效率.其次,利用区块链数据的特性,提出一种简化的三阶段哈希映射函数,减少计算开销.在此基础上,使用单指令多数据流(SIMD)技术实现元素插入和查询操作的并行处理,提高BBF构建及查询速度,最终实现区块链上数据的高效查询和分析.实验结果显示,BBF与BF、OMBF两个主流布隆过滤器相比,其正向查询时的成员查询速度分别提高4倍、3倍,性能提升显著.  相似文献   

4.
文中探讨计数布鲁姆过滤器的代数运算和集合运算的一致性关系,研究使用计数布鲁姆过滤器代数运算进行集合成员查询的性能.理论分析和实验结果表明,计数布鲁姆过滤器的并、交、补、减、异或运算产生的新过滤器依然保持计数布鲁姆过滤器的特征,支持元素的删除操作,不会出现假阴性,能用于集合并集、交集、补集、差集及对称差的成员查询;当使用两个原始的计数布鲁姆过滤器查询补集、差集及对称差元素时,会存在部分本来属于补集、差集或对称差的元素被判为不属于补集、差集或对称差的问题,而使用计数布鲁姆过滤器代数运算后的过滤器进行补集、差集及对称差成员查询,则不存在上述问题,空间效率能提高一倍,时间效率亦能显著地得到改善.计数布鲁姆过滤器代数运算的使用有利于进一步扩展计数布鲁姆过滤器的应用范围.譬如计数布鲁姆过滤器减运算可用作一种新的集合调和方法,用于分布式系统中大型文件的分发.  相似文献   

5.
随着网络的发展,越来越多的场景需要在不完整数据下进行近似成员查询,传统成员查询的布鲁姆过滤器不能满足上述要求。提出面向缺失数据的布鲁姆近似查询算法,先对高维不完整数据的缺失部分进行预填充,通过PCA算法,将高维数据转换到低维数据,使用局部敏感哈希函数与标准哈希函数结合的方式将低维数据存储到布鲁姆过滤器中。使用两个真实数据集验证了所提算法的功能,所提面向缺失数据的布鲁姆近似查询算法,能有效地解决存在缺失数据的近似成员查询问题。  相似文献   

6.
在分布式系统中,覆盖查询对于保持文件的完整性以及数据的一致性有重要作用。虽然布鲁姆过滤器可以支持快速的元素从属查询,但是布鲁姆过滤器只能存储和表示离散的数据集合。为此,用前缀集合表示范围规则,并提出一个前缀编码的转化函数,将每一个前缀码转化为唯一对应的二进制串。为了支持覆盖查询,将计数布鲁姆过滤器与一组链表相结合,设计一个BFrange系统来存储包含规则标识以及具体存储元素的二元组。通过BFrange进行覆盖查询,使查询时间与存储的规则个数无关,复杂度仅为O(1)。仿真实验结果验证了BFrange能实现高效和准确的覆盖查询。  相似文献   

7.
分档布鲁姆过滤器的查询算法   总被引:8,自引:0,他引:8  
布鲁姆过滤器是一种能够简洁地表示集合并支持集合查询的数据结构,广泛应用于数据库、网络和分布式系统中.针对现有的布鲁姆过滤器没有考虑查询失效代价这一缺陷,文中提出一种新的代价敏感的分档布鲁姆过滤器查询算法.它将元素根据不同的查询代价分为不同的子集,通过考查每档子集最低查询失效率的关系,建立由每档子集合最低查询失效假阳性概率表示的集合最低查询失效总代价目标函数,使用类目标函数梯度遗传算法获得每档的最优Hash函数个数ki,完成集合到向量的映射与查找.仿真实验结果表明,使用新结构的查询算法和标准布鲁姆过滤器算法相比,所用的查询计算时间基本相同,因为区分对待集合元素,查询失效总代价仅为标准算法的27%.  相似文献   

8.
可变长地址是未来网络领域的重要研究内容之一。针对传统路由查找算法在面向可变长地址时查找效率低的问题,提出一种基于平衡二叉树AVL(Adelson-Velskii and Landis)树和Bloom过滤器的适用于可变长地址的高效路由查找算法,简称为AVL-Bloom算法。首先,针对可变长地址灵活可变且无界的特点,利用多个片外哈希表分别存储前缀比特位数相同的路由条目及其下一跳信息,同时应用片上Bloom过滤器加速搜索可能匹配的路由前缀;其次,为了解决基于哈希技术的路由查找算法在查找最长前缀路由时需多次哈希对比的问题,引入AVL树技术,即通过AVL树组织每组路由前缀集合的Bloom过滤器及其哈希表,优化路由前缀长度的查询顺序,并减少哈希计算次数进而降低查询时间;最后,在3种不同的可变长地址数据集上将所提算法与METrie(Multi-Entrance-Trie)和COBF(Controlled prefix and One-hashing Bloom Filter)这两种传统路由查找算法进行对比实验。实验结果表明,AVL-Bloom算法的查询时间明显少于METrie和COBF算法,分别减少...  相似文献   

9.
张恩  刘亚鹏 《计算机应用》2016,36(10):2723-2727
针对基于混淆布鲁姆过滤器的隐私集合比较(PSI)协议中存在参与方信息获取不对等及协议不能有效应用于云环境等问题,将混淆布鲁姆过滤器算法与代理不经意传输协议相结合,提出了一种基于混淆布鲁姆过滤器和代理不经意传输的云外包隐私集合比较协议。首先,该算法通过引入混淆布鲁姆过滤器的概念,解决了传统标准布鲁姆过滤器产生误判的问题,进而达到高效存储和传输大数据的目的;其次,采用代理不经意传输协议,能够将复杂耗时的计算外包给云代理服务器,使得云租户不需实时在线、仅需进行少量计算;最后,在云外包隐私集合比较过程中,云租户间无需交互,能够公平地得到集合比较结果。理论分析和性能对比表明,该算法的通信复杂度和计算复杂度是线性的,并且协议是安全和有效的。  相似文献   

10.
华文镝  高原  吕萌  谢平 《计算机应用》2022,42(6):1729-1747
布隆过滤器(BF)是一种基于哈希策略的二进制向量数据结构,凭借分摊哈希碰撞的思想、存在单向误判性的特点以及极小常数查询时间复杂度,常用于表示集合元素并作为进行集合元素查询操作的“加速器”。作为计算机工程中解决集合元素查询问题最好的数学工具,BF在网络工程、存储系统、数据库、文件系统、分布式系统等领域得到了广泛的应用和发展。近几年来,为了适用于各种硬件环境和应用场景,BF出现了大量基于改变结构、优化算法等思想的变种方案。随着大数据时代的发展,对BF自身特点和操作逻辑进行改进已经成为现有集合元素查询研究的一个重要方向。  相似文献   

11.
序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.  相似文献   

12.
相似性查询在实际应用中用途广泛,例如相似网页检测、相似图像检索、语言识别、数据清理等。而基于q-gram的字符串相似性查询作为主流方法之一.在查询的效率和灵活性上相对于其他方法都有很大的优势。实现基于q-gram的基本过滤器,并构成过滤器组合模型,用来过滤掉不匹配的字符串,得到候选集。实验结果表明,与传统的依靠编辑距离来比较每一对字符串的值相比,基于q-gram的过滤器能在保证相似性查询结果准确的前提下,在效率方面有显著的提升。  相似文献   

13.
一种基于MIDAS的企业级应用中提高数据查询效率的方法   总被引:1,自引:0,他引:1  
在企业级数据库管理系统的应用中,查询方式随用户对数据需求的多样性而发生变化,讨论了一种利用“过滤器”机制的查询方法,重复利用了查询结果中的大量数据。在Intranet环境中不但提高数据查询的效率,而且还减小了网络流量。  相似文献   

14.
典型Bloom过滤器的研究及其数据流应用   总被引:1,自引:0,他引:1       下载免费PDF全文
Bloom过滤器是一种空间高效但有一定假阳性的数据表示方法。该文分析比较计数型Bloom过滤器、光谱Bloom过滤器和动态计数过滤器的异同点及适用场合,介绍Bloom过滤器在重复项检测及频繁项挖掘中的应用,总结Bloom过滤器给数据流带来的挑战,包括元素突发问题及数据流相异元素数目变化问题。  相似文献   

15.
序列数据是一种重要的数据类型,在诸多领域都有应用,比如说文本、生物数据库以及Web访问日志等。在对该类型数据进行分析的时候,对于相关信息的获取一般都是通过相似性查询得到的。本文首先根据序列查询算法的特点,提出了SSQ_MF,也就是多重过滤算法。并在此基础上设计了最优过滤顺序模型和过滤集大小估计的相关实验。实验结果表明,SSQ_MF算法的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法。  相似文献   

16.
《软件》2016,(1)
内容管理系统的内容采集主要由爬虫进行搜集,但内容重复与否绝大多数情况下是根据内容所在的页面URI进行判定。作为一个完善的内容管理系统,必须具备对已有内容资源的识别功能。本文通过介绍布隆过滤器,并与传统的判重方式进行对比,同时改进布隆过滤器并应用于内容管理系统的资源判重的功能中,解决了内存占用无限增加,查询时间不断增长,记录内容无法删除等问题,实现了高效快速的资源判重。  相似文献   

17.
处理分布式环境下高速数据的最大挑战在于如何利用少量网络资源输出高质量的查询结果。对面向分布式环境的最近邻查询问题进行了研究,提出了一种基于过滤器的新方法,不仅能计算精确查询结果,还能够处理五类近似查询。该方法在各个远程站点均安装了智能过滤器,并通过合理设置过滤器的范围来降低数据传输量。理论分析及基于模拟数据集合和真实数据集合的实验报告均表明新方法具有较高的性能。  相似文献   

18.
为了有效过滤数据流中的有害信息,通常在数据流上注册大量查询,同时构建过滤器来计算这些查询.在多媒体流环境中,查询和过滤器常常是一种“多对多”的连接,也就是说,对于单个过滤器的计算可能会同时给出多个查询的结果.在这种情况下,如何排序所有的过滤器来获得最小的过滤代价变得非常重要.对于过滤器的排序一般依赖于3个指标:过滤器本身的执行代价c、过滤器连接的查询数目p以及过滤器对于随机样本判断为真的概率s.目前基于贪心的排序算法虽然在一定程度上给出了近似最优的结果,但是还存在以下两个问题:1)指标s只是简单依据经验值设定,不能随着流的变化而自适应变化;2)将3个指标融合成一个代价函数进行排序,而没有深入分析各个指标之间的关系.考虑到以上方法存在的不足,提出一个层次排序算法(adaptive hierarchal ordering,AHO)来高效地过滤多媒体数据流.该算法首先依据过滤器的指标c和p进行分类,然后再在每个类别上按照s进行二次排序.在真实多媒体流环境中的过滤结果证明:AHO可以在不降低准确度的情况下,自适应调整过滤器顺序,其性能优于已有的贪心排序算法.  相似文献   

19.
布鲁姆过滤器查询算法   总被引:12,自引:0,他引:12  
从理论和应用两方面系统地综述了布鲁姆过滤器查询算法迄今为止的主要研究成果,分析了目前布鲁姆过滤器查询算法的研究现状,最后展望了布鲁姆过滤器查询算法未来可能的研究方向.  相似文献   

20.
在基于J2EE的Web开发中,经常需要对用户请求进行预处理,传统的方法很难实现软件复用,因此需要一种新型、高效的技术来解决这个问题,本文结合截取过滤器模式的特点,提出了使用截取过滤嚣模式采解决用户请求预处理的问题,并用一个例子来说明如何在开发中运用截取过滤器模式提高软件的可读性、可维护性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号