首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
目的 海量图像检索技术是计算机视觉领域研究热点之一,一个基本的思路是对数据库中所有图像提取特征,然后定义特征相似性度量,进行近邻检索。海量图像检索技术,关键的是设计满足存储需求和效率的近邻检索算法。为了提高图像视觉特征的近似表示精度和降低图像视觉特征的存储空间需求,提出了一种多索引加法量化方法。方法 由于线性搜索算法复杂度高,而且为了满足检索的实时性,需把图像描述符存储在内存中,不能满足大规模检索系统的需求。基于非线性检索的优越性,本文对非穷尽搜索的多索引结构和量化编码进行了探索新研究。利用多索引结构将原始数据空间划分成多个子空间,把每个子空间数据项分配到不同的倒排列表中,然后使用压缩编码的加法量化方法编码倒排列表中的残差数据项,进一步减少对原始空间的量化损失。在近邻检索时采用非穷尽搜索的策略,只在少数倒排列表中检索近邻项,可以大大减少检索时间成本,而且检索过程中不用存储原始数据,只需存储数据集中每个数据项在加法量化码书中的码字索引,大大减少内存消耗。结果 为了验证算法的有效性,在3个数据集SIFT、GIST、MNIST上进行测试,召回率相比近几年算法提升4%~15%,平均查准率提高12%左右,检索时间与最快的算法持平。结论 本文提出的多索引加法量化编码算法,有效改善了图像视觉特征的近似表示精度和存储空间需求,并提升了在大规模数据集的检索准确率和召回率。本文算法主要针对特征进行近邻检索,适用于海量图像以及其他多媒体数据的近邻检索。  相似文献   

2.
基于DHT的分布式索引技术研究与实现   总被引:1,自引:0,他引:1  
针对索引创建和维护效率不高的问题,设计了一种基于DHT(Distributed Hash Table)的分布式倒排索引构建算法。该算法利用基于改进的Chord网络的分布式哈希表技术,将分词后的结果分散到多个索引服务器上并行构建索引,同时采用前驱列表定位和减少服务器定位延迟的技术,大大缩短了索引构建时间。通过采用统一调度的基于分块的增量式倒排索引更新策略,索引更新时不再需要移动已有的索引文件,提高了索引更新效率。利用周期性稳定算法和前驱列表定位提高了系统的稳定性、容错性和索引的一致性。  相似文献   

3.
大数据时代的到来,快速而准确的索引算法对信息检索至关重要。针对基于随机投影构成的单表哈希检索方法导致搜索性能低的问题,提出一种基于主成分的多表图像哈希检索方法。为了得到高效的哈希编码保证不同语义样本特征的区分性,首先通过主元分析方法保留训练集具有区分性图像特征,此外利用特征聚类作为学习哈希投影的指引构建多个索引表;其次采用正交旋转矩阵对哈希投影进行优化,保证了相同语义的样本具有相似的哈希码。最后分别在CIFAR-10和Caltech-256数据集上与相关方法进行比较,实验结果表明提出的方法提高了检索性能。  相似文献   

4.
刘铄  周刚  李珠峰  吴皓 《计算机科学》2023,(11):227-233
知识库问答通常包含3个子任务:中心实体识别、实体链接和关系检测。鉴于当前知识库中通常包含数量巨大的实体和关系,为了进一步解决基于复杂规则和倒排索引在知识库中进行检索带来的搜索空间局限性、召回率偏低和难以兼顾语义信息等问题,提出了一种构造知识库问答检索框架的新方法。该框架包含文本召回和哈希召回两个主要模块,通过二次召回设计构成传统文本检索与保留语义信息的哈希码检索的级联检索模式。所提方法在大规模知识库问答测评基准KgCLUE和NLPCC2016提供的数据集上进行实验,结果表明:基于深度哈希学习的知识库问答检索框架可以高效地获取高质量的候选项,在适应大规模知识库的同时能够节省一定的时间开销。  相似文献   

5.
为了解决高维图像特征的高效匹配问题,提出一种新的基于多次随机子向量量化哈希(MRSVQH)的索引算法.该算法根据随机选择的若干子向量的L2范数对特征向量进行量化,并根据量化值对特征向量进行散列,构建出哈希索引结构;为了提高搜索精度,类似的哈希索引结构被多次构建.搜索时仅考察与查询向量有相同哈希值的特征向量集合,缩减了搜索范围.实验数据表明,与经典的BBF和LSH算法相比,MRSVQH算法在图像特征的最近邻搜索精度和搜索速度方面都有较大的性能提升,在图像匹配和图像检索的应用中具有优势.  相似文献   

6.
高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎性能的最重要的手段之一。针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;对于ASCS算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对于分布不均的长序列在ASCS算法下压缩率不理想问题,提出先排序后差分编码操作后再以ASCS算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。  相似文献   

7.
基于分布式倒排索引和VSM算法的P2P复杂搜索   总被引:2,自引:1,他引:1  
传统的基于DHT的结构化P2P系统有一定的局限性,如不支持多特征词的复杂搜索,无法对搜索结果进行排序等.通过改进的分布式倒排索引,支持多特征词的复杂搜索,并极大改善了传统的倒排索引技术引起的网络流量消耗;通过改进的VSM算法,对搜索结果进行排序;提出了新的资源发布算法.  相似文献   

8.
为了进一步提高检索系统的整体效率,提出了一种分块组织技术的倒排索引方法。具体研究过程是在数据统计的基础上产生倒排索引的检索性能模型,分析倒排文件分块索引项的组织策略,通过仿真实验对检索性能模型进行验证。研究结果表明:分块组织倒排文件方法可以在较小的检索算法循环次数下,获得较高的算法效率,显著减少检索算法的执行时间,验证了倒排文件分块索引方法的可行性。  相似文献   

9.
越来越多的企业和个人用户将数据部署到低成本、高质量的云存储中。为了保护敏感数据,用户在部署前会对其进行加密处理,但海量的加密数据给检索工作带来很大挑战。文中将传统的倒排索引结构改造成密文倒排索引,并在密文倒排索引上构建计数布隆过滤器,进而提出了基于计数布隆过滤器的密文安全索引(SICBF),其在保证隐私安全的前提下实现了对密文的快速检索。为减少SICBF索引中的数据冗余,设计了计数布隆过滤器的剪枝算法。为保护密文倒排索引中相关分的隐私安全,采用一对多保序加密机制(OPME)对相关分进行加密,并在密文相关分上对检索结果直接进行排序,将最相关检索结果top-k返回给授权用户。安全分析表明, 不同于原始数据分布,OPME算法加密后的相关分分布隐藏了数据的峰值,能防止针对相关分的统计攻击。实验结果表明,SICBF的检索效率高,计算量小,适用于海量加密数据文件的快速安全检索。  相似文献   

10.
近年来,随着信息技术的发展,图像、文本、视频、音频等多媒体数据呈现出快速增长的趋势.当处理大量数据时,某些传统检索方法的效率可能会受到影响,并且无法在可接受的时间内获得令人满意的准确性.此外,海量的数据还导致了巨大的存储消耗问题.为了解决上述问题,哈希学习被提出.现有的哈希学习方法首先为数据生成二进制哈希码,并且在学习中让原本相似的数据有相似的哈希码,让不相似的数据有不同的哈希码.然后,在学到的哈希码空间中,通过异或操作进行快速的相似性比较.通过用二进制哈希码代替数据原始的高维特征,可以达到显著降低存储成本的目的.基于哈希学习高效索引和快速查询的特点,其在跨模态检索领域受到了广泛的关注.但是目前的跨模态哈希方法面临着以下几个问题:(1)大多数方法都尝试保持样本间的成对相似性,而忽视了样本间的相对相似性,即样本的排序信息,但排序信息对检索有很重要的作用,因而导致这些方法效果并非最优;(2)许多基于成对相似性的哈希检索方法的时间复杂度为O(n2),无法直接扩展到大规模数据集上,具有一定的局限性;(3)为了简化离散求解问题,目前很多方法采用松弛策略来学习哈希码的近似解,但这种策略会引入较大的量化误差.为了解决以上问题,我们提出了一种基于排序的监督离散跨模态哈希方法(简称为RSDCH).该方法由排序信息学习和哈希学习两步骤组成.在排序信息学习阶段,我们通过嵌入数据的流形结构和语义标签来学习一个具有排序信息的得分矩阵.在哈希学习阶段,我们通过保持学到的排序信息来生成训练样本的哈希码并学出对应的哈希函数.为了让模型能够更好地扩展到大规模数据集,我们使用了锚点采样策略,以获得可接受的且与训练样本数成线性关系的时间复杂度.为了学到高质量的哈希码表示,我们设计了两种有效的相似性保持策略.除此之外,为了避免松弛求解策略引入的量化误差,我们设计了 一种交替迭代的优化算法来离散地学习哈希码.我们在MIRFlickr-25K及NUS-WIDE这两种广泛使用的多标签数据集上进行了对比实验.结果表明,本文提出的方法在平均精确率均值(MAP)、归一化折损累计增益(NDCG)、精确率-召回率曲线(Precision-Recall Curve)等方面均优于现有的几种跨模态哈希方法.通过消融实验,我们验证了 RSDCH模型中各个模块的必要性和有效性.此外,我们还通过额外的实验测试了模型的收敛性、参数敏感性和训练效率,进一步验证了 RSDCH模型的有效性.  相似文献   

11.
钱江波  胡伟  陈华辉  董一鸿 《控制与决策》2019,34(12):2567-2575
基于哈希的近邻查找技术在图像检索、文本匹配、数据挖掘等信息检索领域均有广泛应用.该技术将原始数据通过哈希函数压缩成低维的二进制编码,然后在海明距离下排序检索,具有快速高效且维度不敏感的优势.但是,目前学术界针对流数据的实时在线哈希学习方法的研究很少,而且基本没有讨论哈希函数的更新频率和稳定性问题.针对这一问题,通过增加置信区间来减少更换哈希函数的频率,并构造在线学习的目标函数,使得算法尽可能保持稳定,且快速收敛.为了验证所提出算法的效率和有效性,在公开数据集上与同类的OSH、OKH在线哈希算法进行比较,比较结果表明,所提出的算法在平均准确率和训练时间上有一定优势.  相似文献   

12.
A Fast Search Algorithm for a Large Fuzzy Database   总被引:1,自引:0,他引:1  
In this paper, we propose a fast search algorithm for a large fuzzy database that stores iris codes or data with a similar binary structure. The fuzzy nature of iris codes and their high dimensionality render many modern search algorithms, mainly relying on sorting and hashing, inadequate. The algorithm that is used in all current public deployments of iris recognition is based on a brute force exhaustive search through a database of iris codes, looking for a match that is close enough. Our new technique, Beacon Guided Search (BGS), tackles this problem by dispersing a multitude of ldquobeaconsrdquo in the search space. Despite random bit errors, iris codes from the same eye are more likely to collide with the same beacons than those from different eyes. By counting the number of collisions, BGS shrinks the search range dramatically with a negligible loss of precision. We evaluate this technique using 632,500 iris codes enrolled in the United Arab Emirates (UAE) border control system, showing a substantial improvement in search speed with a negligible loss of accuracy. In addition, we demonstrate that the empirical results match theoretical predictions.  相似文献   

13.
李应 《智能系统学报》2008,3(3):259-264
根据多媒体音频数据的特点,提出一种适用于快速音频数据检索的局部搜索数据结构,即局部搜索树(local search tree,LS-tree).在局部搜索树中,分别以音频数据小波变换系数的过零率和平均幅度作为主、次关键码,基于局部范围对作为索引的其他系数进行组织.其次,基于局部搜索树,提出采用小波包最好基小波塔型算法实现音频数据检索.最后,把采用局部搜索树的小波包最好基—小波塔型算法的搜索和基于小波不同级系数的检索方法相比较,结果表明,这种方法对音频数据检索的快速和有效性.  相似文献   

14.
万晓松  王志海  原继东 《计算机应用》2015,35(10):2733-2736
为了提高学术论文检索的精准性,进而为学术研究提供便利,提出了针对学术论文检索问题的排名策略。首先,介绍了基于网页排名算法面向论文索引排名的启发式方法,其中利用Hash索引技术有效地减少了稀疏矩阵计算对内存的消耗;其次,定义了论文间引用关系图的密集度均衡值,并通过大量实验阐明了不同排名算法的迭代次数与图密集度均衡值之间的关系;最后,将所提出的基于论文索引排名的启发式算法应用于科学引文索引(SCI)数据库中,并与原被引频次降序的排序结果进行比较与分析。实验结果表明:在三种基于网页排名技术的算法中,基于链接结构分析的随机过程算法比较适合于按关键词搜索得到的相关领域学术论文的排名。  相似文献   

15.
黎浩宏 《计算机工程》2008,34(16):85-86
传统Hash算法中溢出桶与主桶、溢出桶与溢出桶之间一般通过指针实现链接,对海量数据的等值查询采用指针方式效率很低。该文提出一种动态哈希索引算法,用B+树结构表示桶地址表,在桶地址表与记录键值之间建立一个B+树结构,通过二分查找可直接找到相应桶元素。实验结果表明,该算法的综合性能优于其他索引,其等值查询效率提高了15%。  相似文献   

16.
17.
针对通用数据库海量数据检索速度慢的缺点,文章提出了一个数据检索优化系统.该系统通过将海量数据拆分成短语和单词,利用哈稀算法和基数排序算法,将拆分的短语和单词重新组织成词典,并对每个短语和单词建立倒排表,利用该倒排表对通用数据库中的海量数据做索引.使用这种基于倒排表的数据索引能够将数据检索速度降低到毫秒级.  相似文献   

18.
针对大数据环境下,传统通用图匹配检索低效、折射率数据无法快速定位的问题,建立了基于一致性Hash的分布式海量分子检索模型。模型结合分子特点,将连续的折射率通过等宽算法离散化建立高速Hash索引,实现分布式海量分子检索系统,有效减小了参与计算的分子数据规模,并根据分子访问频次处理冲突从而提高分子检索效率。实验结果表明,在包含20万个分子的数据中,该方法平均检索耗时约为通用图匹配平均检索耗时的5%,模型性能稳定,具有高可扩展性;对于海量数据环境下依据折射率检索高频次分子较为适用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号