首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
目的 哈希是大规模图像检索的有效方法。为提高检索精度,哈希码应保留语义信息。图像之间越相似,其哈希码也应越接近。现有方法首先提取描述图像整体的特征,然后生成哈希码。这种方法不能精确地描述图像包含的多个目标,限制了多标签图像检索的精度。为此提出一种基于卷积神经网络和目标提取的哈希生成方法。方法 首先提取图像中可能包含目标的一系列区域,然后用深度卷积神经网络提取每个区域的特征并进行融合,通过生成一组特征来刻画图像中的每个目标,最后再产生整幅图像的哈希码。采用Triplet Loss的训练方法,使得哈希码尽可能保留语义信息。结果 在VOC2012、Flickr25K和NUSWIDE数据集上进行多标签图像检索。在NDCG(normalized discounted cumulative gain)性能指标上,当返回图像数量为 1 000时,对于VOC2012,本文方法相对于DSRH(deep semantic ranking hashing)方法提高24个百分点,相对于ITQ-CCA(iterative quantization-canonical correlation analysis)方法能提高36个百分点;对于Flickr25,本文方法比DSRH方法能提高2个左右的百分点;对于NUSWIDE,本文方法相对于DSRH方法能提高4个左右的百分点。对于平均检索准确度,本文方法在NUSWIDE和Flickr25上能提高25个百分点。根据多项评价指标可以看出,本文方法能以更细粒度来精确地描述图像,显著提高了多标签图像检索的性能。结论 本文新的特征学习模型,对图像进行细粒度特征编码是一种可行的方法,能够有效提高数据集的检索性能。  相似文献   

2.
现实生活中的图像大多具有多种标签属性。对于多标签图像,理想情况下检索到的图像应该按照与查询图像相似程度降序排列,即与查询图像共享的标签数量依次递减。然而,大多数哈希算法主要针对单标签图像检索而设计的,而且现有用于多标签图像检索的深度监督哈希算法忽略了哈希码的排序性能且没有充分地利用标签类别信息。针对此问题,提出了一种具有性能感知排序的深度监督哈希方法(deep supervised hashing with performance-aware ranking,PRDH),它能够有效地感知和优化模型的性能,改善多标签图像检索的效果。在哈希学习部分,设计了一种排序优化损失函数,以改善哈希码的排序性能;同时,还加入了一种空间划分损失函数,将具有不同数量的共享标签的图像划分到相应的汉明空间中;为了充分地利用标签信息,还鲜明地提出将预测标签用于检索阶段的汉明距离计算,并设计了一种用于多标签分类的损失函数,以实现对汉明距离排序的监督与优化。在三个多标签基准数据集上进行的大量检索实验结果表明,PRDH的各项评估指标均优于现有先进的深度哈希方法。  相似文献   

3.
针对缺少民族服装语义标签、局部特征繁杂等因素导致少数民族服装图像检索准确率低的问题,提出一种结合标签优化和语义分割的服装图像检索方法.首先基于自定义的少数民族服装通用语义标签和民族服装语义标签,构建视觉风格分析概率模型进行标签优化;然后在全卷积网络结构基础上加入侧分支网络和全连接条件随机场,结合带有标注对和优化语义标签的训练图像对待检图像进行语义分割;最后采用多任务的深度监督哈希算法将语义分割结果哈希映射为二进制码,通过相似度计算对少数民族服装图像进行检索并输出结果.在构建的少数民族服装图像集上的实验结果表明,该方法能够有效地提高少数民族服装图像语义分割和检索的准确率.  相似文献   

4.
由于较低的检索时间和空间复杂度,哈希方法被广泛应用于大规模图像检索领域。提出深度多监督哈希(Deep Multi-Supervised Hashing,DMSH)方法来学习具有高度判别能力和紧凑的哈希编码,并进行有效的图像检索。设计一个新的卷积神经网络结构来产生相似性保留的哈希编码,用一个识别信号来增加类间距离,用一个验证信号来降低类间距离。同时,通过正则化的方式降低网络输出和二进制哈希编码之间的损失并使二进制哈希值在每一维上均匀分布使网络输出更接近离散的哈希值。在两个数据集上的实验证明了该方法能够快速编码任意新的图像并取得先进的检索结果。  相似文献   

5.
针对采用松弛-量化策略的深度哈希方法面临的二值码离散优化的难题,提出一种端到端的基于成对标签的哈希方法来学习更具有判别力的哈希码,通过优化损失函数来解决离散优化丢失信息的问题.引入锚点哈希码概念,以汉明空间中的锚点作为监督信息训练AlexNet网络,将表示图片的二值码拟合至各锚点附近,使用优化后的损失函数计算分类误差和...  相似文献   

6.
哈希方法由于低存储、高效率的特性而被广泛应用于遥感图像检索领域。面向遥感图像检索任务的无监督哈希方法存在伪标签不可靠、图像对的训练权重相同以及图像检索精度较低等问题,为此,提出一种基于深度多相似性哈希(DMSH)的遥感图像检索方法。针对优化伪标签和训练关注度分别构建自适应伪标签模块(APLM)和成对结构信息模块(PSIM)。APLM采用K最近邻和核相似度来评估图像间的相似关系,实现伪标签的初始生成和在线校正。PSIM将图像对的多尺度结构相似度映射为训练关注度,为其分配不同的训练权重从而优化深度哈希学习。DMSH通过Swin Transformer骨干网络提取图像的高维特征,将基于语义相似矩阵的伪标签作为监督信息以训练深度网络,同时网络在两个基于不同相似度设计的模块上实现交替优化,充分挖掘图像间的多种相似信息进而生成具有高辨识力的哈希编码,实现遥感图像的高精度检索。实验结果表明,DMSH在EuroSAT和PatternNet数据集上的平均精度均值较对比方法分别提高0.8%~3.0%和9.8%~12.5%,其可以在遥感图像检索任务中取得更高的准确率。  相似文献   

7.
传统的服装检索方法使用固定形状的感受野,当服装目标存在几何变形时无法有效地提取其特征。针对这个问题,提出基于可变形卷积和相似性学习的服装检索方法。首先,构建可变形卷积网络,自动学习服装特征的采样位置和服装图像的哈希编码;然后,级联相似性学习网络,度量哈希编码的相似性;最后,根据相似性评分产生检索结果。实验结果表明,该方法能够有效地提取存在几何变形的服装目标的特征,从而减少了图像背景特征的干扰,提高了检索模型的准确率。  相似文献   

8.
无监督的深度哈希学习方法由于缺少相似性监督信息,难以获取高质量的哈希编码.因此,文中提出端到端的基于伪成对标签的深度无监督哈希学习模型.首先对由预训练的深度卷积神经网络得到的图像特征进行统计分析,用于构造数据的语义相似性标签.再进行基于成对标签的有监督哈希学习.在两个常用的图像数据集CIFAR-10、NUS-WIDE上的实验表明,经文中方法得到的哈希编码在图像检索上的性能较优.  相似文献   

9.
深度卷积神经网络学习的图像特征表示具有明显的层次结构.随着层数加深,学习的特征逐渐抽象,类的判别性也逐渐增强.基于此特点,文中提出面向图像检索的深度汉明嵌入哈希编码方式.在深度卷积神经网络的末端插入一层隐藏层,依据每个单元的激活情况获得图像的哈希编码.同时根据哈希编码本身的特征提出汉明嵌入损失,更好地保留原数据之间的相似性.在CIFAR-10、NUS-WIDE基准图像数据集上的实验表明,文中方法可以提升图像检索性能,较好改善短编码下的检索性能.  相似文献   

10.
针对传统离线哈希算法训练模型耗时、占用内存大和不易更新模型的问题,以及现实图像集的标签存在大量损失的现象,提出了一种能够平衡标签预测的在线哈希算法(BLPOH)。BLPOH通过标签预测模块生成预测标签,并融合残缺的真实标签,能够有效缓解因标签损失导致的模型性能下降。观察到标签存在分布不平衡现象,提出标签类别相似性平衡算法并应用于标签预测模块,提升标签预测的准确性。将旧数据的信息加入哈希函数的在线更新过程,提升模型对旧数据的兼容性。通过在两个广泛使用的数据集上进行实验,并和一些当前先进的算法进行对比,结果证实了BLPOH的优越性。  相似文献   

11.
随着网络上图像和视频数据的快速增长,传统图像检索方法已难以高效处理海量数据。在面向大规模图像检索时,特征哈希与深度学习结合的深度哈希技术已成为发展趋势,为全面认识和理解深度哈希图像检索方法,本文对其进行梳理和综述。根据是否使用标签信息将深度哈希方法分为无监督、半监督和监督深度哈希方法,根据无监督和半监督深度哈希方法的主要研究点进一步分为基于卷积神经网络(convolutional neural networks,CNN)和基于生成对抗网络(generative adversarial networks,GAN)的无监督/半监督深度哈希方法,根据数据标签信息差异将监督深度哈希方法进一步分为基于三元组和基于成对监督信息的深度哈希方法,根据各种方法使用损失函数的不同对每类方法中一些经典方法的原理及特性进行介绍,对各种方法的优缺点进行分析。通过分析和比较各种深度哈希方法在CIFAR-10和NUS-WIDE数据集上的检索性能,以及深度哈希算法在西安邮电大学图像与信息处理研究所(Center for Image and Information Processing,CⅡP)自建的两个特色数据库上的测试结果,对基于深度哈希的检索技术进行总结,分析了深度哈希的检索技术未来的发展前景。监督深度哈希的图像检索方法虽然取得了较高的检索精度。但由于监督深度哈希方法高度依赖数据标签,无监督深度哈希技术更加受到关注。基于深度哈希技术进行图像检索是实现大规模图像数据高效检索的有效方法,但存在亟待攻克的技术难点。针对实际应用需求,关于无监督深度哈希算法的研究仍需要更多关注。  相似文献   

12.
目的 哈希检索旨在将海量数据空间中的高维数据映射为紧凑的二进制哈希码,并通过位运算和异或运算快速计算任意两个二进制哈希码之间的汉明距离,从而能够在保持相似性的条件下,有效实现对大数据保持相似性的检索。但是,遥感影像数据除了具有影像特征之外,还具有丰富的语义信息,传统哈希提取影像特征并生成哈希码的方法不能有效利用遥感影像包含的语义信息,从而限制了遥感影像检索的精度。针对遥感影像中的语义信息,提出了一种基于深度语义哈希的遥感影像检索方法。方法 首先在具有多语义标签的遥感影像数据训练集的基础上,利用两个不同配置参数的深度卷积网络分别提取遥感影像的影像特征和语义特征,然后利用后向传播算法针对提取的两类特征学习出深度网络中的各项参数并生成遥感影像的二进制哈希码。生成的二进制哈希码之间能够有效保持原始高维遥感影像的相似性。结果 在高分二号与谷歌地球遥感影像数据集、CIFAR-10数据集及FLICKR-25K数据集上进行实验,并与多种方法进行比较和分析。当编码位数为64时,相对于DPSH(deep supervised Hashing with pairwise labels)方法,在高分二号与谷歌地球遥感影像数据集、CIFAR-10数据集、FLICKR-25K数据集上,mAP(mean average precision)指标分别提高了约2%、6%7%、0.6%。结论 本文提出的端对端的深度学习框架,对于带有一个或多个语义标签的遥感影像,能够利用语义特征有效提高对数据集的检索性能。  相似文献   

13.
Due to its storage efficiency and fast query speed, cross-media hashing methods have attracted much attention for retrieving semantically similar data over heterogeneous datasets. Supervised hashing methods, which utilize the labeled information to promote the quality of hashing functions, achieve promising performance. However, the existing supervised methods generally focus on utilizing coarse semantic information between samples (e.g. similar or dissimilar), and ignore fine semantic information between samples which may degrade the quality of hashing functions. Accordingly, in this paper, we propose a supervised hashing method for cross-media retrieval which utilizes the coarse-to-fine semantic similarity to learn a sharing space. The inter-category and intra-category semantic similarity are effectively preserved in the sharing space. Then an iterative descent scheme is proposed to achieve an optimal relaxed solution, and hashing codes can be generated by quantizing the relaxed solution. At last, to further improve the discrimination of hashing codes, an orthogonal rotation matrix is learned by minimizing the quantization loss while preserving the optimality of the relaxed solution. Extensive experiments on widely used Wiki and NUS-WIDE datasets demonstrate that the proposed method outperforms the existing methods.  相似文献   

14.
在数量庞大的司法案例文书中进行相似案例匹配可以有效地提升司法部门的工作效率。但司法案件文本不仅长,而且文本自身还具有一定程度的结构复杂性,因此司法案例文本匹配与传统自然语言处理任务相比,具有较高的难度。为解决上述问题,本文基于三元组深度哈希学习模型提出了一种司法案例相似匹配方法,首先使用预训练的BERT中文模型分组提取文书的特征;再利用文书三元组相似性关系,训练深度神经网络模型,用于生成文书的哈希码表示;最后,基于文书哈希码的海明距离来判断是否为相似案例。实验结果表明,本文采用哈希学习方法极大地降低了文书特征表示的存储开销,提高了相似案例匹配的速度。  相似文献   

15.
目的 基于哈希编码的检索方法是图像检索领域中的经典方法。其原理是将原始空间中相似的图片经哈希函数投影、量化后,在汉明空间中得到相近的哈希码。此类方法一般包括两个过程:投影和量化。投影过程大多采用主成分分析法对原始数据进行降维,但不同方法的量化过程差异较大。对于信息量不均衡的数据,传统的图像哈希检索方法采用等长固定编码位数量化的方式,导致出现低编码效率和低量化精度等问题。为此,本文提出基于哈夫曼编码的乘积量化方法。方法 首先,利用乘积量化法对降维后的数据进行量化,以便较好地保持数据在原始空间中的分布情况。然后,采用子空间方差作为衡量信息量的标准,并以此作为编码位数分配的依据。最后,借助于哈夫曼树,给方差大的子空间分配更多的编码位数。结果 在常用公开数据集MNIST、NUS-WIDE和22K LabelMe上进行实验验证,与原始的乘积量化方法相比,所提出方法能平均降低49%的量化误差,并提高19%的平均准确率。在数据集MNIST上,与同类方法的变换编码方法(TC)进行对比,比较了从32 bit到256 bit编码时的训练时间,本文方法的训练时间能够平均缩短22.5 s。结论 本文提出了一种基于多位编码乘积量化的哈希方法,该方法提高了哈希编码的效率和量化精度,在平均准确率、召回率等性能上优于其他同类算法,可以有效地应用到图像检索相关领域。  相似文献   

16.
目的 针对现有的跨场景服装检索框架在服装躯干部分检索问题上,因服装款式识别优化存在服装信息丢失和跨场景款式识别的问题,提出一种新的服装分割方法和基于跨域字典学习的服装款式识别。方法 首先,提出基于超像素融合和姿态估计相结合的方法分割出完整的服装,用完整的服装进行检索可以最大限度地保留服装信息。然后,在服装款式识别时,通过学习服装商品数据集与日常服装图像数据的中间数据集字典,使其逐渐适应日常服装图像数据的方式,调节字典的适应性,进而提高不同场景下的服装款式识别的准确性。另外,由于目前国际缺少细粒度标注的大型服装数据库,本文构建了2个细粒度标注的服装数据库。结果 在公认的Fashionista服装数据集及本文构建的数据库上验证本文方法并与目前国际上流行的方法进行对比,本文方法在上下装检索中精度达到62.1%和63.4%,本文方法在服装分割、款式识别,检索方面的准确度要优于当前前沿的方法。结论 针对现有的跨场景服装检索框架分割服装不准确的问题,提出一种新的层次服装过分割融合方法及域自适应跨域服装款式识别方法,保证了服装的完整性,提高了跨场景服装检索及款式识别的精度,适用于日常服装检索。  相似文献   

17.
Recently, unsupervised Hashing has attracted much attention in the machine learning and information retrieval communities, due to its low storage and high search efficiency. Most of existing unsupervised Hashing methods rely on the local semantic structure of the data as the guiding information, requiring to preserve such semantic structure in the Hamming space. Thus, how to precisely represent the local structure of the data and Hashing code s becomes the key point to success. This study proposes a novel Hashing method based on self-supervised learning. Specifically, it is proposed to utilize the contrast learning to acquire a compact and accurate feature representation for each sample, and then a semantic structure matrix can be constructed for representing the similarity between samples. Meanwhile, a new loss function is proposed to preserve the semantic information and improve the discriminative ability in the Hamming space, by the spirit of the instance discrimination method proposed recently. The proposed framework is end-to-end trainable. Extensive experiments on two large-scale image retrieval data sets show that the proposed method can significantly outperform current state-of-the-art methods.  相似文献   

18.
In this paper, we tackle the problem of segmenting out a sequence of actions from videos. The videos contain background and actions which are usually composed of ordered sub-actions. We refer the sub-actions and the background as semantic units. Considering the possible overlap between two adjacent semantic units, we propose a bidirectional sliding window method to generate the label distributions for various segments in the video. The label distribution covers a certain number of semantic unit labels, representing the degree to which each label describes the video segment. The mapping from a video segment to its label distribution is then learned by a Label Distribution Learning (LDL) algorithm. Based on the LDL model, a soft video parsing method with segmental regular grammars is proposed to construct a tree structure for the video. Each leaf of the tree stands for a video clip of background or sub-action. The proposed method shows promising results on the THUMOS’14, MSR-II and UCF101 datasets and its computational complexity is much less than the compared state-of-the-art video parsing method.  相似文献   

19.
汪鹏  张奥帆  王利琴  董永峰 《计算机应用》2018,38(11):3199-3203
针对图像标注数据集标签分布不平衡问题,提出了基于标签平滑策略的多标签平滑单元(MLSU)。MLSU在网络模型训练过程中自动平滑数据集中的高频标签,使网络适当提升了低频标签的输出值,从而提升了低频标注词的标注性能。为解决图像标注数据集样本数量不足造成网络过拟合的问题,提出了基于迁移学习的卷积神经网络(CNN)模型。首先利用互联网上的大型公共图像数据集对深度网络进行预训练,然后利用目标数据集对网络参数进行微调,构建了一个多标签平滑卷积神经网络模型(CNN-MLSU)。分别在Corel5K和IAPR TC-12图像标注数据集上进行实验,在Corel5K数据集上,CNN-MLSU较卷积神经网络回归方法(CNN-R)的平均准确率与平均召回率分别提升了5个百分点和8个百分点;在IAPR TC-12数据集上,CNN-MLSU较两场K最邻近模型(2PKNN_ML)的平均召回率提升了6个百分点。实验结果表明,基于迁移学习的CNN-MLSU方法能有效地预防网络过拟合,同时提升了低频词的标注效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号