首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 116 毫秒
1.
图像语义自动标注是实现图像语义检索与管理的关键,是具有挑战性的研究课题.传统的图像标注方法需要具有完整、准确标签的数据集才能取得较好的标注性能.然而,在现实应用中获得数据的标签往往是不准确、不完整的,并且标签分布不均衡.对于Web图像和社会化图像尤其如此.为了更好地利用这些弱标签样本,提出了一种基于语义邻域学习的图像自动标注方法(semantic neighborhood learning from weakly labeled image,SNLWL).首先在邻域标签损失误差最小化意义下,填充训练集样本标签.通过递进式的邻域选择过程,保证建立的语义一致邻域内样本具有全局相似性、部分相关性和语义一致性,并且语义标签分布平衡.在邻域标签重构误差最小化意义下进行标签预测,降低噪声标签对性能的影响.多个数据集上的实验结果表明,与已知的具有较好标注效果的方法相比,此方法更适用于处理弱标签数据集,标准评测集上的测试也表明了此方法的有效性.  相似文献   

2.
针对大规模图像集合的自动标注问题,提出一种图像语义相关性自动标注方法.首先提取图像的视觉特征,将每个样本表示为局部邻域样本点的稀疏线性组合;然后采用一种基于最大后验概率准则的多标签学习方法得到每幅图像的单特征标签相关度;最终对单个特征和特定标签的相关度阈值进行无偏估计,并采用无监督组合方法融合多种视觉特征和标签的相关度.互联网数据集测试结果表明,该方法是有效的.  相似文献   

3.
传统图像标注方法中人工选取特征费时费力,传统标签传播算法忽视语义近邻,导致视觉相似而语义不相似,影响标注效果.针对上述问题,文中提出融合深度特征和语义邻域的自动图像标注方法.首先构建基于深度卷积神经网络的统一、自适应深度特征提取框架,然后对训练集划分语义组并建立待标注图像的邻域图像集,最后根据视觉距离计算邻域图像各标签的贡献值并排序得到标注关键词.在基准数据集上实验表明,相比传统人工综合特征,文中提出的深度特征维数更低,效果更好.文中方法改善传统视觉近邻标注方法中的视觉相似而语义不相似的问题,有效提升准确率和准确预测的标签总数.  相似文献   

4.
大量上传的网络图像因用户语义标注的随意性,造成了图像标签的不完备,大大降低了图像检索的效率.低秩稀疏是一种有效降低数据噪声的方法.为提高图像语义标签完备的准确度,提出一种基于低秩稀疏分解优化(LRSDO)的图像标签完备方法.首先结合待完备图像的视觉特征和语义搜索其近邻图像集;然后通过低秩稀疏分解模型获得其视觉特征与语义之间的映射关系,并以此预测该图像的候选标签;最后使用面向个体的标签共现频率方法对候选标签进行去噪优化,进而实现对其更加准确的自动图像标签完备.在基准数据集Corel5K和真实数据集Flickr30Concepts上进行了实验,结果表明,该方法在图像标签完备的平均准确率,平均召回率和覆盖率上均表现出更优的性能.  相似文献   

5.
针对图像自动标注中底层视觉特征与高层语义之间的语义鸿沟问题,在传统字典学习的基础上,提出一种基于多标签判别字典学习的图像自动标注方法。首先,为每幅图像提取多种类型特征,将多种特征组合作为字典学习输入特征空间的输入信息;然后,设计一个标签一致性正则化项,将原始样本的标签信息融入到初始的输入特征数据中,结合标签一致性判别字典和标签一致性正则化项进行字典学习;最后,通过得到的字典和稀疏编码矩阵求解标签稀疏编向量,实现未知图像的语义标注。在Corel 5K数据集上测试其标注性能,所提标注方法平均查准率和平均查全率分别可达到35%和48%;与传统的稀疏编码方法(MSC)相比,分别提高了10个百分点和16个百分点;与距离约束稀疏/组稀疏编码方法(DCSC/DCGSC)相比,分别提高了3个百分点和14个百分点。实验结果表明,所提方法能够较好地预测未知图像的语义信息,与当前几种流行的图像标注方法进行比较,所提方法具有较好的标注性能。  相似文献   

6.
大多数图像标签完备方法仅依据待完备图像的视觉特征搜索近邻图像,获取候选标签实现完备,往往忽略候选标签与初始标签隐含的语义和视觉关系.为有效完备图像标签,本文依据信息的相互学习机制提出一种基于视觉和语义互学习的标签完备标注方法.首先,依据待完备图像的视觉特征和初始标签语义,搜索其近邻图像集并获取候选标签;其次,根据候选标...  相似文献   

7.
在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。  相似文献   

8.
目的 少数民族服装款式结构复杂,视觉风格各异。由于缺少民族服装语义标签、局部特征繁杂以及语义标签之间存在相互干扰等因素导致少数民族服装图像解析准确率和精度较低。因此,本文提出了一种融合视觉风格和标签约束的少数民族服装图像解析方法。方法 首先基于本文构建的包含55个少数民族的服装图像数据集,按照基本款式结构、着装区域、配饰和不同视觉风格自定义少数民族服装的通用语义标签和民族语义标签,同时设置4组标注对,共8个标注点;然后,结合自定义语义标签和带有标注对的训练图像,在深度完全卷积神经网络SegNet中加入视觉风格以融合局部特征和全局特征,并引入属性预测、风格预测和三元组损失函数对输入的待解析图像进行初步解析;最后,通过构建的标签约束网络进一步优化初步解析结果,避免标签相互干扰,得到优化后的最终解析结果。结果 在构建的少数民族服装图像数据集上进行验证,实验结果表明,标注对有效提升了局部特征的检测准确率,构建的视觉风格网络能够有效融合少数民族服装的全局特征和局部特征,标签约束网络解决了标签之间相互干扰的问题,在结合视觉风格网络和标签约束网络后,能够明显提升少数民族服装解析的平均精度,像素准确度达到了90.54%。结论 本文提出的融合视觉风格和标签约束的少数民族服装图像解析方法,能够提高少数民族服装图像解析的准确率和精度,对传承祖国文化、保护非物质文化遗产具有很好的意义。  相似文献   

9.
属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.  相似文献   

10.
一种自适应的Web图像语义自动标注方法   总被引:1,自引:0,他引:1  
许红涛  周向东  向宇  施伯乐 《软件学报》2010,21(9):2183-2195
提出了一种自适应的Web图像语义自动标注方法:首先利用Web标签资源自动获取训练数据;然后通过带约束的分段惩罚加权回归模型将关联文本权重分布自适应学习和先验知识约束有机地结合在一起,实现Web图像语义的自动标注.在4 000幅从Web获得的图像数据集上的实验结果验证了该文自动获取训练集方法以及Web图像语义标注方法的有效性.  相似文献   

11.
顾广华  曹宇尧  李刚  赵耀 《软件学报》2020,31(2):531-543
智能电子设备和互联网的普及,使得图像数据爆炸性膨胀.为了有效管理复杂图像资源,本文提出了一种基于加权语义邻近集和形式概念偏序结构的图像层级分类方法.首先,根据图像语义相关分数,对不同程度语义设定自适应权系数,从训练图库中构建加权语义邻近集,通过对语义邻近集中图像的词频分布进行判决,自动生成图像的多个语义标签;然后,以每幅图像为对象,以每幅图像自动生成的语义标签为属性,构建形式背景,通过偏序结构算法对复杂图像集进行有效的层级分类.本文方法可以得到图像库中图像之间明确的结构关系和图像类别之间的从属关系,为复杂图像大数据进行层级分类管理提供了有效的思路.本文对Corel5k、EspGame和Iaprtc12三个数据库进行了图像标注实验,证明了标注的语义完整性和主要语义的准确性;并对Corel5k数据库进行了图像的层级分类实验,结果表明层级分类效果显著.  相似文献   

12.
Ji  Qian  Zhang  Liyan  Shu  Xiangbo  Tang  Jinhui 《Multimedia Tools and Applications》2019,78(10):13213-13225

Image annotation aims at predicting labels that can accurately describe the semantic information of images. In the past few years, many methods have been proposed to solve the image annotation problem. However, the predicted labels of the images by these methods are usually incomplete, insufficient and noisy, which is unsatisfactory. In this paper, we propose a new method denoted as 2PKNN-GSR (Group Sparse Reconstruction) for image annotation and label refinement. First, we get the predicted labels of the testing images using the traditional method, i.e., a two-step variant of the classical K-nearest neighbor algorithm, called 2PKNN. Then, according to the obtained labels, we divide the K nearest neighbors of an image in the training images into several groups. Finally, we utilize the group sparse reconstruction algorithm to refine the annotated label results which are obtained in the first step. Experimental results on three standard datasets, i.e., Corel 5K, IAPR TC12 and ESP Game, show the superior performance of the proposed method compared with the state-of-the-art methods.

  相似文献   

13.
The goal of image annotation is to automatically assign a set of textual labels to an image to describe the visual contents thereof. Recently, with the rapid increase in the number of web images, nearest neighbor (NN) based methods have become more attractive and have shown exciting results for image annotation. One of the key challenges of these methods is to define an appropriate similarity measure between images for neighbor selection. Several distance metric learning (DML) algorithms derived from traditional image classification problems have been applied to annotation tasks. However, a fundamental limitation of applying DML to image annotation is that it learns a single global distance metric over the entire image collection and measures the distance between image pairs in the image-level. For multi-label annotation problems, it may be more reasonable to measure similarity of image pairs in the label-level. In this paper, we develop a novel label prediction scheme utilizing multiple label-specific local metrics for label-level similarity measure, and propose two different local metric learning methods in a multi-task learning (MTL) framework. Extensive experimental results on two challenging annotation datasets demonstrate that 1) utilizing multiple local distance metrics to learn label-level distances is superior to using a single global metric in label prediction, and 2) the proposed methods using the MTL framework to learn multiple local metrics simultaneously can model the commonalities of labels, thereby facilitating label prediction results to achieve state-of-the-art annotation performance.  相似文献   

14.
由于图像数据中普遍存在的“语义鸿沟”问题,传统的基于内容的图像检索技术对于数字图书馆中的图像检索往往力不从心。而图像标注能有效地弥补语义的缺失。文中分析了图像语义标注的现状以及存在的问题,提出了基于语义分类的文物语义标注方法。算法首先通过构建一个Bayes语义分类器对待标注图像进行语义分类,进而通过在语义类内部建立基于统计的标注模型,实现了图像的语义标注。在针对文物图像进行标注的实验中,该方法获得了较好的标注准确率和效率。  相似文献   

15.
在图像补全技术中,当图像丢失较多信息时,仅凭自身已有的信息很难补全图像.因此,文中使用条件生成对抗网络(CGAN)和多粒度认知相结合的方式研究图像的降噪和补全.首先借助云模型中高斯云变换算法提取无标签图像的多层语义信息,并根据不同层次的语义信息对图像进行不同粒度的分割,同时对已分割图像进行自动语义标注.然后将各粒层图像和其对应的语义信息分别作为CGAN的训练数据,得到图像生成对抗网络模型.最后依据此模型补全图像的缺失信息.实验表明,对于Caltech-UCSD Birds和Oxford-102flowers数据集的图像降噪和图像补全,文中算法取得较好效果.  相似文献   

16.
图像语义自动标注问题是现阶段一个具有挑战性的难题。在跨媒体相关模型基础上,提出了融合图像类别信息的图像语义标注新方法,并利用关联规则挖掘算法改善标注结果。首先对图像进行低层特征提取,用“视觉词袋”描述图像;然后对图像特征分别进行K-means聚类和基于支持向量机的多类别分类,得到图像相似性关系和类别信息;计算语义标签和图像之间的概率关系,并将图像类别信息作为权重融合到标签的统计概率中,得到候选标注词集;最后以候选标注词概率为依据,利用改善的关联规则挖掘算法挖掘文本关联度,并对候选标注词集进行等频离散化处理,从而得到最终标注结果。在图像集Corel上进行的标注实验取得了较为理想的标注结果。  相似文献   

17.
Scene image understanding has drawn much attention for its intriguing applications in the past years. In this paper, we propose a unified probabilistic graphical model called Topic-based Coherent Region Annotation (TCRA) for weakly-supervised scene region annotation. The multiscale over-segmented regions within a scene image are considered as the “words” of our topic model, which impose neighborhood contextual constraints on topic level through spatial MRF modeling, and incorporate an annotation reasoning mechanism for learning and inferring region labels automatically. Mean field variational inference is provided for model learning. The proposed TCRA has the following two main advantages for understanding natural scene images. First, spatial information of multiscale over-segmented regions is explicitly modeled to obtain coherent region annotations. Second, only image-level labels are needed for automatically inferring the label of every region within the scene. This is particularly helpful in reducing human burden on manually labeling pixel-level semantics in the scene understanding research. Thus, given a scene image that has no textual prior, the regions in it can be automatically labeled using the learned TCRA model. The experimental results conducted on three benchmarks consisting of the MSRCORID image dataset, the UIUC Events image dataset and the SIFT FLOW dataset show that the proposed model outperforms the recent state-of-the-art methods.  相似文献   

18.
Supervised learning of semantic classes for image annotation and retrieval   总被引:9,自引:0,他引:9  
A probabilistic formulation for semantic image annotation and retrieval is proposed. Annotation and retrieval are posed as classification problems where each class is defined as the group of database images labeled with a common semantic label. It is shown that, by establishing this one-to-one correspondence between semantic labels and semantic classes, a minimum probability of error annotation and retrieval are feasible with algorithms that are 1) conceptually simple, 2) computationally efficient, and 3) do not require prior semantic segmentation of training images. In particular, images are represented as bags of localized feature vectors, a mixture density estimated for each image, and the mixtures associated with all images annotated with a common semantic label pooled into a density estimate for the corresponding semantic class. This pooling is justified by a multiple instance learning argument and performed efficiently with a hierarchical extension of expectation-maximization. The benefits of the supervised formulation over the more complex, and currently popular, joint modeling of semantic label and visual feature distributions are illustrated through theoretical arguments and extensive experiments. The supervised formulation is shown to achieve higher accuracy than various previously published methods at a fraction of their computational cost. Finally, the proposed method is shown to be fairly robust to parameter tuning  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号