首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
提出一种基于空间金字塔分块与PLSA方法相结合的场景分类方法.该方法首先通过空间金字塔分块的方式来构建图像区域集合,然后利用概率潜在语义分析(PLSA)从图像的区域集合中发现潜在语义模型,最后根据潜在语义模型找出所有图像区域中潜在语义出现概率来构建区域潜在语义特征,并使用该特征构建SVM模型进行场景分类.在13类场景图像上的试验表明,和其他方法相比,该方法中不需要进行大量的手工标注,而且具有更高的分类准确率.  相似文献   

2.
本文提出了一种基于期望最大化(EM)算法的局部图像特征的语义提取方法。首先提取图像的局部图像特征,统计特征在视觉词汇本中的出现频率,将图像表示成词袋模型;引入文本分析中的潜在语义分析技术建立从低层图像特征到高层图像语义之间的映射模型;然后利用EM算法拟合概率模型,得到图像局部特征的潜在语义概率分布;最后利用该模型提取出的图像在潜在语义上的分布来进行图像分析和理解。与其他基于语义的图像理解方法相比,本文方法不需要手工标注,以无监督的方式直接从图像低层特征中发掘图像的局部潜在语义,既求得了局部语义信息,又获得了局部语义的空间分布特性,因而能更好地对场景建模。为验证本文算法获取语义的有效性,在15类场景图像上进行了实验,实验结果表明,该方法取得了良好的分类准确率。  相似文献   

3.
传统潜在语义分析(Latent Semantic Analysis, LSA)方法无法获得场景目标空间分布信息和潜在主题的判别信息。针对这一问题提出了一种基于多尺度空间判别性概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)的场景分类方法。首先通过空间金字塔方法对图像进行空间多尺度划分获得图像空间信息,结合PLSA模型获得每个局部块的潜在语义信息;然后串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息;最后结合提出的权值学习方法来学习不同图像主题间的判别信息,从而得到图像的多尺度空间判别性潜在语义信息,并将学习到的权值信息嵌入支持向量基(Support Vector Machine, SVM)分类器中完成图像的场景分类。在常用的三个场景图像库(Scene-13、Scene-15和Caltech-101)上的实验表明,该方法平均分类精度比现有许多state-of-art方法均优。验证了其有效性和鲁棒性。  相似文献   

4.
一种基于类主题空间的图像场景分类方法   总被引:2,自引:2,他引:0       下载免费PDF全文
本文在扩展LDA(latent dirichlet allocation)的基础上提出了一种新的生成模型——基于类主题空间的潜在狄里克雷分布(CTS-LDA)用来实现自然图像场景分类。该方法不同于以往方法,它在训练时通过将图像场景类别信息引入模型推导过程中,产生各场景类的独立语义主题空间,使得每个场景类都有各自不同的主题空间,图像的最终语义表示采用与其类别相关的类主题集,是一种符合人类认知习惯的方法。以前所用的场景分类方法通常在得到图像主题表示后还需要依赖于其他分类器来完成场景分类,而CTS-LDA模型可以在分别计算图像在各类模型中的主题分布时,用最大似然法得出图像的类别信息。此外本文通过分析不同主题数对本模型性能的影响,得出了适用于本模型的最佳主题数。本文分别通过13,15等多类场景任务来检验模型的性能,实验证明该模型能够在不需要太多训练的情况下取得较好的性能。  相似文献   

5.
基于稀疏编码多尺度空间潜在语义分析的图像分类   总被引:1,自引:0,他引:1  
传统潜在语义分析方法无法利用图像中区域语义构成的上下文信息来获得图像目标空间分布信息,因此它丢掉了局部特征之间的空间关系信息.而基于最近邻矢量量化来构造共生矩阵具有较大的量化误差,使得特征描述缺乏鲁棒性,影响后续潜在语义分析获得特征的精确性.为了弥补这些不足,文中提出了一种基于稀疏编码的多尺度空间潜在语义分析的图像分类方法.首先通过空间金字塔方法对图像进行空间多尺度划分,然后利用稀疏编码对每个局部块特征进行软量化以形成共生矩阵,之后结合概率潜在语义分析(PLSA)获得每个局部块的潜在语义信息,再利用权值串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息,最后用支持向量机(SVM)分类器完成图像的场景分类.在常见图像库上的实验表明,本文提出的基于稀疏编码的多尺度空间潜在语义分析方法平均分类精度比现有诸多方法均有明显提高,验证了其有效性和鲁棒性.实验还表明,空间金字塔匹配、稀疏编码共生矩阵以及PLSA降维这3个模块在该文方法中缺一不可,共同提升图像表征和分类性能.  相似文献   

6.
针对传统pLSA模型中语义建模和参数求解不足的问题,提出一种基于先验信息的pLSA场景分类方法.首先对概率模型中的参数矩阵增加同类场景数据的低秩性及单幅图像相对语义主题的稀疏性约束,建立基于先验信息的优化决策模型;然后采用非精确增广拉格朗日乘子法给出模型参数求解算法;最后将基于潜在语义分析的场景分类方法应用到较大规模的场景分类任务中.与其他基于pLSA模型的分类算法进行比较的实验结果表明,文中方法便于产生低维空间中紧致有效的场景语义表示,避免了EM算法收敛性欠佳引起的局部最优问题,具有更好的场景分类性能.  相似文献   

7.
集成模糊LSA与MIL的图像分类算法   总被引:1,自引:0,他引:1  
针对自然图像的分类问题,提出一种基于模糊潜在语义分析(LSA)与直推式支持向量机(TSVM)相结合的半监督多示例学习(MIL)算法.该算法将图像当作多示例包,分割区域的底层视觉特征当作包中的示例.为了将MIL问题转化成单示例问题进行求解,首先利用K-Means方法对训练包中所有的示例进行聚类,建立"视觉词汇表";然后根据"视觉字"与示例之间的距离定义模糊隶属度函数,建立模糊"词-文档"矩阵,再采用LSA方法获得多示例包(图像)的模糊潜在语义模型,并通过该模型将每个多示例包转化成单个样本;采用半监督的TSVM训练分类器,以利用未标注图像来提高分类精度.基于Corel图像库的对比实验结果表明,与传统的LSA方法相比,模糊LSA的分类准确率提高了5.6%,且性能优于其他分类方法.  相似文献   

8.
《软件》2018,(1):29-34
作为计算机视觉领域的一个重要分支,场景分类在许多场所有着重要和广泛的应用。由于场景的整体布局、目标物体的出现以及位置关系的变化等因素使得整体场景更加多样化,然而,利用场景与目标间的语义信息可以有效克服这个问题。本文提出一种同时利用卷积神经网络与语义信息来进行场景分类的方法,该方法首先利用卷积神经网络获取颜色信息对场景进行初始分类,然后利用图像目标物体与场景间的语义信息对分类结果进行修正。我们与目前流行的场景分类方法进行了实验对比,实验结果表明与利用海量训练数据集得到好的分类效果的方法相比,本文方法利用有限的训练数据集的情况下,仍能取得良好的分类效果。  相似文献   

9.
Sprinkling方法是一种集成了训练样本类别信息的监督潜在语义模型。但是该方法特征权重采用词频,降低了文本分类效果,同时该模型并没有考虑不同样本对分类的贡献能力,而是认为样本对分类的贡献相同,另外,该模型采用多个特征映射一个类别来加强类别知识对分类的贡献。为此,文章在Sprinkling方法的基础上提出了一种新的监督潜在语义模型。实验结果表明,该文方法的总体性能优于原始的Sprinkling方法,在特征数为1 100时,获得了最高分类精度,提高幅度达到1.71%。  相似文献   

10.
针对传统潜在语义检索模型计算成本大、检索速度慢、不利于应用在大规模农业信息检索领域的缺陷,文中提出一种针对农业主题的改进潜在语义检索模型(ALSI)。该模型先利用全文检索生成农业信息全文倒排索引库,然后利用农业高频词库和潜在语义分析生成的语义索引库,进行语义检索。通过多组实验分析确定了该模型所采用的词条权重计算方法和语义空间维数。最后,通过实验分析对比了改进后的潜在语义检索模型(ALSI)与传统潜在语义检索模型(LSI)的检索效果。结果表明,ALSI的检索效果明显好于LSI,适合应用于较大规模农业信息检索。  相似文献   

11.

In recent years, image scene classification based on low/high-level features has been considered as one of the most important and challenging problems faced in image processing research. The high-level features based on semantic concepts present a more accurate and closer model to the human perception of the image scene content. This paper presents a new multi-stage approach for image scene classification based on high-level semantic features extracted from image content. In the first stage, the object boundaries and their labels that represent the content are extracted. For this purpose, a combined method of a fully convolutional deep network and a combined network of a two-class SVM-fuzzy and SVR are used. Topic modeling is used to represent the latent relationships between the objects. Hence in the second stage, a new combination of methods consisting of the bag of visual words, and supervised document neural autoregressive distribution estimator is used to extract the latent topics (topic modeling) in the image. Finally, classification based on Bayesian method is performed according to the extracted features of the deep network, objects labels and the latent topics in the image. The proposed method has been evaluated on three datasets: Scene15, UIUC Sports, and MIT-67 Indoor. The experimental results show that the proposed approach achieves average performance improvement of 12%, 11% and 14% in the accuracy of object detection, and 0.5%, 0.6% and 1.8% in the mean average precision criteria of the image scene classification, compared to the previous state-of-the-art methods on these three datasets.

  相似文献   

12.
基于全局优化策略的场景分类算法   总被引:1,自引:0,他引:1  
提出一种基于全局优化策略的场景分类算法.该算法基于整幅图像提取全局场景特征——空间包络特征.从图像块中提取视觉单词,且定义隐变量表示该视觉单词语义,然后引入隐状态结构图描述整幅图像的视觉单词上下文;在场景分类策略上,构造由相容函数组成的目标函数,其中相容函数度量全局场景特征、隐变量与场景类别标记的相容度,通过求解目标函数的全局最优解推断图像的场景类别标记.在标准场景图像库上的对比实验表明该算法优于当前有代表性的场景分类算法.  相似文献   

13.
图像场景分类中视觉词包模型方法综述   总被引:1,自引:1,他引:0       下载免费PDF全文
目的关于图像场景分类中视觉词包模型方法的综述性文章在国内外杂志上还少有报导,为了使国内外同行对图像场景分类中的视觉词包模型方法有一个较为全面的了解,对这些研究工作进行了系统总结。方法在参考国内外大量文献的基础上,对现有图像场景分类(主要指针对单一图像场景的分类)中出现的各种视觉词包模型方法从低层特征的选择与局部图像块特征的生成、视觉词典的构建、视觉词包特征的直方图表示、视觉单词优化等多方面加以总结和比较。结果回顾了视觉词包模型的发展历程,对目前存在的多种视觉词包模型进行了归纳,比较常见方法各自的优缺点,总结了视觉词包模型性能评价方法,并对目前常用的标准场景库进行汇总,同时给出了各自所达到的最高精度。结论图像场景分类中视觉词包模型方法的研究作为计算机视觉领域方兴未艾的热点研究领域,在国内外研究中取得了不少进展,在计算机视觉领域的研究也不再局限于直接应用模型描述图像内容,而是更多地考虑图像与文本的差异。虽然视觉词包模型在图像场景分类的应用中还存在很多亟需解决的问题,但是这丝毫不能掩盖其研究的重要意义。  相似文献   

14.
Novelty detection is an important functionality that has found many applications in information retrieval and processing. In this paper we propose a novel framework that deals with novelty detection in multiple-scene image sets. Working with wildlife image data, the framework starts with image segmentation, followed by feature extraction and classification of the image blocks extracted from image segments. The labelled image blocks are then scanned through to generate a co-occurrence matrix of object labels, representing the semantic context within the scene. The semantic co-occurrence matrices then undergo binarization and principal component analysis for dimension reduction, forming the basis for constructing one-class models on scene categories. An algorithm for outliers detection that employs multiple one-class models is proposed. An advantage of our approach is that it can be used for novelty detection and scene classification at the same time. Our experiments show that the proposed approach algorithm gives favourable performance for the task of detecting novel wildlife scenes, and binarization of the semantic co-occurrence matrices helps increase the robustness to variations of scene statistics.  相似文献   

15.
多层感知机分类器是一种有效的数据分类方法,但其分类性能受训练样本空间的限制。通过多层感知机分类器系综提高室外场景理解中图像区域的分类性能,提出了一种自动识别室外场景图像中多种景物所属概念类别的方法。该方法首先提取图像分割区域的低层视觉特征,然后基于系综分类方法建立区域视觉特征和语义类别的对应关系,通过合并相同标注区域,确定图像中景物的高层语义。对包含5种景物的150幅图像进行测试,识别率达到了87%。与基于多层感知机方法的实验结果相比,本文提出的方法取得了更好的性能,这表明该方法适合于图像区域分类。此外,系综方法还可以推广到其他的分类问题。  相似文献   

16.
A thousand words in a scene   总被引:2,自引:0,他引:2  
This paper presents a novel approach for visual scene modeling and classification, investigating the combined use of text modeling methods and local invariant features. Our work attempts to elucidate (1) whether a textlike bag-of-visterms (BOV) representation (histogram of quantized local visual features) is suitable for scene (rather than object) classification, (2) whether some analogies between discrete scene representations and text documents exist, and 3) whether unsupervised, latent space models can be used both as feature extractors for the classification task and to discover patterns of visual co-occurrence. Using several data sets, we validate our approach, presenting and discussing experiments on each of these issues. We first show, with extensive experiments on binary and multiclass scene classification tasks using a 9,500-image data set, that the BOV representation consistently outperforms classical scene classification approaches. In other data sets, we show that our approach competes with or outperforms other recent more complex methods. We also show that probabilistic latent semantic analysis (PLSA) generates a compact scene representation, is discriminative for accurate classification, and is more robust than the BOV representation when less labeled training data is available. Finally, through aspect-based image ranking experiments, we show the ability of PLSA to automatically extract visually meaningful scene patterns, making such representation useful for browsing image collections.  相似文献   

17.
为生成有效表示图像场景语义的视觉词典,提高场景语义标注性能,提出一种基于形式概念分析(FCA)的图像场景语义标注模型。该方法首先将训练图像集与其初始的视觉词典抽象为形式背景,采用信息熵标识了各视觉单词的权重,并分别构造了各场景类别概念格结构;然后再利用各视觉单词权重的均值刻画概念格内涵上各组合视觉单词标注图像的贡献,按照类别视觉词典生成阈值,从格结构上有效提取了标注各类场景图像语义的视觉词典;最后,利用K最近邻标注测试图像的场景语义。在Fei-Fei Scene 13类自然场景图像数据集上进行实验,并与Fei-Fei方法和Bai方法相比,结果表明该方法在β=0.05和γ=15时,标注分类精度更优。  相似文献   

18.
以传统的词袋模型为基础,根据相邻镜头关键帧之间具有相关性的特点提出了一种用于视频场景分类的模型。将视频片段进行分割,提取关键帧,对关键帧图像归一化。将关键帧图像作为图像块以时序关系合成新图像,提取新图像的SIFT特征及HSV颜色特征,将图像的SIFT特征及HSV颜色特征数据映射到希尔伯特空间。通过多核学习,选取合适的核函数组对每个图像进行训练,得到分类模型。通过对多种视频进行实验,实验结果表明,该方法在视频场景分类中能取得很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号