首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 159 毫秒
1.
针对如何有效地利用图像视觉信息与标注信息进行图像聚类的问题,提出了一种基于视觉单词与标注单词共生的聚类算法.在视觉特征空间,采用K-means算法对图像聚类,得到表征图像视觉信息的视觉单词,即聚类中心.在图像标注字空间,计算各聚类中心下标注单词的统计分布,建立视觉单词与标注单词共生矩阵,进而针对图像提取嵌入有视觉信息的标注词特征LDA(latent dirichlet allocation)主题模型作为最终聚类算法完成图像的聚类.通过对Pascal VOC 2007标注图像数据库进行的实验仿真以及对比试验结果表明,基于视觉单词与标注单词共生的聚类算法可以有效地利用图像的视觉信息与标注信息的互补特性,提高聚类算法的性能.  相似文献   

2.
为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块. 该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出. 通过引入上下文门控机制,以根据不同类型的单词动态地权衡视觉注意力模块和视觉关系推理模块的贡献. 实验结果表明,对比以往基于注意力机制的图像描述方法,基于视觉关系推理与上下文门控机制的图像描述方法更好;所提模块可以动态建模和推理不同类型生成单词的最相关特征,对输入图像中物体关系的描述更加准确.  相似文献   

3.
针对传统的视觉词袋(bagofvisualwords,BoVW)模型忽略了视觉单词的空间位置信息的问题,文章提出一种基于视觉单词共生矩阵的图像分类方法。首先对整幅图像进行空间金字塔分解,得到一系列图像块;然后针对每一图像块中的SIFT点,在其空间邻域范围内构建视觉单词共生矩阵(visual words co—oeeurrenee matrix,VWCM)单元,并得到该图像块对应的视觉单词共生矩阵;最后设计出一种新的空间金字塔共生矩阵核(spatial pyramideo—occurrence matrixkernel,SPCMK),并将其用于图像分类。该方法能够有效地刻画视觉单词的绝对和相对位置信息,极大地增强了图像表达的完整度与准确度。实验结果表明,文章方法确实能够大幅度提高图像分类的准确率。  相似文献   

4.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法. 在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能. 实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

5.
提出了一种高效获取词包模型中视觉字典容量的方法,并研究了该方法与隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA )相结合情况下的场景分类性能.在用SIFT特征构建场景图像数据集特征矩阵的基础上,首先采用吸引子传播方法获取场景图像集特征矩阵的合理聚类数目族,并将其中的最小聚类数目作为视觉字典容量,进而生成视觉字典;然后利用所构建视觉字典中的单词描述场景图像训练集和测试集;最后采用LDA模型对场景图像测试集进行场景分类实验.实验结果表明,提出的方法不仅保持了较高场景分类准确率,同时显著提高了场景分类的效率.  相似文献   

6.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法.在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能.实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

7.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法.在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能.实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

8.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。  相似文献   

9.
为有效提高视频内容管理的准确性和高效性,本文借鉴生物信息学的方法,提出了一种降维改进的SURF算法和K-means算法相结合的视频DNA提取算法。该算法通过提取关键帧的SURF特征得到特征点集合,并对其进行K-means聚类构建视觉词袋模型,并将SURF特征通过视觉词袋模型量化为视觉词汇,并最终编码生成视频DNA。实验结果表明,采用改进的SURF算法生成的视频DNA具有良好的准确性和鲁棒性,并能在时间开销方面得到一定的提高。  相似文献   

10.
针对矢量量化编码的量化误差严重,而稀疏编码只是一种浅层学习模型,容易导致视觉词典对图像特征缺乏选择性的问题,提出了一种基于深度学习特征编码模型的图像分类方法。首先,采用深度学习网络无监督的受限玻尔兹曼机(RBM)代替传统的K-Means聚类及稀疏编码等方法对SIFT特征库进行编码学习,生成视觉词典;其次,对RBM编码添加正则化项分解组合每个特征的稀疏表示,使得生成的视觉单词兼具稀疏性和选择性;然后,利用训练数据的类别标签信息有监督地自上而下对得到的初始视觉词典进行微调,得到图像深度学习表示向量,以此训练SVM分类器并完成图像分类。实验结果表明,本文方法能有效克服传统矢量量化编码及稀疏编码等方法的缺点,有效地提升图像分类性能。  相似文献   

11.
为了解决传统串行朴素贝叶斯算法分类性能低下的问题,提出一种基于朴素贝叶斯算法的并行化分类方法。选取多项式朴素贝叶斯,搭建Hadoop集群,通过卡方检验选取特征词,利用词频-逆文本频率指数方法计算出每个特征项的权值,并求出每类的权重总和,将权值应用到朴素贝叶斯公式中得到分类结果。实验结果表明:在该集群上设计的并行化朴素贝叶斯分类方法较比传统朴素贝叶斯方法,其精确率,召回率,F1值分别至少提高了7.66%,7.56%,11.98%,且用时更短,说明本文的方法能够提高处理文本的时间效率。  相似文献   

12.
针对红外人脸识别问题,提出一种新的基于尺度不变特征转换(SIFT)与多示例学习(MIL)相结合的算法。该算法将图像当作多示例包,SIFT描述子当作包中的示例,利用聚类的方法对训练集中的所有SIFT描述子进行聚类,建立"视觉词汇表",再根据"视觉字"在多示例训练包中出现的频率,建立"词-文档"矩阵,采用潜在语义分析(LSA)的方法获得多示例包(图像)的潜在语义特征,将MIL问题转化成标准的有监督学习问题,即在潜在语义空间用支持向量机(SVM)求解MIL问题。基于OTCBVS标准数据集的对比实验结果表明,所提算法是可行的,且识别率明显高于其他方法。  相似文献   

13.
在视觉单词包模型(bag of visual words,BoVW)模型中,由于特征检测的不足、聚类算法的缺陷及视觉单词的量化误差,用BoVW模型产生的视觉词典中,存在视觉单词同义性和歧义性的问题,因此用BoVW计算图像距离时,效果不太理想.BoVW模型产生的词典规模巨大,学习一个普通矩阵需要的运算量难以接受.针对BoVW模型上述缺陷,文章提出了一种基于SVM的BoVW距离度量学习方法.该方法利用SVM训练一个将相似图像对与非相似图像对最大程度分离的超平面,得到计算词频直方图点积的权重矩阵.在Oxford图像集上的检索实验表明了该方法的有效性.  相似文献   

14.
It is illegal to spread and transmit pornographic images over internet,either in real or in artificial format.The traditional methods are designed to identify real pornographic images and they are less efficient in dealing with artificial images.Therefore,criminals turn to release artificial pornographic images in some specific scenes,e.g.,in social networks.To efficiently identify artificial pornographic images,a novel bag-of-visual-words based approach is proposed in the work.In the bag-of-words(Bo W)framework,speeded-up robust feature(SURF)is adopted for feature extraction at first,then a visual vocabulary is constructed through K-means clustering and images are represented by an improved Bo W encoding method,and finally the visual words are fed into a learning machine for training and classification.Different from the traditional BoW method,the proposed method sets a weight on each visual word according to the number of features that each cluster contains.Moreover,a non-binary encoding method and cross-matching strategy are utilized to improve the discriminative power of the visual words.Experimental results indicate that the proposed method outperforms the traditional method.  相似文献   

15.
为了解决视频烟雾检测中特征提取难度较大、复杂度较高的问题,提出一种基于潜在语义(Latent Semantic Analysis,LSA)特征和支持向量机(Support Vector Machine,SVM)的烟雾检测算法。该算法首先将烟雾图像库中的每幅图像进行有重叠分块,提取每个分块的小波纹理与HSV颜色特征;再对所有分块特征进行聚类、量化成"视觉字",并且根据每个"视觉字"在每幅烟雾图像中出现的频率,建立"词-文档"矩阵;然后采用LSA方法获得每幅烟雾图像的潜在语义特征;最后结合SVM,实现视频烟雾检测。对比实验表明,该算法特征提取简便,可以更快检测烟雾的发生,提高了烟雾检测效率。  相似文献   

16.
为减少背包负重、衣着和环境等因素对步态识别率的影响,提出一种融合视觉和触觉特征的全身步态模型。首先,以支撑脚为起点,根据运动传递过程,建立身体各个部分质量与地面支持力的动力学关系,并且通过加速度引入视觉特征;然后,对模型进行参数分离,得到代表不同步态运动特征的特征矩阵,利用Kinect和步道式足底压力仪获得的视觉图像序列和足底压力图像提取视觉和触觉特征,建立包含正常、背包负重和穿大衣3种步态运动状态下的数据库;最后,选择支持向量机中的多分类方法完成步态识别,在识别过程中通过K-CV法对分类器参数进行了寻优。实验结果表明:足底压力分区方式增加了特征识别点,提高了模型识别率;在正常步态运动条件下模型平均识别率为97.31%,在背包和穿大衣的情况下模型识别性能下降比较少。融合视觉和触觉特征建立包含上肢摆动的全身步态模型可以有效提高模型在复杂步态运动条件下的鲁棒性和步态识别准确率。  相似文献   

17.
传统基于Voronoi图的算法忽略了点与点之间是通过实际网络距离相连这一事实,针对此缺陷,提出一种基于网络加权Voronoi图的点群选取算法. 1)利用网络扩展法构建点群的网络加权Voronoi图;2)计算每个点对应的网络Voronoi多边形面积及扩展弧段总长度,并以此为依据,为点群中所包含的统计、专题、拓扑和度量信息分别选定量化描述因子;3)提出“同心圆”算法,解决点群取舍问题. 实验结果表明,提出的方法顾及了点群权重以及与点群相关联的道路等级、方向及局部密度对选取结果的影响,较好地保持了原始点群的各类信息,选取结果符合实际地理空间特征.  相似文献   

18.
基于SIFT特征点的双目视觉定位   总被引:4,自引:0,他引:4  
提出了一种结合了SIFF特征点的双目立体视觉定位方法.介绍了对尺度、旋转、视角等变化具有良好鲁棒性的SIFT特征向量,利用SIFT特征向量匹配算法在双目视觉系统采集的左、右图片中分别检测目标、获取匹配的目标SIFT特征点.经过空间匹配点选择、标定点坐标计算等步骤获取左、右图片中具有空间位置一致性的目标标定点,并在摄像机坐标系中恢复目标标定点三维信息.实验结果表明,利用该方法进行目标定位具有较强的适应性.有一定的实用价值.  相似文献   

19.
基于主方向高斯映射的旋转面特征提取   总被引:5,自引:0,他引:5  
为了从点云中准确提取几何特征参数,给出了旋转面特征提取算法.该算法对旋转面主方向映射到高斯球面,生成主方向高斯图像(PDGI). 对高斯球进行均匀分割,生成一系列小立方栅格,并将高斯球上图像数据点分配到相应的立方栅格中.根据每个栅格中的图像数据点数,对栅格聚类分析,获得一组特征栅格,由这组特征栅格中的图像点来确定大圆所在的平面,从而根据平面法矢确定旋转轴方向.根据旋转面法矢和旋转轴方向,获得旋转轴的定位点,从而确定了旋转轴.并给出了旋转轴的优化方法.计算实例结果表明,该算法能够稳定、准确地提取出旋转面的几何特征参数.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号