首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 343 毫秒
1.
针对如何有效地利用图像视觉信息与标注信息进行图像聚类的问题,提出了一种基于视觉单词与标注单词共生的聚类算法.在视觉特征空间,采用K-means算法对图像聚类,得到表征图像视觉信息的视觉单词,即聚类中心.在图像标注字空间,计算各聚类中心下标注单词的统计分布,建立视觉单词与标注单词共生矩阵,进而针对图像提取嵌入有视觉信息的标注词特征LDA(latent dirichlet allocation)主题模型作为最终聚类算法完成图像的聚类.通过对Pascal VOC 2007标注图像数据库进行的实验仿真以及对比试验结果表明,基于视觉单词与标注单词共生的聚类算法可以有效地利用图像的视觉信息与标注信息的互补特性,提高聚类算法的性能.  相似文献   

2.
传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献.针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类.该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法.实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率.  相似文献   

3.
在视觉单词包模型(bag of visual words,BoVW)模型中,由于特征检测的不足、聚类算法的缺陷及视觉单词的量化误差,用BoVW模型产生的视觉词典中,存在视觉单词同义性和歧义性的问题,因此用BoVW计算图像距离时,效果不太理想.BoVW模型产生的词典规模巨大,学习一个普通矩阵需要的运算量难以接受.针对BoVW模型上述缺陷,文章提出了一种基于SVM的BoVW距离度量学习方法.该方法利用SVM训练一个将相似图像对与非相似图像对最大程度分离的超平面,得到计算词频直方图点积的权重矩阵.在Oxford图像集上的检索实验表明了该方法的有效性.  相似文献   

4.
基于空间金字塔的BoW模型图像分类方法   总被引:1,自引:0,他引:1  
针对不同场景图像下词袋(bag of words,BoW)模型的图像分类准确率较低的问题,提出了一种基于空间金字塔BoW模型的图像分类方法。该方法通过尺度不变特征变换(scale-invariant feature transform,SIFT)算法提取原始图像像素特征点作为视觉特征,对相似视觉特征进行聚类形成视觉词袋,并采用空间金字塔方法对视觉词袋进行划分,构建空间金字塔的BoW模型,通过支持向量机分类器对分层后的视觉词袋进行图像分类。分别使用BoW模型和空间金字塔的BoW模型分类方法对网络图像数据库进行分类实验对比,结果表明,空间金字塔BoW模型能有效提高BoW模型的图像分类准确率。  相似文献   

5.
提出了一种新型的共生矩阵描述子,它首先计算彩色图像的真彩色边缘,然后把彩色边缘图像量化为64种颜色,通过共生矩阵来描述两个彩色子块之间的空间相关性,并用于基于内容的图像检索。实验结果表明,彩色子块共生矩阵描述子能够有效地结合颜色和纹理特征,具有良好的检索性能。  相似文献   

6.
为了提高图像的空间分布和语义信息的有效利用,采用金字塔模型提出一种将多尺度空间、LLC和图像语义分析相融合的图像语义分类方法.首先对图像空间域金字塔划分的各个层次的局部块分别进行线性局部稀疏编码,并对不同层次上的量化编码进行串接生成共生矩;其次使用概率潜在语义模型对图像进行语义分析以获得最终的图像表示;最后采用线性多类别SVM对图像进行分类.实验结果表明,本文提出的算法生成的图像特征具有较高的分类性能和效率.  相似文献   

7.
研究混凝土的配合比设计是混凝土工程中的一项重要工作.为了实现不同粒径大小以及砼、砖配合比的混凝土图像的精确分类,提出了一种基于彩色共生矩阵(Color GLCM,CGLCM)和支持向量机(Sup-port Vector Machine,SVM)的混凝土图像分类方法.首先,将混凝土图像从RGB空间转换到HSV空间,分别提...  相似文献   

8.
提出了一种邻域灰阶共生矩阵,用于对侧扫声纳海底图像进行纹理分析及沉积物分类.与用于图像纹理分析的常规灰阶共生矩阵相比,邻域灰阶共生矩阵描述了图像中某一像素与其邻域中所有像素的灰阶联合分布,从而能够更全面地描述图像区域的纹理特性.分别从常规灰阶共生矩阵和邻域灰阶共生矩阵计算相同的6种纹理特征,借此对泥、沙、石3种类型海底的侧扫声呐图像进行分类,分别获得了83.3%和86.4%的正确识别率.  相似文献   

9.
提出了一种高效获取词包模型中视觉字典容量的方法,并研究了该方法与隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA )相结合情况下的场景分类性能.在用SIFT特征构建场景图像数据集特征矩阵的基础上,首先采用吸引子传播方法获取场景图像集特征矩阵的合理聚类数目族,并将其中的最小聚类数目作为视觉字典容量,进而生成视觉字典;然后利用所构建视觉字典中的单词描述场景图像训练集和测试集;最后采用LDA模型对场景图像测试集进行场景分类实验.实验结果表明,提出的方法不仅保持了较高场景分类准确率,同时显著提高了场景分类的效率.  相似文献   

10.
在人类交互行为识别领域,基于RGB视频的局部特征往往不能有效区分近似动作,将深度图像(Depth)与彩色图像(RGB)在识别过程中进行融合,提出一种融合Depth信息的整体和个体分割融合的双人交互行为识别算法。该算法首先分别对RGB和Depth视频进行兴趣点提取,在RGB视频上采用3DSIFT进行特征描述,在Depth视频上利用YOLO网络对左右两人兴趣点进行划分,并使用视觉共生矩阵对局部关联信息进行描述。最后使用最近邻分类器分别对RGB特征和Depth特征进行分类识别,进一步通过决策级融合两者识别结果,提高识别准确率。结果表明,结合深度视觉共生矩阵可以大大提高双人交互行为识别准确率,对于SBU Kinect interaction数据库中的动作可以达90%的正确识别率,验证了所提算法的有效性。  相似文献   

11.
针对目前Bag of words模型将聚类中心作为视觉单词,而导致语义信息表达不完全的问题,提出了一种新的改进的视觉词汇生成方法。首先,提取图像的SIFT特征点并聚类;然后利用核函数进行核密度估计,选取每个聚类中若干个有代表性的特征点;最后,通过SVM训练生成视觉词汇。实验结果表明,改进后的视觉词汇生成方法,在物体分类识别中,与以聚类中心为视觉单词的生成方法相比,增强了语义信息的表达,提高了查全率,使得物体分类识别率大大增加。  相似文献   

12.
针对尺度不变特征变换(SIFT)算法在图像特征提取和检索中精度、实时性以及对光照条件变化描述较差的问题,提出了SIFT和局部二值模式(LBP)相结合的图像特征提取算法。采用旋转不变LBP算法统计关键点周围16×16区域的梯度信息并计算周围9×9区域的LBP值,以区域中每个像素点为中心构建图像的SIFT-LBP特征描述子。采用了基于遗传算法的特征选择方法,剔除了特征点的冗余信息,降低了特征向量维数。实验结果表明,SIFT-LBP算法具有良好的特征匹配效果,对光照条件的变化具有较强的鲁棒性,进一步提高了检索准确率和检索速度。  相似文献   

13.
为了实现手语视频中手语字母的准确识别,提出一种基于DI_CamShift(depth image CamShift)和手语视觉单词(sign language visual word,SLVW)特征结合的算法.首先,采用Kinect获取手语字母手势视频及其深度信息;其次,通过计算获得深度图像中手语手势的主轴方向角和质心位置,计算搜索窗口对手势跟踪;再次,使用基于深度积分图像的大津法(OTSU)分割手势并提取其尺寸不变特征转换(scale invariant feature transform,SIFT)特征和Gabor特征,并通过典型相关分析(canonical correlation analysis,CCA)方法进行特征融合;最后,构建SLVW词包并用支持向量机(support vector machine,SVM)进行识别,单个手语字母最高识别率为99.89%,平均识别率为96.34%.  相似文献   

14.
为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块. 该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出. 通过引入上下文门控机制,以根据不同类型的单词动态地权衡视觉注意力模块和视觉关系推理模块的贡献. 实验结果表明,对比以往基于注意力机制的图像描述方法,基于视觉关系推理与上下文门控机制的图像描述方法更好;所提模块可以动态建模和推理不同类型生成单词的最相关特征,对输入图像中物体关系的描述更加准确.  相似文献   

15.
针对无监督的主题模型无法对图像主题进行类别标记、有监督主题模型中类别信息的标记繁琐且受主观因素影响的问题,提出了一种半监督主题模型。提取图像中与位置无关的局部特征,用尺度不变特征变换对特征进行描述,用词袋模型将人脸图像表示成一组视觉单词的集合;在基于隐含狄利克雷分配(latent Dirichlet allocation, LDA)方法中的主题-单词层分布上引入少量的类别标记指导未标记样本的分类的基础上提出半监督隐含狄利克雷分配方法。在多姿态人脸判别任务上的测试结果表明该算法比无监督LDA算法分类率高9.0%~24.7%;对于部分遮挡人脸图像、未对齐的人脸图像的分类率比多姿态主成分分析法分别提高8.8%和21.5%~39.8%。结果表明该方法在少量样本标记的情况下,性能逼近有监督的隐含狄利克雷分配方法,且适用于其它图像分类问题。  相似文献   

16.
Visual Map是一个含有丰富位置信息的图像数据库,数据库中每一幅图片或图片的特征在存储时会加入相应的位置信息.室内定位的性能与Visual Map图片的数量有关.建立庞大的图片数据库能够使得定位结果更加准确,但是花费时间成本会更大.针对这个问题,本文提出了使用光流法算法来建立图片数据库Visual Map.针对光流法用于室内图像的计算会受到光线明暗不同的影响以及相机转向会产生横向偏移的问题,本文对光流法进行了改进,并使用改进后的光流法算法对摄像机采集的图像序列进行计算,得到摄像机的自身位移,从而得到每一幅图片的对应的地理位置信息.实验结果表明,利用使用光流法快速建立的Visual Map进行室内定位,误差小于1米的概率是26%,误差小于2米的概率是70%.与传统的视觉室内定位法相比,定位精度虽然略有降低,但建立图像数据库所需时间消耗大大减少.相比于视频流快速建立Visual Map方法,定位效果相当,建立Visual Map所需的设备更少,要求更加宽松.利用光流法算法快速建立Visual Map能够很好的应用于室内视觉定位系统,特别是应用于大型场所以及室内场景多变化的场所.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号