首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
为了解决现有基于深度学习方法的视觉情感分析忽略了图像各局部区域情感呈现的强度差异问题,提出一种结合空间注意力的卷积神经网络spatial attention with CNN, SA-CNN用于提升视觉情感分析效果。设计一个情感区域探测神经网络用于发现图像中诱发情感的局部区域;通过空间注意力机制对情感映射中各个位置赋予注意力权重,恰当抽取各区域的情感特征表示,从而有助于利用局部区域情感信息进行分类;整合局部区域特征和整体图像特征形成情感判别性视觉特征,并用于训练视觉情感的神经网络分类器。该方法在3个真实数据集TwitterⅠ、TwitterⅡ和Flickr上的情感分类准确率分别达到82.56%、80.23%、79.17%,证明利用好图像局部区域情感表达的差异性,能提升视觉情感分类效果。  相似文献   

2.
基于已有的视觉空间和文本空间上标签相关性建模方法,提出一种多模态子空间学习的语义标签生成方法。通过建立视觉特征相似图,以非线性方式重构“图像-标签”相关性,进而将图像的视觉模态表示和标签的文本模态表示统一到多模态子空间中,并保证空间变换前后具备结构保持。在该空间中,标签的文本模态与图像的视觉内容模态信息彼此互补,语义相关的图像和标签映射到空间中相近的样本点,进而将语义标签生成问题转换为子空间内图像的近邻标签搜索问题。结果表明,该方法在FLICKR-25K数据集上,性能达到36.88%,在NUS-WIDE数据集上,性能达到44.17%,多模态子空间学习的语义标签生成方法可以大幅度提升标签生成的准确性。  相似文献   

3.
针对用户评论文本情感分类过程中缺乏特征词语义分析和数据维度过高的问题,提出了一种基于语义分析的在线评论情感分类方法。利用Word2Vec工具获得词向量,通过词向量运算获取评论文本中的词与情感词典中的词之间的语义相似度,然后根据此相似度的大小选择反映正面或负面情感的词作为评论文本的关键特征。通过非负矩阵分解算法,将原始评论文本映射到一个低维的语义空间,降低评论数据维度,增强评论文本之间的语义相关度。实验表明,提出的算法具有更好的文本情感分类能力。  相似文献   

4.
为了在多模态图像检索任务中建立文本特征与图像特征的相关性,提出基于语义增强特征融合的多模态图像检索模型(SEFM).该模型通过文本语义增强模块、图像语义增强模块2部分在特征融合时对组合特征进行语义增强.在文本语义增强模块建立多模态双重注意力机制,利用双重注意力建立文本与图像之间的关联以增强文本语义;在图像语义增强模块引入保留强度和更新强度,控制组合特征中查询图像特征的保留和更新程度.基于以上2个模块可以优化组合特征使其更接近目标图像特征.在MIT-States和Fashion IQ这2个数据集上对该模型进行评估,实验结果表明在多模态图像检索任务上该模型与现有方法相比在召回率和准确率上都有所提升.  相似文献   

5.
乳腺影像案例不仅具有图像的底层特征,同时也有图像的语义特征。为了实现乳腺影像的高效检索,提高计算机辅助诊断的确信度,提出了一种基于关联规则的多模检索方法。首先,采用基于关联规则的特征选择算法选择出与影像语义相关的底层特征,实现特征降维,利用Apriori算法挖掘被选择的特征与语义特征之间的关联规则。然后,利用关联分类引擎算法根据得到的关联规则构建关联分类模型,实现由底层特征获知视觉语义特征的目的。最后,将关联分类模型得到的语义特征作为输入语义,与图像的底层特征相结合,进行图像相似性度量,实现多模检索。通过查准率和查全率以及相关排序平均值等进行了实验对比,实验结果表明,提出的多模检索方法有效的提高了图像的检索精度并且能够由图像的底层特征获知图像的视觉语义特征。该方法缩减了底层特征和视觉语义特征之间的语义鸿沟,提高了图像的检索性能,能够为医生提供更有意义的决策支持。  相似文献   

6.
一种语义级文本协同图像识别方法   总被引:1,自引:1,他引:0  
为解决单纯依赖图像低级视觉模态信息进行图像识别准率低的问题. 考虑到许多图像中存在文本信息,提出了利用图像中的文本信息辅助图像识别的语义级文本协同图像识别方法. 该方法通过文本定位方法定位到图像中的文本块,对其进行分割、二值化、提取特征等处理;然后获取语义,提取图像底层视觉信息,计算两模态的相关性,从而得到协同后验概率; 最后,得到联合后验概率,并取其中最大联合后验概率对图像进行识别. 在自建体育视频帧数据库中,通过与以朴素贝叶斯为代表的单模态方法进行比较,方法在3种不同视觉特征下均具有更高的准确率. 实验结果表明,文本协同方法能够有效辅助图像识别,具有更好的识别性能.  相似文献   

7.
针对零样本图像分类中属性向量的类别区分性差及对可见类别产生分类偏好的问题,提出一种深度监督对齐的零样本图像分类(DSAN)方法. DSAN构造类语义的全局监督标记,与专家标注的属性向量联合使用以增强类语义间的区分性. 为了对齐视觉空间和语义空间的流形结构,采用视觉特征和语义特征分类网络分别学习2种空间特征的类别分布,并且无差异地对齐两者的分布. 利用生成对抗网络的原理消除特征间的本质差异,以按位加的方式合并视觉特征和类语义特征,并利用关系网络学习两者间的非线性相似度. 实验结果表明,DSAN在CUB、AWA1和AWA2数据集上对可见类别和未见类别的调和平均分类准确率比基线模型分别提高了4.3%、19.5%和21.9%;在SUN和APY数据集上,DSAN方法的调和平均分类准确率分别比CRnet方法高1.4%和2.2%,这些结果证明所提方法的有效性.  相似文献   

8.
为了实现在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下的图像描述,提出基于注意力机制和编码-解码架构的施工场景图像描述方法. 采用卷积神经网络构建编码器,提取施工图像中丰富的视觉特征;利用长短时记忆网络搭建解码器,捕捉句子内部单词之间的语义特征,学习图像特征与单词语义特征之间的映射关系;引入注意力机制,关注显著性强的特征,抑制非显著性特征,减少噪声信息的干扰. 为了验证所提方法的有效性,构建一个包含10种常见施工场景的图像描述数据集. 实验结果表明,所提方法取得了较高的精度,在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下具有良好的图像描述性能,且具有较强的泛化性和适应性.  相似文献   

9.
为了提高Web图像的检索质量,提出了一种融合文本关键字和图像视觉内容的Web图像检索方法.通过改进的图像自动标注模型,将Web图像本身所蕴含的低层视觉特征映射到图像高层语义特征,即图像文本标注;再将词汇相似性计算技术作为语义信息的度量手段,将图像文本标注转换成带有权重的文本标注;利用贝叶斯推理网检索模型内在的多信息融合能力,将带权重的Web图像文本标注特征和Web文档中的文本信息无缝地融合在一起实现Web图像检索.实验结果表明,将Web中的文本关键字和Web图像视觉内容融合起来可在一定程度上提高Web图像检索质量.  相似文献   

10.
基于文本的人物图像搜索任务存在文本和图像细粒度特征提取以及消除文本-图像模态间差距等方面的挑战.本文针对全局特征不足以表示全面的文本和图像模态特征的问题,提出了多头注意机制的多粒度文本-图像对齐方法,该方法引入多头注意力机制,在考虑全局匹配的基础之上,同时考虑局部图像特征和局部文本特征之间的匹配,并对局部图像特征和局部文本特征应用多头注意力机制,来获取文本和图像模态内的关系信息,提出模态间关系模块来获取两个模态之间的关系信息,使提取到的局部图像特征和局部文本特征自适应地对齐,从而提升基于文本的人物图像搜索任务的整体效果.在公共数据集CUHK-PEDES上进行了实验验证,模型的总体性能较baseline提高了3.0%,由此表明本文提出的模型在基于文本的人物图像搜索任务中的有效性.  相似文献   

11.
张宇苏    吴小俊    李辉    徐天阳   《南京师范大学学报》2023,(1):001-9
红外和可见光图像表征了互补的场景信息. 现有的基于深度学习的融合方法大多通过独立提取网络分别提取两个源图像特征,从而丢失了源图像之间的深度特征联系. 基于此,提出了一种新的基于无监督深度学习的红外图像与可见光图像融合算法,针对不同模态的特点采用不同的编码方式提取图像特征,利用一个模态的信息补充另一个模态的信息,并对提取到的特征进行融合,最后根据融合特征重建融合图像. 该算法可在两个模态的特征提取路径之间建立交互,不仅可预融合梯度信息和强度信息,且能增强后续处理的信息. 同时设计了损失函数,引导模型保留可见光的细节纹理,并保持红外的强度分布. 将所提算法与多种融合算法在公开数据集上进行对比实验,结果表明,所提算法获得了良好的视觉效果,客观指标评价方面对比现有的优秀算法也有一定的提升.  相似文献   

12.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

13.
在跨媒体检索中,准确利用异构媒体间的语义相关性是制约检索性能优劣的关键因素之一。提出改进的核典型相关分析(modified kernel canonical correlation analysis, MKCCA)模型,以改善跨媒体检索性能:抽取图像的尺度不变特征变换(scale invariant feature transform, SIFT)与描述灰度纹理的空间包络特征(GIST),抽取文本的词频(term frequency, TF)特征;精选映射核,把图像、文本特征映射到高维可分空间中,生成核矩阵;基于典型相关分析(canonical correlation analysis, CCA)方法挖掘图像、文本核矩阵间的非线性语义相关性;设置语义相关度阈值,降低语义噪声干扰并优选核心典型相关分量,更准确、鲁棒地刻画图像与文本间的语义关联。试验表明:SIFT-TF特征组合整体表现最好,而MKCCA模型与高斯核(gauss kernel)配合可获取最优跨媒体检索性能,其图像检索文本与文本检索图像的平均精度均值(mean average precision, MAP)较次优指标分别提升3.06%和1.18%。  相似文献   

14.
To improve the accuracy of cross-modal pedestrian re-identification,a reciprocal bi-directional generative adversarial network-based method is proposed.First,we build two generative adversarial networks to generate cross-modal heterogeneous images.Second,an associated loss is designed to pull close the distribution of features in latent space during the image translation between visible and infrared images so as to help the networks generate fake heterogeneous images that have high similarity with the real images.Finally,by concatenating the original and generated heterogeneous pedestrian images into the discriminative feature extraction network,images from different modalities can be unified into a common modality,thus suppressing the cross-modal gap.Representation learning and metric learning are utilized to achieve more discriminative pedestrian features.Comparative experiments are conducted on SYSU-MM01 and RegDB datasets to analyze the accuracy with different loss functions.Compared with other state-of-the-art cross-modal pedestrian re-identification methods,the proposed method achieves a higher accuracy and stronger robustness.  相似文献   

15.
为了解决视频烟雾检测中特征提取难度较大、复杂度较高的问题,提出一种基于潜在语义(Latent Semantic Analysis,LSA)特征和支持向量机(Support Vector Machine,SVM)的烟雾检测算法。该算法首先将烟雾图像库中的每幅图像进行有重叠分块,提取每个分块的小波纹理与HSV颜色特征;再对所有分块特征进行聚类、量化成"视觉字",并且根据每个"视觉字"在每幅烟雾图像中出现的频率,建立"词-文档"矩阵;然后采用LSA方法获得每幅烟雾图像的潜在语义特征;最后结合SVM,实现视频烟雾检测。对比实验表明,该算法特征提取简便,可以更快检测烟雾的发生,提高了烟雾检测效率。  相似文献   

16.
文本情感分类是近年来自然语言处理领域的研究热点,旨在对文本蕴含的主观倾向进行分析,其中,基于特定目标的细粒度情感分类问题正受到越来越多的关注。在传统的深度模型中加入注意力机制,可以使分类性能显著提升。针对中文的语言特点,提出一种结合多跳注意力机制和卷积神经网络的深度模型(MHA-CNN)。该模型利用多维组合特征弥补一维特征注意力机制的不足,可以在没有任何先验知识的情况下,获取更深层次的目标情感特征信息。相对基于注意力机制的LSTM网络,该模型训练时间开销更小,并能保留特征的局部词序信息。最后在一个网络公开中文数据集(包含6类领域数据)上进行实验,取得了比普通深度网络模型、基于注意力机制的LSTM模型以及基于注意力机制的深度记忆网络模型更好的分类效果。  相似文献   

17.
图像中阴影像素的存在会导致图像内容的不确定性,对计算机视觉任务有害,因此常将阴影检测作为计算机视觉算法的预处理步骤. 提出全新的阴影检测网络结构,通过结合输入图像中包含的语义信息和像素之间的关联,提升网络性能. 使用预训练后的深层网络ResNeXt101作为特征提取前端,提取图像的语义信息,并结合U-net的设计思路,搭建网络结构,完成特征层的上采样过程. 在输出层之前使用非局部操作,为每一个像素提供全局信息,建立像素与像素之间的联系. 设计注意力生成模块和注意力融合模块,进一步提高检测准确率. 分别在SBU、UCF这2个阴影检测数据集上进行验证,实验结果表明,所提方法的目视效果及客观指标皆优于此前最优方法所得结果,在2个数据集上的平均检测错误率分别降低14.4%和14.9%.  相似文献   

18.
为提高雾霾图像清晰化效果并实现去雾能力的泛化,提出一种特征增强及多尺度损失约束的网络结构,并采用增量式训练方法对网络进行训练。网络由教师网络和学生网络构成。通过学习教师网络提取的标注样本注意力信息对学生网络提取的特征进行特征增强;将标注样本多尺度语义特征作为软标签,建立多尺度语义特征损失衡量机制,与全局像素差异损失级联,构建面向特征和像素的损失函数;采用增量式训练方法,教师网络为学生网络平衡不同数据集的新旧知识提供先验约束,使网络保留原有知识的前提下,快速提高对增补数据集的泛化能力。实验结果表明,所提算法在主观视觉效果与客观评价指标上均取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号