首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为了进一步提高图像描述生成文本的精度,提出一种结合全局-局部特征和注意力机制的图像描述方法。该方法在传统的编码器-解码器模型上进行改进,从整体角度来看,编码器阶段使用残差网络ResNet101提取图像的全局特征和局部特征,以避免对象丢失或对象预测错误问题,在解码器阶段采用嵌入改进后的注意力机制的双向[GRU]生成文本序列。从局部角度来看,该模型提出的注意力机制是一种独立的循环结构,通过计算图像局部特征向量与语义向量之间的相似度来获取注意力权重,增强图像特征与语义信息之间的映射。在MSCOCO数据集上的实验结果显示,该算法在BLEU、CIDEr、METEOR等评价指标上均获得了不同程度的提升,表明使用该模型生成的描述文本准确度高且细节丰富。  相似文献   

2.
图像描述是一项融合了自然语言处理和计算机视觉的综合任务,现有方法不仅存在描述性能不佳、缺失语义信息等问题,还存在模型结构与图像特征之间语义信息关联性不足的问题.针对这些问题,提出一种使用门控循环单元和卷积注意力模块进行优化的基于多模态神经网络的图像描述方法.为了验证方法的有效性,在MSCOCO2014数据集上进行实验对...  相似文献   

3.
马坤阳  林金朝  庞宇 《计算机应用研究》2020,37(11):3504-3506,3515
针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory,LSTM)网络的图像语义描述模型。将提取到的图像的视觉和目标特征通过一个引导网络建模后送入LSTM网络的每一时刻,实现端到端的训练过程;同时设计了基于图像通道特征的视觉注意力机制,提高了模型对图像细节部分的描述。利用MSCOCO和Flickr30k数据集对模型进行了训练和测试,结果显示模型性能在不同的评价指标上都得到了提升。  相似文献   

4.
赵宏  孔东一 《计算机应用》2021,41(9):2496-2503
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型.模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重...  相似文献   

5.
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。  相似文献   

6.
针对基于内容的图像检索中全局描述缺乏空间位置信息及局部描述面临图像分割的问题,提出了一种基于全局颜色特征和局部Gabor小波纹理特征的图像检索方法.在整幅图上提取MPEG-7主颜色描述算子作为全局描述.将图像划分为5个有重叠的子区域,提取Gabor纹理特征与颜色矩构成局部描述,提出了改进的豪斯多夫距离并将其应用在局部描述的整体匹配中,克服了因图像的平移、旋转而造成检索率低的问题.融合全局相似度和局部相似度获得最终相似度.基于Corel数据库的实验结果表明了该方法的有效性.  相似文献   

7.
8.
《计算机科学与探索》2017,(12):2033-2040
针对当前图像语义描述生成模型对图像内目标细节部分描述不充分问题,提出了一种结合图像动态语义指导和自适应注意力机制的图像语义描述模型。该模型根据上一时刻信息预测下一时刻单词,采用自适应注意力机制选择下一时刻模型需要处理的图像区域。此外,该模型构建了图像的密集属性信息作为额外的监督信息,使得模型可以联合图像语义信息和注意力信息进行图像内容描述。在Flickr8K和Flickr30K图像集中进行了训练和测试,并且使用了不同的评估方法对所提模型进行了验证,实验结果表明所提模型性能有较大的提高,尤其与Guiding-Long Short-Term Memory模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度达到6.3%、4.0%、7.9%、3.9%、17.3%;与Soft-Attention相比,得分分别提高了1.9、2.4、3.3、1.5、2.74,提升幅度达到2.8%、5.5%、11.1%、7.5%、14.8%。  相似文献   

9.
10.
11.
本文提出一种融合整体与局部特征信息的图像检索方法,该方法对改进的HSV色彩空间量化后统计聚类颜色直方图,利用分层分块的思想进行视觉像素的颜色均值和二值化边缘特征的提取,并定义了归一化特征相似度计算公式。检索实验表明,融合后的特征检索,更符合人类视觉感受,检索效果更好。  相似文献   

12.
连政  王瑞  李海昌  姚辉  胡晓惠 《自动化学报》2023,49(9):1889-1903
在图像标题生成领域, 交叉注意力机制在建模语义查询与图像区域的关系方面, 已经取得了重要的进展. 然而, 其视觉连贯性仍有待探索. 为填补这项空白, 提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention, CACA)机制, 利用历史语境记忆(Historical context memory, HCM), 来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响. 同时, 提出一种名为“自适应权重约束(Adaptive weight constraint, AWC)” 的正则化方法, 来限制每个CACA模块分配给历史语境的权重总和. 本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型, 构建一种语境辅助的转换器(Context-assisted transformer, CAT)模型, 用于解决图像标题生成问题. 基于MS COCO (Microsoft common objects in context)数据集的实验结果证明, 与当前先进的方法相比, 该方法均实现了稳定的提升.  相似文献   

13.
结合注意力机制的编解码框架模型已经被广泛地应用在图像描述任务中。大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器很可能不需要关注图像中的任何视觉信息就生成非视觉单词,比如“the”和“of”。本文提出一种自适应注意力模型,编码端采用Faster R-CNN网络提取图像中的显著特征,解码端LSTM网络中引入一个视觉监督信号。在每个时间步长,它可以自动地决定何时依赖于视觉信号,何时仅依赖于语言模型。最后在Flickr30K和MS-COCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量。  相似文献   

14.
International Journal of Computer Vision - Observing a set of images and their corresponding paragraph-captions, a challenging task is to learn how to produce a semantically coherent paragraph to...  相似文献   

15.
近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法 (visual region aggregation and dual-level collaboration, VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.  相似文献   

16.
17.
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息.由于异构语义鸿沟的存在,该任务具有较大的挑战性.目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少.图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取...  相似文献   

18.
为了高效地进行鸟类姿态分类,提出一种基于全局与随机局部特征融合的鸟类姿态识别模型.首先利用融合多分辨率的网络提取鸟类姿态全局特征;然后于网络中浅层与深层的高分辨率特征引入随机定位模块,即根据随机抽取的特征图求取最大值位置,形成包围盒裁剪原图;再将裁剪的局部图片送入子分类网络提取鸟类姿态局部特征;最后将全局和随机局部特征...  相似文献   

19.
Yang  Liang  Hu  Haifeng 《Neural Processing Letters》2019,50(1):549-564
Neural Processing Letters - Recently, deep learning approaches for image captioning have gained a lot of attention and achieved overwhelming progress. In this paper, we propose a novel model which...  相似文献   

20.
Su  Yuting  Li  Yuqian  Xu  Ning  Liu  An-An 《Neural Processing Letters》2020,52(2):1057-1067
Neural Processing Letters - Automatically describing image content with natural language is a fundamental challenge for computer vision community. General methods used visual information to...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号