首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 984 毫秒
1.
现有的图像描述模型使用全局特征时受限于感受野大小相同,而基于对象区域的图像特征缺少背景信息。为此,提出了一种新的语义提取模块提取图像中的语义特征,使用多特征融合模块将全局特征与语义特征进行融合,使得模型同时关注图像的关键对象内容信息和背景信息。并提出基于深度注意力的解码模块,对齐视觉和文本特征以生成更高质量的图像描述语句。所提模型在Microsoft COCO数据集上进行了实验评估,分析结果表明该方法能够明显提升描述的性能,相较于其他先进模型具有竞争力。  相似文献   

2.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

3.
图像中物体间的关联性能够有效提升图像描述的效果,但是直接使用全局特征表示物体间的关系无法准确捕获图像的关联性特征。为准确捕获图像的关联性特征以提高描述的准确性,提出了一种基于空间关联性的图像描述生成方法。该方法使用Faster R-CNN提取图像的视觉特征和物体的空间位置信息,再将视觉特征与空间位置信息在高维空间融合后指导Transformer捕获图像的关联性特征;最后将视觉特征和关联性特征分别作为视觉注意力和空间关联性注意力的高层语义输入指导单词序列的生成。使用COCO数据集进行实验验证,在BLEU_4和CIDEr上分别得分38.1%和124.8%,相较于基线模型提升了1.8%和4.7%,证明了该方法的可行性。  相似文献   

4.
图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑。图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性。本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结。针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法。此外,本文还分析了融合情感信息与个性化表达的图像描述方法。在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路。对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析。由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决。  相似文献   

5.
针对人群密度在二维图像中随图像视角变化呈现较大差异、特征空间多尺度信息丢失等问题,提出一种多维视角多元信息融合(MDPMIF)的人群密度估计方法.首先,由“上-左-右-下”的方向对视角变化进行信息编码,通过递进聚合方式捕获深层次全局上下文信息,同步提取多维度视角的尺度关系特征;然后,设计联合学习策略获取全局尺度关系特征,并将全局上下文表达、全局尺度关系特征集成,得到更全面的视角变换描述;最后,采用语义嵌入方式实现高、低阶特征相互补充,增强输出密度图的质量.同时,真实场景下的人群聚集模式存在差异,单纯密度图方法易对图像中的低聚集部分造成人群计数高估,基于此,提出一种高低密度多维视角多元信息融合人群计数网络.设计高低密度区分策略对MDPMIF输出进行高低密度区域自适应划分,高密区域保持MDPMIF网络估计结果,低密区域采用检测方法实现人群计数修正,提高模型的鲁棒性.实验结果表明,所提出方法的性能优于对比方法.  相似文献   

6.
针对目前基于全局特征的图像描述模型存在细节语义信息不足的问题,提出结合全局和局部特征的图像中文描述模型.该模型采用编码器-解码器框架,在编码阶段,分别使用残差网络(residual networks,ResNet)和Faster R-CNN提取图像的全局特征和局部特征,提高模型对不同尺度图像特征的利用.采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元(bi-directional gated recurrent unit,BiGRU)作为解码器(BiGRU with residual connection and attention,BiGRU-RA).模型可以自适应分配图像特征和文本权重,改善图像特征区域和上下文信息的映射关系.此外,加入基于强化学习的策略梯度对模型的损失函数进行改进,直接对评价指标CIDEr进行优化.在AI Challenger全球挑战赛图像中文描述数据集上进行训练和实验,实验结果表明,该模型获得更高的评分,生成的描述语句更准确、更详细.  相似文献   

7.
刘茂福  施琦  聂礼强 《软件学报》2022,33(9):3210-3222
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,简称VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.  相似文献   

8.
使机器自动描述图像一直是计算机视觉研究的长期目标之一.为了提高图像内容描述模型的精度,提出一种结合自适应注意力机制和残差连接的长短时间记忆网络(LSTM)的图像描述模型.首先根据pointer-net网络改进基本LSTM结构,增加记录图像视觉属性信息的单元;然后利用改进的LSTM结构,设计基于图像视觉语义属性的自适应注意力机制,自适应注意力机制根据上一时刻模型隐藏层状态,自动选择下一时刻模型需要处理的图像区域;此外,为了得到更紧密的图像与描述语句之间映射关系,构建基于残差连接的双层LSTM结构;最终得到模型能够联合图像视觉特征和语义特征对图像进行内容描述.在MSCOCO和Flickr30K图像集中进行训练和测试,并使用不同的评估方法对模型进行实验验证,结果表明所提模型的性能有较大的提高.  相似文献   

9.
目的 场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息。同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组。另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性。为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法。方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图,进而结构化地描述图像。结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%。在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力。结论 本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图。  相似文献   

10.
近年来,以生成对抗网络(generative adversarial network, GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法 ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module, TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module, IRAM),通过挖掘图像子区域之间的关系,增强图像特...  相似文献   

11.
范东旭  过弋 《计算机科学》2023,(12):246-254
基于方面的多模态情感分析任务(Multimodal Aspect-Based Sentiment Analysis, MABSA),旨在根据文本和图像信息识别出文本中某特定方面词的情感极性。然而,目前主流的模型并没有充分利用不同模态之间的细粒度语义对齐,而是采用整个图像的视觉特征与文本中的每一个单词进行信息融合,忽略了图像视觉区域和方面词之间的强对应关系,这将导致图片中的噪声信息也被融合进最终的多模态表征中,因此提出了一个可信细粒度对齐模型TFGA(MABSA Based on Trusted Fine-grained Alignment)。具体来说,使用FasterRCNN捕获到图像中包含的视觉目标后,分别计算其与方面词之间的相关性,为了避免视觉区域与方面词的局部语义相似性在图像文本的全局角度不一致的情况,使用置信度对局部语义相似性进行加权约束,过滤掉不可靠的匹配对,使得模型重点关注图片中与方面词相关性最高且最可信的视觉局域信息,降低图片中多余噪声信息的影响;接着提出细粒度特征融合机制,将聚焦到的视觉信息与文本信息进行充分融合,以得到最终的情感分类结果。在Twitter数据集上进行实...  相似文献   

12.
近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法 (visual region aggregation and dual-level collaboration, VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.  相似文献   

13.
由于利用全局特征的图像检索方法在很大程度上受到背景的影响,提出了一种基于显著区域和pLSA相结合的图像检索方法。该方法首先通过谱残差和多分辨率分析提取图像的显著目标区域,其次计算所有图像显著区域的颜色和纹理特征并利用K-均值聚类生成视觉词汇表,然后将每幅图像表示成若干视觉词汇的集合。最后利用概率潜在语义分析(pLSA)来提取区域潜在语义特征,并使用该特征构建SVM分类器模型进行图像检索。将本方法和基于全局特征的图像检索方法比较,实验结果表明,基于显著区域的图像检索结果更加准确。  相似文献   

14.
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。  相似文献   

15.
医学图像的全局特征在基于深度学习的医学影像报告自动生成任务中发挥着重要作用,传统方法通常仅使用单分支卷积神经网络提取图像语义特征,注重局部细节特征的提取,但缺乏对医学图像全局特征的关注。提出一种新的医学影像报告生成方法 DBFFN,基于双分支特征融合,结合卷积神经网络与视觉Transformer各自在图像特征提取上的优势,分别提取给定医学图像的全局特征和局部特征,在计算图像全局关系的同时关注局部细微的语义信息。针对医学图像的特征融合问题,设计一种多尺度特征融合模块,对来自两个分支的图像特征进行自适应尺度对齐,并结合矩阵运算方法和空间信息增强方法有效融合全局特征与局部特征内部包含的语义信息。在IU-X-Ray数据集上的实验结果表明,DBFFN方法的BLEU-1~BLEU-4,METEOR,ROUGE-L指标平均值分别为0.496,0.331,0.234,0.170,0.214,0.370,优于HRNN、HRGR、CMAS-RL等方法,在医学影像报告自动生成任务上具有有效性。  相似文献   

16.
针对已有的基于深度神经网络的目标区域分割算法在目标边界分割效果中存在的问题,提出融合图像像素信息与图像语义信息的目标区域分割算法.首先通过加入注意力模块的深度神经网络提取图像语义级别的信息,得到图像语义级别的全局特征;然后利用条件随机场模型对图像局部区域进行像素级别建模,得到图像的局部细节特征;最后综合利用图像的局部细节特征和图像的全局特征,得到目标区域的分割结果.实验结果表明,与已有的算法相比,该算法能够更好地分割出目标的边界区域,抑制边界区域分割粗糙的问题,得到较准确的目标分割区域.  相似文献   

17.
基于视觉注意模型VAMAI的敏感图像检测方法   总被引:1,自引:1,他引:0       下载免费PDF全文
基于内容的敏感图像检测方法是过滤互联网上敏感信息的有效手段。然而,基于全局特征的检测方法误检率偏高,现有的基于BoW(bag-of-visual-words)的检测方法速度较慢。为了快速准确地检测敏感图像,本文提出基于视觉注意模型VAMAI(visual attention model for adult images)的敏感图像检测方法,包括构造面向敏感图像的视觉注意模型VAMAI、基于兴趣区域和SURF(speeded up robust features)的视觉词表算法、全局特征选择及其与BoW的融合三部分。首先,结合显著图模型、肤色分类模型和人脸检测模型,构造VAMAI,用于较准确地提取兴趣区域。然后,基于兴趣区域和SURF构建视觉词表,用于提高基于BoW的检测方法的检测速度与检测精度。最后,比较多种全局特征的性能,从中选择颜色矩,将它与BoW的支持向量机分类结果进行后融合。实验结果表明:VAMAI能够较准确地检测兴趣区域;从检测速度和检测精度两方面显著地提高了敏感图像的检测性能。  相似文献   

18.
视觉注意机制是机器视觉的重要组成部分,受到越来越多的关注.文中提出一种基于全局和局部信息融合的图像显著性检测方法.模型首先对输入图像进行离散剪切波分解,得到尺度系数和剪切波系数.由于剪切波系数包含大部分图像细节信息,模型在每个分解层上对剪切波系数重构得到描述特征图.在特征图的基础上,一方面从全局的角度出发,使用所有特征图获取特征向量计算全局概率密度分布矩阵,进而构建全局显著图,另一方面从局部的角度出发,在每幅特征图上计算局部区域的熵值,进而构建局部显著图.最后对两幅显著图进行融合,得到综合显著图.实验结果验证该算法的有效性和可行性.  相似文献   

19.
针对视频描述生成的文本质量不高与不够新颖的问题,本文提出一种基于特征强化与文本知识补充的编解码模型.在编码阶段,该模型通过局部与全局特征强化增强模型对视频中静态物体的细粒度特征提取,提高了对物体相似语义的分辨,并融合视觉语义与视频特征于长短期记忆网络(long short-term memory, LSTM);在解码阶段,为挖掘视频中不易被机器发现的隐含信息,截取视频部分帧并检测其中视觉目标,利用得到的视觉目标从外部知识语库提取知识用来补充描述文本的生成,以此产生出更新颖更自然的文本描述.在MSVD与MSR-VTT数据集上的实验结果表明,本文方法展现出良好的性能,并且生成的内容信息在一定程度上能够表现出新颖的隐含信息.  相似文献   

20.
结合多媒体描述接口(MPEG-7)和MM(Mixture Model)混合模型,实现了基于决策融合的图像自动标注。在图像标注过程中,分别利用颜色描述子和纹理描述子为每个主题下的图像建立MM混合模型,实现低层视觉特征到高层语义空间的映射,利用局部决策融合方式融合在颜色和纹理MM混合模型下的标注结果,实现图像自动标注。通过在corel图像数据集上的实验,表明提出的局部决策融合方式能更充分利用图像的颜色和纹理信息,提高了图像标注性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号