首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

2.
图像描述是将图像所包含的全局信息用语句来表示。它要求图像描述生成模型既能提取出图像信息,又能将提取出来的图像信息用语句表达出来。传统的模型是基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的,在一定程度上可以实现图像转语句的功能,但该模型在提取图像关键信息时精度不高且训练速度缓慢。针对这一问题,提出了一种基于CNN和长短期记忆(LSTM)网络改进的注意力机制图像描述生成模型。采用VGG19和ResNet101作为特征提取网络,在注意力机制中引入分组卷积替代传统的全连接操作,从而提高评价值指标。使用了公共数据集Flickr8K、Flickr30K对该模型进行训练,采用多种评价指标(BLEU、ROUGE_L、CIDEr、METEOR)对模型进行验证。实验结果表明,与引入传统的注意力机制模型相比,提出的改进注意力机制图像描述生成模型对图像描述任务的准确性有所提升,并且该模型在5种评价指标上均优于传统的模型。  相似文献   

3.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。  相似文献   

4.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

5.
传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题,提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法.使用ViLBERT作为编码器,ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合,输出图像和文本的联合特征向量.解码器使用结合注意力机制的BiLSTM来生成图像描述.该算法在MSCOCO2014数据集进行训练和测试,实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2,优于基于传统图像特征提取结合注意力机制图像描述算法.通过生成文本描述对比可看出,该算法生成的图像描述能够更细致地表述图片信息.  相似文献   

6.
图像描述模型需要提取出图像中的特征,然后通过自然语言处理(NLP)技术将特征用语句表达出来。现有的基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的图像描述模型在提取图像关键信息时精度不高且训练速度缓慢。针对这个问题,提出了一种基于卷积注意力机制和长短期记忆(LSTM)网络的图像描述生成模型。采用Inception-ResNet-V2作为特征提取网络,在注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数的数量。将图像特征与文本特征有效融合后送入LSTM单元中完成训练,最终产生描述图像内容的语义信息。模型采用MSCOCO数据集进行训练,使用多种评价指标(BLEU-1、BLEU-4、METEOR、CIDEr等)对模型进行验证。实验结果表明,提出的模型能够对图像内容进行准确描述,在多种评价指标上均优于基于传统注意力机制的方法。  相似文献   

7.
针对图像描述生成中对图像细节表述质量不高、图像特征利用不充分、循环神经网络层次单一等问题,提出基于多注意力、多尺度特征融合的图像描述生成算法。该算法使用经过预训练的目标检测网络来提取图像在卷积神经网络不同层上的特征,将图像特征分层输入多注意力结构中,依次将多注意力结构与多层循环神经网络相连,构造出多层次的图像描述生成网络模型。在多层循环神经网络中加入残差连接来提高网络性能,并且可以有效避免因为网络加深导致的网络退化问题。在MSCOCO测试集中,所提算法的BLEU-1和CIDEr得分分别可以达到0.804及1.167,明显优于基于单一注意力结构的自上而下图像描述生成算法;通过人工观察对比可知,所提算法生成的图像描述可以表现出更好的图像细节。  相似文献   

8.
图像自动语句标注利用计算机自动生成描述图像内容的语句,在服务机器人等领域有广泛应用.许多学者已经提出了一些基于注意力机制的算法,但是注意力分散问题以及由注意力分散引起的生成语句错乱问题还未得到较好解决.在传统注意力机制的基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成,同时借助生成文本中的关注信息进一步修正图像中的关注区域,该过程不断强化图像和文本中的关键信息匹配、优化生成的语句.针对常用数据集Flickr8k, Flickr30k和MSCOCO的实验结果表明,该模型在一定程度上解决了注意力分散和语句顺序错乱问题,比其他基于注意力机制方法标注的关注区域更加准确,生成语句更加通顺.  相似文献   

9.
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。  相似文献   

10.
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。  相似文献   

11.
赵宏  孔东一 《计算机应用》2021,41(9):2496-2503
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption )以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。  相似文献   

12.
针对现有的变电站缺陷图像检测识别算法鲁棒性弱问题,提出一种基于注意力机制学习的变电设备缺陷图像检测识别方法。所提方法以卷积神经网络作为缺陷图像特征提取的骨架网络,融合注意力机制原理,进一步提升缺陷图像特征的可辨识性。首先,构建注意力机制的卷积神经网络特征提取模型,提取不同注意力机制下变电站缺陷图像特征;其次,设计一种自适应特征学习函数,将不同注意力机制下的特征融合成为新的高质量变电缺陷图像特征;最后,将不同注意力机制下的缺陷图像特征输入到分类模型,实现变电站缺陷图像检测。所提方法增强了变电设备缺陷图像检测的准确性与鲁棒性,实验结果显示,所提方法的mAP达到了70.4%。  相似文献   

13.
图像分割是计算机视觉领域的一个基础问题,涉及图像检索、物体检测、物体识别、行人跟踪等众多后续任务。目前已有大量研究成果,有基于阈值、聚类、区域生长的传统方法,也有基于神经网络的流行算法。由于图像区域边界的不确定性问题,现有算法并没有很好地解决图像部分区域渐变导致的边界模糊问题。粒计算是解决复杂问题的有效工具之一,在不确定的、模糊的问题上取得了良好的效果。针对现有图像分割算法在不确定性问题上的局限性,基于粒计算思想,提出了一种粗糙不确定性的图像分割方法。该算法在K均值算法的基础上,结合邻域粗糙集模型,先对类别边界区域的像素点进行粒化,运用邻域关系矩阵,得到各类别对各粒化像素点的包含度,从而对边界区域类别模糊的像素点进行重新划分,优化了图像分割的结果。在Matlab2019编程环境中,实验选取了BSDS500数据集中的一张马术训练图片和一张建筑物图片来测试算法性能。实验先对彩色图像进行灰度处理,用K均值算法对图像进行初步分割,再设置邻域因子值,依据边界像素点邻域信息重新划分边界点。对比K均值算法的分割结果可知,所提算法取得了更佳的效果。实验结果表明,该方法在粗糙度这一评价标准上优于K均值算法,可以有效降低图像区域边界的模糊性,实现灰度边界模糊的图像渐变区域的分割。  相似文献   

14.
针对现有语音情绪识别中存在无关特征多和准确率较差的问题,提出一种基于混合分布注意力机制与混合神经网络的语音情绪识别方法。该方法在2个通道内,分别使用卷积神经网络和双向长短时记忆网络进行语音的空间特征和时序特征提取,然后将2个网络的输出同时作为多头注意力机制的输入矩阵。同时,考虑到现有多头注意力机制存在的低秩分布问题,在注意力机制计算方式上进行改进,将低秩分布与2个神经网络的输出特征的相似性做混合分布叠加,再经过归一化操作后将所有子空间结果进行拼接,最后经过全连接层进行分类输出。实验结果表明,基于混合分布注意力机制与混合神经网络的语音情绪识别方法比现有其他方法的准确率更高,验证了所提方法的有效性。  相似文献   

15.
载波芯片(chip on carrier,COC)是光发射次模块(transmitter optical subassembly,TOSA)的重要组成部分,被广泛应用于光通信领域,实现光电转换.针对载波芯片崩口、定位柱破损以及波导污渍三种不同类别缺陷的实时检测问题,提出了一种基于轻量级卷积神经网络的载波芯片缺陷检测算法...  相似文献   

16.
目的 图像检索是计算机视觉的一项重要任务。图像检索的关键是图像的内容描述,复杂图像的内容描述很具有挑战性。传统的方法用固定长度的向量描述图像内容,为此提出一种变长序列描述模型,目的是丰富特征编码的信息表达能力,提高检索精度。方法 本文提出序列描述模型,用可变长度特征序列描述图像。序列描述模型首先用CNN(convolutional neural network)提取底层特征,然后用中间层LSTM(long short-term memory)产生局部特征的相关性表示,最后用视觉注意LSTM(attention LSTM)产生一组向量描述一幅图像。通过匈牙利算法计算图像之间的相似性完成图像检索任务。模型采用标签级别的triplet loss函数进行端对端的训练。结果 在MIRFLICKR-25K和NUS-WIDE数据集上进行图像检索实验,并和相关算法进行比较。相对于其他方法,本文模型检索精度提高了512个百分点。相对于定长的图像描述方式,本文模型在多标签数据集上能够显著改善检索效果。结论 本文提出了新的图像序列描述模型,可以显著改善检索效果,适用于多标签图像的检索任务。  相似文献   

17.
叶剑锋  徐轲  熊峻峰  王化明 《计算机工程》2021,47(9):203-209,216
为提高网络模型低层特征的离散度和语义分割算法的性能,以全卷积神经网络作为基础模型,提出一种基于辅助损失、边缘检测辅助任务和注意力机制的语义分割算法。通过重新设计网络模型的辅助损失分支,使网络低层特征编码更多语义信息。在多任务学习中,选择边缘检测作为辅助任务,基于注意力机制设计边缘检测的辅助任务分支,使网络模型更关注物体的形状和边缘信息。在此基础上,将基础模型、辅助损失分支、辅助任务分支集成构造为语义分割模型。在VOC2012数据集上的实验结果表明,该算法的平均交并比为71.5%,相比基础模型算法提高了6个百分点。  相似文献   

18.
朱旭东  熊贇 《计算机工程》2022,48(4):173-178+190
图像多标签分类作为计算机视觉领域的重要研究方向,在图像识别、检测等场景下得到广泛应用。现有图像多标签分类方法无法有效利用标签相关性信息以及标签语义与图像特征的对应关系,导致分类能力较差。提出一种图像多标签分类的新算法,通过利用标签共现信息和标签先验知识构建图模型,使用多尺度注意力学习图像特征中目标,并利用标签引导注意力融合标签语义特征和图像特征信息,从而将标签相关性和标签语义信息融入到模型学习中。在此基础上,基于图注意力机制构建动态图模型,并对标签信息图模型进行动态更新学习,以充分融合图像信息和标签信息。在图像多标签分类任务上的实验结果表明,相比于现有最优算法MLGCN,该算法在VOC-2007数据集及COCO-2012数据集上的mAP值分别提高了0.6、1.2个百分点,性能有明显提升。  相似文献   

19.
互联网技术的飞速发展导致敏感内容图像由原先基本隐蔽的内容交换变为海量的数据共享,传统基于图像特征提取的敏感内容检测方法不再适用。针对上述难点,提出基于稀疏语义和双层深度卷积神经网络相结合的敏感内容检测方法。上层网络首先进行训练样本的预处理,并通过构造图像的稀疏语义表示作为神经网络的输入;而下层网络则进一步考虑第三方管控机制(如政府代理等),提出针对特定群体的敏感内容图像检测方法。与现有常用敏感内容图像检测方法相比,该检测方法可有效降低训练样本数量,且检测精度比传统图像检测方法(如基于视觉词袋方法等)提升7%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号