首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 215 毫秒
1.
图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句。针对现有图像标题生成任务中,未充分利用图像的局部和全局特征以及时间复杂度较高的问题,本文提出一种基于卷积神经网络(Convolution Neural Networks,CNN)和Transformer的混合结构图像标题生成模型。考虑卷积网络所具有的空间和通道特性,首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块,用于从输入图像中提取视觉特征;然后将特征输入到序列模型Transformer中,在编码器端借助自注意学习来获得所参与的视觉表示,在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用,进而结合视觉特征逐步得到图像所对应的标题描述。将模型在MSCOCO数据集上进行实验,BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点。  相似文献   

2.
徐珺 《信息与电脑》2023,(19):155-157
计算机视觉图像描述是将图像信息转化为自然语言描述的技术,是近几年的研究热点。文章基于ResNeXt-101网络和压缩-激励(Squeeze-and-Excitation,SE)注意力机制,提出一种生成图像描述的新方式。针对输入图像的特征和感兴趣区域,本研究将SE模块、目标检测器更快的区域卷积神经网络(Faster Region-Convolutional Neural Network,Faster R-CNN)和ResNeXt101网络有机结合构建了编码器,最后通过实验证明该编码器可以增强模型对于图像的描述能力。  相似文献   

3.
藏文乌梅体场景文字识别是文字识别领域的一个难题,使用传统的文字识别方法人工构件难度很大。文章使用深度学习方法进行研究,使用卷积神经网络(Convolutional Neural Network,CNN)提取图像信息,采用注意力与循环神经网络(Recurrent Neural Network,RNN)结合的方式进行解码。实验结果证明,模型对于藏文乌梅体场景文字能够有效识别F1值达到86.76%。  相似文献   

4.
近几年来神经机器翻译(Neural Machine Translation, NMT)发展迅速,Seq2Seq框架的提出为机器翻译带来了很大的优势,可以在观测到整个输入句子后生成任意输出序列。但是该模型对于长距离信息的捕获能力仍有很大的局限,循环神经网络(RNN)、 LSTM网络都是为了改善这一问题提出的,但是效果并不明显。注意力机制的提出与运用则有效地弥补了该缺陷。Self-Attention模型就是在注意力机制的基础上提出的,本文使用Self-Attention为基础构建编码器-解码器框架。本文通过探讨以往的神经网络翻译模型,分析Self-Attention模型的机制与原理,通过TensorFlow深度学习框架对基于Self-Attention模型的翻译系统进行实现,在英文到中文的翻译实验中与以往的神经网络翻译模型进行对比,表明该模型取得了较好的翻译效果。  相似文献   

5.
图像检索是一项重要的研究课题,涉及如何快速、准确地检索和管理海量的图像数据。传统的图像检索技术主要依赖图像的视觉特征或文本描述进行匹配,但是难以充分理解图像的语义信息,对复杂场景的适应性较差。针对这一问题,文章提出了一种基于卷积神经网络-循环神经网络(Convolutional Neural Networks Recurrent Neural Network,CNN-RNN)模型的图像检索技术。该技术将CNN和RNN相结合,构建了一个统一的深度学习框架。其中,CNN模型用于从图像中提取全局特征,RNN模型用于学习图像与标签之间的语义关联和共现依赖。文章通过将CNN输出的特征序列输入到RNN模型中,实现了对图像全局语义信息的捕获。将设计系统在多个数据集上进行实验,结果表明,设计的方法能够有效提高图像检索的效率和准确性。  相似文献   

6.
赵宏  孔东一 《计算机应用》2021,41(9):2496-2503
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption )以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。  相似文献   

7.
交通事故现场的情景描述对快速处理交通事故具有重要作用,而如何准确快速地描述事故现场是近年来研究的热点和难点。首先,依据交通事故现场的实际情况,利用生成对抗网络(Generative Adversarial Network,GAN)生成新的数据样本,并对图片和图像进行平移、翻转、旋转以及缩放,从而解决交通事故数据样本少的问题。其次,结合Vatic等标注工具自动生成和视觉内容具有极高关联性的标注语句,大大提高样本的质量。再次,利用改进的卷积神经网络(Convolutional Neural Network,CNN)模型深度挖掘数据的多尺度特征,引入多维注意力模型,融合视觉信息,构建基于多维自注意力机制的交通事故描述判别器,充分利用门循环单元(Gate Recurrent Unit,GRU)网络的记忆特点来生成对应的文本描述,实现对交通事故的快速识别和事故场景描述。最后,在Flickr8K和MS COCO数据集上测试,模型都取得较好的效果。  相似文献   

8.
近年来, 注意力机制已经广泛应用于计算机视觉领域, 图像描述常用的编码器-解码器框架也不例外. 然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性, 这也是引起累积误差的原因之一. 基于该问题, 本文提出一个类时序注意力网络(Similar Temporal Attention Network, STAN),该网络扩展了传统的注意力机制, 目的是加强注意力结果与隐藏状态在不同时刻的相关性. STAN首先对当前时刻的隐藏状态和特征向量施加注意力, 然后通过注意力融合槽(AFS)将两个相邻LSTM片段的注意力结果引入到下一时刻的网络循环中, 以增强注意力结果与隐藏状态之间的相关性. 同时, 本文设计一个隐藏状态开关(HSS)来指导单词的生成, 将其与AFS结合起来可以在一定程度上解决累积误差的问题. 在官方数据集Microsoft COCO上的大量实验和各种评估机制的结果表明, 本文提出的模型与基线模型相比, 具有明显的优越性, 取得了更有竞争力的结果.  相似文献   

9.
目前一般基于RNN (Recurrent Neural Network)框架下的编码器-解码器翻译模型不能有效挖掘翻译文章中句子的语义以及文本序列等为,因此,研究将图卷积神经网络结合注意力机制对机器翻译,提高翻译准确度的同时保证文章整体性与语义连贯性。实验结果表示,研究模型改变传统编码方式后可以减少维度与参数,在保留源语言文本的整体特征之外,强调了局部特征的强弱关联。通过数据集实证分析后模型的各项指标表现良好,进行长句翻译时,研究模型的Bleu得分提高2.5分,进行篇幅文章翻译时的语义表达准确度达到96%以上,源语句翻译效果优秀,凸显出整体语篇翻译的能力。  相似文献   

10.
图像描述模型需要提取出图像中的特征,然后通过自然语言处理(NLP)技术将特征用语句表达出来。现有的基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的图像描述模型在提取图像关键信息时精度不高且训练速度缓慢。针对这个问题,提出了一种基于卷积注意力机制和长短期记忆(LSTM)网络的图像描述生成模型。采用Inception-ResNet-V2作为特征提取网络,在注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数的数量。将图像特征与文本特征有效融合后送入LSTM单元中完成训练,最终产生描述图像内容的语义信息。模型采用MSCOCO数据集进行训练,使用多种评价指标(BLEU-1、BLEU-4、METEOR、CIDEr等)对模型进行验证。实验结果表明,提出的模型能够对图像内容进行准确描述,在多种评价指标上均优于基于传统注意力机制的方法。  相似文献   

11.
12.
传统的视频字幕生成模型大多都采用编码器—译码器框架。在编码阶段,使用卷积神经网络对视频进行处理。在解码阶段,使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述。这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升。根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕。  相似文献   

13.
图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用,图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上,将基于深度学习的图像描述算法研究分为两个层面,一是图像描述的基本能力构建,二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战,本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法,从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法,从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法,从内容控制和风格控制的角度分析了图像描述可控性的方法,从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外,本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍,并对图像描述中待解决的问题与未来研究...  相似文献   

14.
当前图像标题生成任务的主流方法是基于深层神经网络的方法,尤其是基于自注意力机制模型的方法.然而,传统的深层神经网络层次之间是线性堆叠的,这使得低层网络捕获的信息无法在高层网络中体现,从而没有得到充分的利用.提出基于残差密集网络的方法获取层次语义信息来生成高质量的图像标题.首先,为了能够充分利用网络的层次信息,以及提取深...  相似文献   

15.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

16.
针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型。  相似文献   

17.
由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度对图像内不同方面的信息进行联合编码。通过拼接方法将目标Transformer编码的目标特征与转换窗口Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用Transformer解码器将融合后的编码特征解码生成对应的图像描述。在MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。  相似文献   

18.
精准的光伏功率预测对优化光伏电站的运行和管理以及提高光伏发电的效率具有重要的作用。本文提出了一种基于聚类算法和转换网络的光伏短期功率预测方法。该方法首先基于自编码器的无监督聚类算法对光伏短期功率数据进行了预处理,以降低光伏出力数据本身的不稳定性对功率预测的影响。之后,该方法使用具有自注意力机制和多头注意力机制的转换网络进行光伏短期功率的预测。转换网络由编码器和解码器组成。转换网络相比传统的循环神经网络(RNN)更善于挖掘时序之间的关系。注意力机制使得转换网络具有并行计算的能力,可以加快网络训练的速度。最后,在澳大利亚光伏功率与气象数据中心 (DKASC)的光伏数据集上验证了本文提出的光伏短期功率预测方法。实验结果表明,本文提出的方法具有令人满意的预测精度。  相似文献   

19.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号