期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

盛豪易尧华汤梓伟《计算机应用研究》2021,38(12):3776-3780

图像描述生成是图像人工智能领域的重要研究方向之一.现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系.提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目标显著性特征进行解码,并将解码后的两种特征进行融合,实现图像目标属性与目标间关系的信息互补.在MSCOCO数据集上进行实验,结果相较于基准方法有一定的提升,表明该模型对图像内容的描述更加准确和完善,对图像信息表达更加丰富. 相似文献

2.

基于视觉区域聚合与双向协作的端到端图像描述生成

宋井宽曾鹏鹏顾嘉扬朱晋宽高联丽《软件学报》2023,34(5):2152-2169

近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法 (visual region aggregation and dual-level collaboration, VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能. 相似文献

3.

基于条件生成对抗网络的图像描述生成方法

黄远白琮李宏凯张敬林陈胜勇《计算机辅助设计与图形学学报》2020,32(6):911-918

图像描述,即利用电脑自动描述图像的语义内容一直是计算机视觉领域的一项重要研究任务.尽管使用卷积神经网络(convolutional neural networks, CNN)和长短期记忆网络(long short-term memory, LSTM)的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问题,但是基于LSTM的模型依赖序列化的生成描述,无法在训练时并行处理,且容易在生成描述时遗忘先前的信息.为解决这些问题,提出将条件生成对抗网络(conditionalgenerativeadversarial network, CGAN)引入到描述生成模型训练中,即采用CNN来生成图像描述.通过对抗训练来生成句子描述,并结合注意力机制提升描述的质量.在MSCOCO数据集上进行测试,实验结果表明,与基于CNN的其他方法相比,文中方法在语义丰富程度指标CIDEr上取得了2%的提升,在准确性指标BLEU上有1%左右的性能提升;同时,其在部分指标,尤其是语义指标上超过了基于LSTM模型的图像描述方法的性能;证明该方法生成的图像描述更接近图像的真实描述,并且语义内容更加丰富. 相似文献

4.

基于改进的多模态神经网络图像描述方法

李柯徵王海涌《计算机应用与软件》2021,38(9):153-159

图像描述是一项融合了自然语言处理和计算机视觉的综合任务,现有方法不仅存在描述性能不佳、缺失语义信息等问题,还存在模型结构与图像特征之间语义信息关联性不足的问题.针对这些问题,提出一种使用门控循环单元和卷积注意力模块进行优化的基于多模态神经网络的图像描述方法.为了验证方法的有效性,在MSCOCO2014数据集上进行实验对比,结果表明,改进方法在各项评价标准下的性能均优于原方法和其他经典算法,并且能够更好地处理图像里的关键信息和生成更加准确的图像描述句子. 相似文献

5.

融合图像场景及物体先验知识的图像描述生成模型 总被引：1，自引：0，他引：1

下载免费PDF全文

汤鹏杰谭云兰李金忠《中国图象图形学报》2017,22(9):1251-1260

目的目前基于深度卷积神经网络（CNN）和长短时记忆（LSTM）网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型（F-SOCPK）,将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNN_d-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNN_d-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LM-O中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上（如MSCOCO）,其优势较为明显;但在较小的数据集上（如Flickr8k）,其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。相似文献

6.

融合多重视觉特征与语义信息的图像描述生成

傅煦嘉周家乐王慧锋颜秉勇《计算机工程与设计》2023,(4):1066-1072

针对图像描述模型中对语义信息考虑不足，循环神经网络收敛速度慢与精度低等问题，提出一种基于多注意力融合的深层图像描述模型。通过对图像中提取到的内容信息以及文本描述信息分配不同的权重，达到提升精度的效果，融合MOGRIFIER网络解决循环神经网络收敛速度缓慢的问题。使用改进模型与传统模型在数据集MSCOCO上进行对比实验，实验结果表明，该方法能够生成更加准确的描述，在BLEU与CIDEr等关键指标上有明显提升。相似文献

7.

基于卷积块注意力模块的图像描述生成模型

余海波陈金广《计算机系统应用》2021,30(8):194-200

图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述. 相似文献

8.

基于多特征提取的图像语义描述算法

赵小虎李晓《计算机应用》2021,41(6):1640-1646

针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络（RNN）产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法。所构建模型由三个部分组成：卷积神经网络（CNN）用于图像特征提取,属性提取模型（ATT）用于图像属性提取,而双向长短时记忆（Bi-LSTM）网络用于单词预测。该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习。首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性。实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点。所提算法能够有效地提高模型对图像的语义描述性能。相似文献

9.

基于双向注意力机制的图像描述生成

张家硕洪宇李志峰姚建民朱巧明《中文信息学报》1986,34(9):53-61

结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。相似文献

10.

语言结构引导的可解释视频语义描述

下载免费PDF全文

李冠彬张锐斐刘梦梦刘劲林倞《软件学报》2023,34(12):5905-5920

视频描述技术旨在为视频自动生成包含丰富内容的文字描述,近年来吸引了广泛的研究兴趣.一个准确而精细的视频描述生成方法,不仅需要对视频有全局上的理解,更离不开具体显著目标的局部空间和时序特征.如何建模一个更优的视频特征表达,一直是视频描述工作的研究重点和难点.另一方面,大多数现有工作都将句子视为一个链状结构,并将视频描述任务视为一个生成单词序列的过程,而忽略了句子的语义结构,这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误.为了解决上述问题,提出一种新颖的语言结构引导的可解释视频语义描述生成方法,通过设计一个基于注意力的结构化小管定位机制,充分考虑局部对象信息和句子语义结构.结合句子的语法分析树,所提方法能够自适应地加入具有文本内容的相应时空特征,进一步提升视频描述的生成效果.在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明,所提出方法在大多数评价指标上都达到了最先进的水平. 相似文献

11.

基于用户注意力与视觉注意力的社交图像描述

褚晓亮朱连章吴春雷《计算机系统应用》2018,27(8):209-213

图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性. 相似文献

12.

深度学习图像描述方法分析与展望

下载免费PDF全文

赵永强金芝张峰赵海燕陶政为豆乘风徐新海刘东红《中国图象图形学报》2023,28(9):2788-2816

图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句，实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用，图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上，将基于深度学习的图像描述算法研究分为两个层面，一是图像描述的基本能力构建，二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战，本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法，从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法，从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法，从内容控制和风格控制的角度分析了图像描述可控性的方法，从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外，本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍，并对图像描述中待解决的问题与未来研究... 相似文献

13.

基于语义一致性的细节保持图像生成方法

崔怀磊刘丽张化祥刘冬梅马跃王泽康《计算机辅助设计与图形学学报》2022,(10):1497-1505

生成对抗网络被广泛应用于文本生成图像领域,但在生成过程中容易导致部分图形缺失必要的细节.为了生成包含更多细节特征的细粒度图像,提高文本与图像的语义一致性,提出一种基于语义一致性的细节保持图像生成方法.首先,挖掘文本描述中的潜在语义,引入特征提取模块选择文本中的重要单词和句子,获取单词和句子之间的语义结构信息;其次,构造细节保持模块关联图像与文本信息,结合混合注意力机制,定位特定文本对应的图像区域,将定位区域与文本信息关联,增强和优化生成图像的细节;最后,融合语义损失和感知损失,将句子的图像和单词的子区域映射到共同语义空间.实验结果表明,在CUB数据集上,IS和FID指标分别达到4.77和15.47;在COCO数据集上, IS和FID指标分别达到35.56和27.63. 相似文献

14.

融合多模态信息的产品摘要抽取模型

赵强王中卿王红玲《计算机应用》2024,(1):73-78

在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM (Chinese E-commerce Product SUMmarization) 2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,... 相似文献

15.

融合双注意力与多标签的图像中文描述生成方法

田枫孙小强刘芳李婷玉张蕾刘志刚《计算机系统应用》2021,30(7):32-40

图像描述是目前图像理解领域的研究热点. 针对图像中文描述句子质量不高的问题, 本文提出融合双注意力与多标签的图像中文描述生成方法. 本文方法首先提取输入图像的视觉特征与多标签文本, 然后利用多标签文本增强解码器的隐藏状态与视觉特征的关联度, 根据解码器的隐藏状态对视觉特征分配注意力权重, 并将加权后的视觉特征解码为词语, 最后将词语按时序输出得到中文描述句子. 在图像中文描述数据集Flickr8k-CN、COCO-CN上的实验表明, 本文提出的模型有效地提升了描述句子质量. 相似文献

16.

耦合单词与句子级文本特征的图像对抗级联生成

白志远杨智翔栾鸿康孙玉宝《计算机工程与科学》2023,(12):2186-2196

文本生成图像旨在根据自然语言描述生成逼真的图像，是一个涉及文本与图像的跨模态分析任务。鉴于生成对抗网络具有生成图像逼真、效率高等优势，已经成为文本生成图像任务的主流模型。然而，当前方法往往将文本特征分为单词级和句子级单独训练，文本信息利用不充分，容易导致生成的图像与文本不匹配的问题。针对该问题，提出了一种耦合单词级与句子级文本特征的图像对抗级联生成模型(Union-GAN),在每个图像生成阶段引入了文本图像联合感知模块(Union-Block),使用通道仿射变换和跨模态注意力相结合的方式，充分利用了文本的单词级语义与整体语义信息，促使生成的图像既符合文本语义描述又能够保持清晰结构。同时联合优化鉴别器，将空间注意力加入到对应的鉴别器中，使来自文本的监督信号促使生成器生成更加相关的图像。在CUB-200-2011数据集上将其与AttnGAN等多个当前的代表性模型进行了对比，实验结果表明，Union-GAN的FID分数达到了13.67,与AttnGAN相比，提高了42.9%,IS分数达到了4.52,提高了0.16。相似文献

17.

面向图像自动语句标注的注意力反馈模型

吕凡胡伏原张艳宁夏振平盛胜利《计算机辅助设计与图形学学报》2019,31(7)

图像自动语句标注利用计算机自动生成描述图像内容的语句,在服务机器人等领域有广泛应用.许多学者已经提出了一些基于注意力机制的算法,但是注意力分散问题以及由注意力分散引起的生成语句错乱问题还未得到较好解决.在传统注意力机制的基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成,同时借助生成文本中的关注信息进一步修正图像中的关注区域,该过程不断强化图像和文本中的关键信息匹配、优化生成的语句.针对常用数据集Flickr8k, Flickr30k和MSCOCO的实验结果表明,该模型在一定程度上解决了注意力分散和语句顺序错乱问题,比其他基于注意力机制方法标注的关注区域更加准确,生成语句更加通顺. 相似文献

18.

基于多重注意结构的图像密集描述生成方法研究EI北大核心CSCD

刘青茹李刚赵创顾广华赵耀《自动化学报》2022,48(10):2537-2548

图像密集描述旨在为复杂场景图像提供细节描述语句.现有研究方法虽已取得较好成绩,但仍存在以下两个问题:1)大多数方法仅将注意力聚焦在网络所提取的深层语义信息上,未能有效利用浅层视觉特征中的几何信息;2)现有方法致力于改进感兴趣区域间上下文信息的提取,但图像内物体空间位置信息尚不能较好体现.为解决上述问题,提出一种基于多重注意结构的图像密集描述生成方法—MAS-ED (Multiple attention structure-encoder decoder). MAS-ED通过多尺度特征环路融合(Multi-scale feature loop fusion, MFLF)机制将多种分辨率尺度的图像特征进行有效集成,并在解码端设计多分支空间分步注意力(Multi-branch spatial step attention, MSSA)模块,以捕捉图像内物体间的空间位置关系,从而使模型生成更为精确的密集描述文本.实验在Visual Genome数据集上对MAS-ED进行评估,结果表明MASED能够显著提升密集描述的准确性,并可在文本中自适应加入几何信息和空间位置信息.基于长短期记忆网络(Longshort term memory, LSTM)解码网络框架, MAS-ED方法性能在主流评价指标上优于各基线方法. 相似文献

19.

基于空频联合卷积神经网络的GAN生成人脸检测

王金伟曾可慧张家伟罗向阳马宾《计算机科学》2023,(6):216-224

生成式对抗网络(GAN)的快速发展使其在图像生成领域取得了前所未有的成功。StyleGAN等新型GAN的出现使得生成的图像更真实且具有欺骗性，对国家安全、社会稳定和个人隐私都构成了较大威胁。文中提出了一种基于空频联合的双流卷积神经网络的检测模型。鉴于GAN图像在生成过程中因上采样操作在频谱上留下了清晰可辨的伪影，设计了可学习的频率域滤波核以及频率域网络来充分学习并提取频率域特征。为了减弱图像变换至频域过程中丢弃部分信息而带来的影响，同样设计了空间域网络来学习图像内容本身具有差异化的空间域特征，最终将两种特征融合来实现对GAN生成人脸图像的检测。在多个数据集上的实验结果表明，所提模型在高质量生成数据集上的检测精度及在跨数据集的泛化性上都优于现有算法，且对于JPEG压缩、随机剪裁、高斯模糊等图像变换具有更强的鲁棒性。不仅如此，所提方案在GAN生成的局部人脸数据集上也有不错表现，进一步证明了所提模型有着更好的通用性以及更加广泛的应用前景。相似文献

20.

跨层多模型特征融合与因果卷积解码的图像描述

下载免费PDF全文

罗会兰岳亮亮《中国图象图形学报》2020,25(8):1604-1617

相似文献