期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李朦朦江爱文龙羽中宁铭彭虎王明文《中文信息学报》2022,36(9):139-148

视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。相似文献

2.

基于多特征提取的图像语义描述算法

赵小虎李晓《计算机应用》2021,41(6):1640-1646

针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络（RNN）产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法。所构建模型由三个部分组成：卷积神经网络（CNN）用于图像特征提取,属性提取模型（ATT）用于图像属性提取,而双向长短时记忆（Bi-LSTM）网络用于单词预测。该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习。首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性。实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点。所提算法能够有效地提高模型对图像的语义描述性能。相似文献

3.

基于语义分割的全卷积图像描述模型

李永生颜秉勇周家乐《计算机工程与设计》2023,(1):210-217

为快速生成准确描述图片内容的语句,提出语义分割和卷积神经网络(convolutional neural network, CNN)相结合的图像描述方法。将图像分类模型和语义分割模型结合为编码器,增强对图像语义信息的利用,采用CNN代替长短时记忆网络(long short term memory, LSTM)作为解码器生成完整描述性语句。通过在MSCOCO数据集上与5种主流算法的对比实验可知,以CNN作为解码器能够大幅提高解码速度,语义信息的增强能够有效提高实验精度,验证了该方法的有效性和可行性。相似文献

4.

一种基于多层语义特征的图像理解方法

莫宏伟田朋《控制与决策》2021,36(12):2881-2890

视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能. 相似文献

5.

图像语义相似性网络的文本描述方法

《计算机应用与软件》2018,(1)

图像的文本化描述解决图像理解的高级语义问题。由于存在语义鸿沟,导致自动生成的文本与图像内容有较大差异,浅层神经网络构建的语言模型很难生成通顺的语句。为此,提出图像语义相似性神经网络,在递归神经网络的输出层之后添加全连接网络,引入图像间的视觉相似性和文本相似性信息,从而在预测图像的文本描述时保持相似图像的有效语义信息。增加栈式隐层和普通隐层的深度来提高语言模型的学习能力,最终得到接近自然语言的文本。实验结果表明,该方法在BLEU、ROUGE、METEOR和CIDEr等评价指标上均取得较好的效果,能够生成符合图像内容的高质量文本描述。相似文献

6.

基于多尺度与注意力特征增强的遥感图像描述生成方法

赵佳琦王瀚正周勇张迪周子渊《计算机科学》2021,48(1):190-196

遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。相似文献

7.

多场景融合的细粒度图像描述生成算法

李欣晔张承强周雄图郭太良张永爱《计算机与现代化》2021,(9):1-6

针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型。相似文献

8.

基于文本感知和非重复单词生成的图像语义理解

杨晨露万旺根王旭智孙学涛张振《工业控制计算机》2023,(11):105-106+109

在描述图像时，阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息，以及图像中的文本信息和图像内容的关系。针对此问题，提出基于图像文本信息的预训练任务，包括掩模语言建模（MLM）、图像-文本匹配（ITM）以及相对空间位置预测（RPP）。在解码过程中，为解决生成语句冗余问题，提出重复掩码模块，以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明，所提的方法可以有效地提高生成描述语句的准确率。相似文献

9.

基于多模态神经网络生成图像中文描述

陈兴《计算机系统应用》2020,29(9):191-197

自动生成图片描述是自然语言处理和计算机视觉的热点研究话题,要求计算机理解图像语义信息并用人类自然语言的形式进行文字表述.针对当前生成中文图像描述整体质量不高的问题,提出首先利用FastText生成词向量,利用卷积神经网络提取图像全局特征;然后将成对的语句和图像〈S,I〉进行编码,并融合为两者的多模态特征矩阵;最后模型采用多层的长短时记忆网络对多模态特征矩阵进行解码,并通过计算余弦相似度得到解码的结果.通过对比发现所提模型在双语评估研究（BLEU）指标上优于其他模型,生成的中文描述可以准确概括图像的语义信息. 相似文献

10.

基于自适应注意模型的图像描述

侯星晨王锦《计算机与现代化》2020,(6):95-100

结合注意力机制的编解码框架模型已经被广泛地应用在图像描述任务中。大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器很可能不需要关注图像中的任何视觉信息就生成非视觉单词,比如“the”和“of”。本文提出一种自适应注意力模型,编码端采用Faster R-CNN网络提取图像中的显著特征,解码端LSTM网络中引入一个视觉监督信号。在每个时间步长,它可以自动地决定何时依赖于视觉信号,何时仅依赖于语言模型。最后在Flickr30K和MS-COCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量。相似文献

11.

基于多模态神经网络的图像中文摘要生成方法

刘泽宇马龙龙吴健孙乐《中文信息学报》2017,31(6):162-171

图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。相似文献

12.

引入语义匹配和语言评价的跨语言图像描述

下载免费PDF全文

张静郭丹宋培培李坤汪萌《中国图象图形学报》2022,27(11):3343-3355

相似文献

13.

基于双路细化注意力机制的图像描述模型

丛璐文《计算机系统应用》2020,29(5):245-251

图像描述是连接计算机视觉与自然语言处理两大人工智能领域内的一项重要任务.近几年来,基于注意力机制的编码器-解码器架构在图像描述领域内取得了显著的进展.然而,许多基于注意力机制的图像描述模型仅使用了单一的注意力机制.本文提出了一种基于双路细化注意力机制的图像描述模型,该模型同时使用了空间注意力机制与通道注意力机制,并且使用了细化图像特征的模块,对图像特征进行进一步细化处理,过滤掉图像中的冗余与不相关的特征.我们在MS COCO数据集上进行实验来验证本文模型的有效性,实验结果表明本文的基于双路细化注意力机制的图像描述模型与传统方法相比有显著的优越性. 相似文献

14.

Visuals to Text: A Comprehensive Review on Automatic Image Captioning

下载免费PDF全文

Yue Ming Nannan Hu Chunxiao Fan Fan Feng Jiangwan Zhou Hui Yu 《IEEE/CAA Journal of Automatica Sinica》2022,9(8):1339-1365

相似文献

15.

Video captioning: a review of theory,techniques and practices

Jain Vanita Al-Turjman Fadi Chaudhary Gopal Nayar Devang Gupta Varun Kumar Aayush 《Multimedia Tools and Applications》2022,81(25):35619-35653

相似文献

16.

Red Deer Optimization with Artificial Intelligence Enabled Image Captioning System for Visually Impaired People

Anwer Mustafa Hilal Fadwa Alrowais Fahd N. Al-Wesabi Radwa Marzouk 《计算机系统科学与工程》2023,46(2):1929-1945

相似文献

17.

基于视觉区域聚合与双向协作的端到端图像描述生成

宋井宽曾鹏鹏顾嘉扬朱晋宽高联丽《软件学报》2023,34(5):2152-2169

近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法 (visual region aggregation and dual-level collaboration, VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能. 相似文献

18.

Relational-Convergent Transformer for image captioning

《Displays》2023

Image captioning describes the visual content of a given image by using natural language sentences, and plays a key role in the fusion and utilization of the image features. However, in the existing image captioning models, the decoder sometimes fails to efficiently capture the relationships between image features because of their lack of sequential dependencies. In this paper, we propose a Relational-Convergent Transformer (RCT) network to obtain complex intramodality representations in image captioning. In RCT, a Relational Fusion Module (RFM) is designed for capturing the local and global information of an image by a recursive fusion. Then, a Relational-Convergent Attention (RCA) is proposed, which is composed of a self-attention and a hierarchical fusion module for aggregating global relational information to extract a more comprehensive intramodal contextual representation. To validate the effectiveness of the proposed model, extensive experiments are conducted on the MSCOCO dataset. The experimental results show that the proposed method outperforms some of the state-of-the-art methods. 相似文献

19.

基于ViLBERT与BiLSTM的图像描述算法

许昊张凯田英杰种法广王子超《计算机系统应用》2021,30(11):195-202

传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题,提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法.使用ViLBERT作为编码器,ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合,输出图像和文本的联合特征向量.解码器使用结合注意力机制的BiLSTM来生成图像描述.该算法在MSCOCO2014数据集进行训练和测试,实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2,优于基于传统图像特征提取结合注意力机制图像描述算法.通过生成文本描述对比可看出,该算法生成的图像描述能够更细致地表述图片信息. 相似文献

20.

基于用户注意力与视觉注意力的社交图像描述

褚晓亮朱连章吴春雷《计算机系统应用》2018,27(8):209-213

图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性. 相似文献