基于注意力机制的多层次编码和解码的图像描述模型 Multi-layer encoding and decoding model for image captioning based on attention mechanism期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于注意力机制的多层次编码和解码的图像描述模型

引用本文：	李康康,张静.基于注意力机制的多层次编码和解码的图像描述模型[J].计算机应用,2021,41(9):2504-2509.

作者姓名：	李康康张静

作者单位：	华东理工大学信息科学与工程学院, 上海 200237

基金项目：	国家自然科学基金资助项目（61402174）。

摘要：	图像描述任务是图像理解的一个重要分支，它不仅要求能够正确识别图像的内容，还要求能够生成在语法和语义上正确的句子。传统的基于编码器-解码器的模型不能充分利用图像特征并且解码方式单一。针对这些问题，提出一种基于注意力机制的多层次编码和解码的图像描述模型。首先使用Faster R-CNN（Faster Region-based Convolutional Neural Network）提取图像特征，然后采用Transformer提取图像的3种高层次特征，并利用金字塔型的融合方式对特征进行有效融合，最后构建3个长短期记忆（LSTM）网络对不同层次特征进行层次化解码。在解码部分，利用软注意力机制使得模型能够关注当前步骤所需要的重要信息。在MSCOCO大型数据集上进行实验，利用多种指标（BLEU、METEOR、ROUGE-L、CIDEr）对模型进行评价，该模型在指标BLEU-4、METEOR和CIDEr上相较于Recall（Recall what you see）模型分别提升了2.5个百分点、2.6个百分点和8.8个百分点；相较于HAF（Hierarchical Attention-based Fusion）模型分别提升了1.2个百分点、0.5个百分点和3.5个百分点。此外，通过可视化生成的描述语句可以看出，所提出模型所生成的描述语句能够准确反映图像内容。
关键词：	图像描述卷积神经网络长短期记忆网络多层次编码多层次解码注意力机制
收稿时间：	2020-11-23
修稿时间：	2021-02-21
Multi-layer encoding and decoding model for image captioning based on attention mechanism

LI Kangkang,ZHANG Jing.Multi-layer encoding and decoding model for image captioning based on attention mechanism[J].journal of Computer Applications,2021,41(9):2504-2509.

Authors:	LI Kangkang ZHANG Jing

Affiliation:	School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China

Abstract:

Keywords:	image captioning Convolutional Neural Network (CNN) Long Short-Term Memory (LSTM) network multi-layer encoding multi-layer decoding attention mechanism
本文献已被万方数据等数据库收录！
	点击此处可从《计算机应用》浏览原始摘要信息
	点击此处可从《计算机应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏