基于视觉区域聚合与双向协作的端到端图像描述生成 End-to-end Image Captioning via Visual Region Aggregation and Dual-level Collaboration期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于视觉区域聚合与双向协作的端到端图像描述生成

引用本文：	宋井宽,曾鹏鹏,顾嘉扬,朱晋宽,高联丽. 基于视觉区域聚合与双向协作的端到端图像描述生成[J]. 软件学报, 2023, 34(5): 2152-2169

作者姓名：	宋井宽曾鹏鹏顾嘉扬朱晋宽高联丽

作者单位：	电子科技大学计算机科学与工程学院, 四川成都 611731

基金项目：	国家自然科技支撑计划（2022YFC2009900/2022YFC2009903）；国家自然科学基金（62122018，62020106008，61772116，61872064）

摘要：	近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法 (visual region aggregation and dual-level collaboration, VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.
关键词：	图像描述端到端训练预训练模型视觉区域聚合双向协作
收稿时间：	2022-04-18
修稿时间：	2022-08-03
End-to-end Image Captioning via Visual Region Aggregation and Dual-level Collaboration

SONG Jing-Kuan,ZENG Peng-Peng,GU Jia-Yang,ZHU Jin-Kuan,GAO Lian-Li. End-to-end Image Captioning via Visual Region Aggregation and Dual-level Collaboration[J]. Journal of Software, 2023, 34(5): 2152-2169

Authors:	SONG Jing-Kuan ZENG Peng-Peng GU Jia-Yang ZHU Jin-Kuan GAO Lian-Li

Affiliation:	School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China

Abstract:

Keywords:	image captioning end-to-end training pre-train model visual region aggregation dual-level collaboration

	点击此处可从《软件学报》浏览原始摘要信息
	点击此处可从《软件学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏