基于多通道多步融合的生成式视觉对话模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多通道多步融合的生成式视觉对话模型

引用本文：	陈思航,江爱文,崔朝阳,王明文.基于多通道多步融合的生成式视觉对话模型[J].计算机应用,2024(1):39-46.

作者姓名：	陈思航江爱文崔朝阳王明文

作者单位：	江西师范大学计算机信息工程学院

基金项目：	国家自然科学基金资助项目（61966018）~~；

摘要：	当前视觉对话任务在多模态信息融合和推理方面取得了较大进展，但是，在回答一些涉及具有比较明确语义属性和位置空间关系的问题时，主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁，因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息，并通过“视觉-语义-对话”历史三者相互作用和多步融合，能够丰富问题的语义表示，实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中，MCMI模型较基准模型双通道多跳推理模型（DMRM），平均倒数排名（MRR）分别提升了1.95和2.12个百分点，召回率（R@1）分别提升了2.62和3.09个百分点，正确答案平均排名（Mean）分别提升了0.88和0.99；在VisDial v1.0数据集中，较最新模型UTC(Unified Transformer Contrastive learning model), MRR、R@1、Mean分别提升了0.06百分...
关键词：	视觉对话生成式任务视觉语义描述多步融合多通道融合

设为首页 | 免责声明 | 关于勤云 | 加入收藏