首页 | 官方网站   微博 | 高级检索  
     

面向多视角对比学习和语义增强的多模态预训练方法
引用本文:汤嘉,郭燕,叶名玮,吴桂兴.面向多视角对比学习和语义增强的多模态预训练方法[J].计算机科学,2024(1):168-174.
作者姓名:汤嘉  郭燕  叶名玮  吴桂兴
作者单位:1. 中国科学技术大学软件学院;2. 中国科学技术大学苏州高等研究院
摘    要:视觉语言预训练(VLP)模型通过对比学习等方法,在多模态任务上表现出了优异的性能。然而现有研究忽视了多视角描述带来的好处,以及语义和语法的重要性。为了解决这一问题,文中提出了多视角对比学习和语义增强多模态预训练(Multi-view learning and Semantic Enhancement for Multimodal pre-training, MulSE)模型。MulSE主要分为3个部分:1)在融合编码器模型中,引入带有生成器的多视角对比学习;2)提出了一种新的自监督视觉语言预训练任务——多模态文本重排序;3)增加并探寻最优MLM掩码比例,最大化利用视觉信息的能力。通过改进预训练任务,采取多种最优策略,并通过实验验证MulSE增强了模态内部和模态间的理解能力以及对文本语法和语义的理解能力。预训练仅用4×106的数据量,在图文检索任务中就达到了先前大型数据集的效果,且其在视觉问答和视觉蕴含任务上的评估效果优于先前的理解式VLP模型。

关 键 词:计算机视觉  多模态  预训练  多视角  理解增强
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号