期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张浩宇王天保李孟择赵洲浦世亮吴飞《中国图象图形学报》2022,27(9):2652-2682

在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。相似文献

2.

面向多视角对比学习和语义增强的多模态预训练方法

汤嘉郭燕叶名玮吴桂兴《计算机科学》2024,(1):168-174

视觉语言预训练(VLP)模型通过对比学习等方法，在多模态任务上表现出了优异的性能。然而现有研究忽视了多视角描述带来的好处，以及语义和语法的重要性。为了解决这一问题，文中提出了多视角对比学习和语义增强多模态预训练(Multi-view learning and Semantic Enhancement for Multimodal pre-training, MulSE)模型。MulSE主要分为3个部分：1)在融合编码器模型中，引入带有生成器的多视角对比学习；2)提出了一种新的自监督视觉语言预训练任务——多模态文本重排序；3)增加并探寻最优MLM掩码比例，最大化利用视觉信息的能力。通过改进预训练任务，采取多种最优策略，并通过实验验证MulSE增强了模态内部和模态间的理解能力以及对文本语法和语义的理解能力。预训练仅用4×10⁶的数据量，在图文检索任务中就达到了先前大型数据集的效果，且其在视觉问答和视觉蕴含任务上的评估效果优于先前的理解式VLP模型。相似文献

3.

视觉语言预训练综述

殷炯张哲东高宇涵杨智文李亮肖芒孙垚棋颜成钢《软件学报》2023,34(5):2000-2023

近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. 相似文献

4.

基于多模态对比学习的代码表征增强预训练方法

杨宏宇马建辉侯旻沈双宏陈恩红《软件学报》2024,35(4):1601-1617

代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生,为获取通用代码表征提供了有效途径.这些模型通过预训练获得通用的代码表征,然后在具体任务上进行微调,取得了显著成果.但是,要准确表示代码的语义信息,需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级).然而,现有模型将编程语言仅视为类似于自然语言的普通文本序列,忽略了它的功能级和结构级特征.因此,旨在进一步提高代码表征的准确性,提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining, REcomp). REcomp设计了新的语义级-结构级特征融合算法,将它用于序列化抽象语法树,并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合,以实现更精准的语义建模.最后,... 相似文献

5.

预训练驱动的多模态边界感知视觉Transformer

石泽男陈海鹏张冬申铉京《软件学报》2023,34(5):2051-2067

卷积神经网络(convolutional neural network, CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于标注困难,图像篡改检测任务通常缺乏精准的像素级图像标注信息.针对以上问题,提出一种预训练驱动的多模态边界感知视觉Transformer.首先,为捕获在RGB域中不可见的细微伪造痕迹,引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式.其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题.然后, Transformer模块被整合到该编码器的尾部,以达到同时捕获低级空间细节信息和全局上下文的目的,从而提升模型的整体表征能力.最后,为有效地缓解因伪造区域边界模糊导致的定位难问题,构建边界感知模块,其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容,并利用边界残差块锐化边界信息,从而提升模型的边界分割性能.大量实验结果表明,所提方法在识别精度上优于现有的图像篡改检测方法,并对不同的... 相似文献

6.

多模态视觉语言表征学习研究综述

杜鹏飞李小勇高雅丽《软件学报》2021,32(2):327-348

我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.... 相似文献

7.

面向多模态交互式融合与渐进式优化的三维视觉理解

何鸿添陈晗刘洋周礼亮张敏雷印杰《计算机应用研究》2024,41(5)

三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于Pedestrian和Cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。相似文献

8.

多模态信息处理前沿综述:应用、融合和预训练

吴友政李浩然姚霆何晓冬《中文信息学报》2022,36(5):1-20

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。相似文献

9.

多模态预训练模型综述

王惠茹李秀红李哲马春明任泽裕杨丹《计算机应用》2023,(4):991-1004

预训练模型（PTM）通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像-文本PTM和视频-文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Megatransformer)模型、跨模态提示调优（CPT）模型、VideoBERT(VideoBidirectionalEncoderRepresentationsfrom Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。相似文献

10.

面向多模态模型训练的高效样本检索技术研究

唐秀伍赛侯捷陈刚《软件学报》2024,35(3)

深度学习中多模态模型的训练通常需要大量高质量不同类型的标注数据，如图像、文本、音频等. 然而，获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题，主动学习作为一种有效的学习范式被广泛应用，能够通过有针对性地选择最有信息价值的样本进行标注，从而降低标注成本并提高模型性能. 现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题，当索引需要进行大范围的更新时，会带来巨大的维护代价. 为解决这些问题，本文提出了一种面向多模态模型训练的高效样本检索技术So-CBI. 该方法通过感知模型训练类间边界点，精确评估样本对模型的价值；并设计了半有序的高效样本索引，通过结合数据排序信息和部分有序性，降低了索引维护代价和时间开销. 在多组多模态数据集上通过与传统主动学习训练方法实验对比，验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性. 相似文献

11.

Multimodal Pre-training Method for Vision-language Understanding and Generation

下载免费PDF全文

Tianyi Liu Zuxuan Wu Jingjing Chen Yugang Jiang 《International Journal of Software and Informatics》2023,13(2):143-155

Most existing vision-language pre-training methods focus on understanding tasks and use BERT-like loss functions (masked language modeling and image-text matching) during pre-training. Despite their good performance in the understanding of downstream tasks, such as visual question answering, image-text retrieval, and visual entailment, these methods cannot generate information. To tackle this problem, this study proposes Unified multimodal pre-training for Vision-Language understanding and generation (UniVL). The proposed UniVL is capable of handling both understanding tasks and generation tasks. It expands existing pre-training paradigms and uses random masks and causal masks simultaneously, where causal masks are triangular masks that mask future tokens, and such pre-trained models can have autoregressive generation abilities. Moreover, several vision-language understanding tasks are turned into text generation tasks according to specifications, and the prompt-based method is employed for fine-tuning of different downstream tasks. The experiments show that there is a trade-off between understanding tasks and generation tasks when the same model is used, and a feasible way to improve both tasks is to use more data. The proposed UniVL framework attains comparable performance to recent vision-language pre-training methods in both understanding tasks and generation tasks. Moreover, the prompt-based generation method is more effective and even outperforms discriminative methods in few-shot scenarios. 相似文献

12.

基于多任务预训练的AMR文本生成研究

徐东钦李军辉朱慕华周国栋《软件学报》2021,32(10):3036-3050

抽象语义表示（abstract meaning representation,简称AMR）文本生成的任务是给定AMR图,生成与其语义一致的文本.相关工作表明,人工标注语料的规模大小直接影响了AMR文本生成的性能.为了降低对人工标注语料的依赖,提出了基于多任务预训练的AMR文本生成方法.特别地,基于大规模自动标注AMR语料,提出与AMR文本生成任务相关的3个预训练任务,分别是AMR降噪自编码、句子降噪自编码以及AMR文本生成任务本身.此外,基于预训练模型,在朴素微调方法的基础上,进一步提出了基于多任务训练的微调方法,使得最终模型不仅适用于AMR文本生成,同时还适用于预训练任务.基于两个AMR标准数据集的实验结果表明：使用0.39M自动标注数据,提出的预训练方法能够大幅度提高AMR文本生成的性能,在AMR2.0和AMR3.0上分别提高了12.27和7.57个BLEU值,性能分别达到40.30和38.97.其中,在AMR2.0上的性能为目前报告的最优值,在AMR3.0上的性能为目前为止首次报告的性能. 相似文献

13.

一种基于多模态感知的双声道音频生成方法

官丽尹康樊梦佳薛昆解凯《计算技术与自动化》2022,(4):157-165

现有多数视频只包含单声道音频,缺乏双声道音频所带来的立体感。针对这一问题,本文提出了一种基于多模态感知的双声道音频生成方法,其在分析视频中视觉信息的基础上,将视频的空间信息与音频内容融合,自动为原始单声道音频添加空间化特征,生成更接近真实听觉体验的双声道音频。我们首先采用一种改进的音频视频融合分析网络,以编码器-解码器的结构,对单声道视频进行编码,接着对视频特征和音频特征进行多尺度融合,并对视频及音频信息进行协同分析,使得双声道音频拥有了原始单声道音频所没有的空间信息,最终生成得到视频对应的双声道音频。在公开数据集上的实验结果表明,本方法取得了优于现有模型的双声道音频生成效果,在STFT距离以及ENV距离两项指标上均取得提升。相似文献

14.

自然语言处理预训练模型的研究综述

下载免费PDF全文

余同瑞金冉韩晓臻李家辉郁婷《计算机工程与应用》2020,56(23):12-22

近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。相似文献

15.

Target Tracking Algorithm Based on Multimodal Data

ZHOU Jing-wei HAN Li-xin LI Xiao-shuang 《计算机与现代化》2008,(11):16

相似文献

16.

基于多模态数据的目标跟踪算法

周经纬韩立新李晓双《计算机与现代化》2020,(11):16-22

为解决目标跟踪中目标遮挡、背景复杂等问题,提出一种基于多模态数据的目标跟踪算法。首先对各个模态数据进行像素级融合,以减少单模态数据中信息不足对跟踪结果的影响。然后对融合后的图像提取不同的特征进行滤波,接着将滤波得到的响应图进行决策级融合,以解决因单个模型漂移导致的模型跟踪失败问题。最后根据融合后的响应图的峰值得到跟踪结果。此外,在跟踪过程中加入遮挡检测模块,进一步增强模型鲁棒性。在普林斯顿跟踪基准上对算法进行评估,结果表明,与其他主流算法相比,基于多模态数据的目标跟踪算法在目标遮挡类视频上跟踪精度提升了8.4%,重合成功率提升了3.3%,具有较好的抗遮挡效果。相似文献