共查询到18条相似文献,搜索用时 46 毫秒
1.
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。 相似文献
2.
3.
4.
5.
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. 相似文献
6.
7.
自然语言处理预训练技术综述 总被引:1,自引:0,他引:1
在目前已发表的自然语言处理预训练技术综述中,大多数文章仅介绍神经网络预训练技术或者极简单介绍传统预训练技术,存在人为割裂自然语言预训练发展历程.为此,以自然语言预训练发展历程为主线,从以下四方面展开工作:首先,依据预训练技术更新路线,介绍了传统自然语言预训练技术与神经网络预训练技术,并对相关技术特点进行分析、比较,从中... 相似文献
8.
随着自然语言处理技术的飞速发展以及互联网上对话语料的不断积累,闲聊导向对话系统(简称聊天机器人)取得了令人瞩目的进展,受到了学术界的广泛关注,并在产业界进行了初步的尝试.当前,聊天机器人分为检索式聊天机器人和生成式聊天机器人,而检索式聊天机器人由于其生成的回复流畅且计算资源消耗小,仍然是目前工业界聊天机器人的主要实现手段.文中首先简要介绍了检索式聊天机器人的研究背景、基本架构以及组成模块,重点阐述了回复选择模块的约束要求和相关数据集;然后,针对检索式聊天机器人中最为核心的回复选择技术,进行了深入分析与详细梳理.文中将近年来经典的回复选择技术归纳为如下4类:基于统计模型的方法、基于表示的神经网络模型的方法、基于交互的神经网络模型的方法以及基于预训练技术的方法,并指出了这4类方法的优点和不足.在此基础上,分析了目前检索式聊天机器人技术研究所面临的问题,并对其未来的发展趋势进行了展望. 相似文献
9.
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,本文提出了一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,本文设计了基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,本文使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,本文提出的模型在两个公共RSVQA数据集上具有显著优势. 相似文献
10.
11.
问答系统是人工智能和自然语言处理领域中具有广泛发展前景的研究方向之一.早期的问答系统限定以自然语言形式进行提问和回答,近年来,随着多模态知识图谱、多模态预训练模型的发展,支持文字、图片、音频、视频等多种模态间信息查询的广义问答系统逐渐成为新的研究热点,其以多媒体方式展示结果,更加直观、全面.本文根据问答系统任务对象的变化,将问答系统划分为3种类型:专用问答系统、通用问答系统和多模态问答系统.分析了这3种类型的问答系统发展过程中所面临的问题,着重总结每个阶段所采用的关键技术与方法,同时对问答系统在工业上的应用进行了举例说明,并对未来研究方向进行了展望. 相似文献
12.
微软小冰引发了问答系统的新一轮研究热潮。作为一种新型的信息检索方式,问答系统能直接以自然语言与用户进行人性化的交互。而基于Web的问答系统能通过搜索引擎获取开放的互联网上的各种相关信息,并将以自然语言形式表述的准确答案返回给用户,因此此类系统同时具有搜索引擎和问答系统的优点。首先,对基于Web的问答系统的研究背景与发展历史进行了概述;然后,详细介绍了基于Web的问答系统的架构及其问题分析、信息检索、答案抽取这三大关键技术的研究进展;在此基础上,分析了基于Web的问答系统所面临的问题;最后,对基于Web的问答系统的未来发展趋势进行了展望。 相似文献
13.
问答系统可以针对用户提出的自然语言问题给出精准的答案,是自然语言处理领域中一个重要的研究方向。对于具有复杂语义结构和句法结构的多跳问题,模型需要强大的自然语言理解能力。问题分解作为问题理解的一种技术,有着不可估量的作用。阐述了问题分解的研究背景与意义;根据问题特征提取的方式,将现有的方法分为传统机器学习方法和深度学习方法两大类,传统机器学习方法以规则模板匹配和基于分割的方法为主,深度学习方法以基于Transformer、图神经网络、注意力机制、查询图和强化学习为主,并分别从模型架构、优势、劣势等方面进行分析。结合目前研究的动态,初步展望了未来的研究方向。 相似文献
14.
视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. 相似文献
15.
常识问答是一项重要的自然语言理解任务, 旨在利用常识知识对自然语言问句进行自动求解, 以得到准确答案. 常识问答在虚拟助手或社交聊天机器人等领域有着广泛的应用前景, 且其蕴涵了知识挖掘与表示、语言理解与计算、答案推理和生成等关键科学问题, 因而受到工业界和学术界的广泛关注. 首先介绍常识问答领域的主要数据集; 其次, 归纳不同常识知识源在构建方式、常识来源和表现形式上的区别; 同时, 重点分析并对比前沿常识问答模型, 以及融合常识知识的特色方法. 特别地, 根据不同问答任务场景中常识知识的共性和特性, 建立包含属性、语义、因果、语境、抽象和意图6大类的知识分类体系. 以此为支撑, 针对常识知识数据集建设, 感知知识融合和预训练语言模型的协作机制, 以及在此基础上的常识知识预分类技术, 进行前瞻性的研究, 并具体报告上述模型在跨数据集迁移场景下的性能变化, 及其在常识答案推理中的潜在贡献. 总体上, 包含对现有数据和前沿技术的回顾, 也包含面向跨数据知识体系建设、技术迁移与通用化的预研内容, 借以在汇报领域技术积累的前提下, 为其理论和技术的进一步发展提供参考意见. 相似文献
16.
在科技发达和信息爆炸的时代,如何从海量数据中准确地提取所需信息已成为人们研究的目标.问答系统作为解决此问题的重要途径之一,其主要通过对已有数据信息进行检索和分析,并最终返回问题答案或其他相关信息.近年来,深度学习的革命性发展给问答系统带来了长足的进步,序列到序列的模型,端到端的模型以及最近流行的预训练,都给问答系统留下无限的发展空间,但其仍面临许多挑战.本文首先对问答系统的发展进行简要介绍,接着将问答系统按照3个不同角度进行分类,并对相关数据集、评测指标和各类问答系统的主流技术进行阐述,最后对问答系统面临的问题和未来的发展趋势进行讨论. 相似文献
17.
问答系统作为信息检索的一种高阶形式,能够迅速、精准地为用户提供所需的信息服务,在给定一个问题后,会相应地给出准确的答案,这使得它在自然语言处理领域成为一个越发受人关注的研究方向。问句分类作为问答系统中的问题分析和处理的首要环节,是问答系统中尤为重要的一部分,其分类精度会直接影响到问答系统的性能。近些年来,机器学习和深度学习等技术的快速发展极大地促进了问句分类的研究和发展,其在问句分类上具有较强的可行性和优越性。为此就问句分类的国内外研究现状、问句分类标准体系、问句特征抽取、传统的机器学习分类方法和近来流行的深度学习分类方法进行总结和分析,阐述了问句分类当前所面临的一些研究难点,并对未来的研究和发展方向做了初步展望。 相似文献