共查询到19条相似文献,搜索用时 62 毫秒
1.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 相似文献
2.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 相似文献
3.
模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。 相似文献
4.
基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势. 相似文献
5.
6.
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。 相似文献
7.
8.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,... 相似文献
9.
10.
11.
CSCW是一个新的多学科领域.在分析CSCW的主要研究内容──多媒体多模式集成模型的主要研究内容和关键技术的基础上,提出了其协同工作空间模型、系统组成的功能模型和层次结构模型. 相似文献
12.
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,因此如何有效地表征复杂异构数据成为机器学习的一个重要研究领域。文中首先介绍了数据表征的多种类型,并提出了现有数据表征方法面临的挑战;其次,根据数据类型将数据划分成单一类型数据和复合类型数据,针对单一类型数据,分别介绍了4种典型数据的表征学习发展现状和代表算法,包含离散数据、网络数据、文本数据和图像数据;然后,详细介绍了4种由多个单一数据或数据源复合而成的复杂数据,包含了离散特征与连续特征混合的结构化数据、属性数据与复杂网络复合的属性网络数据、来自不同领域的跨领域数据和由多种数据类型复合的多模态数据,分别介绍了基于上述复杂数据的表征学习现状以及最新的表征学习模型;最后,对复杂异构数据表征学习的发展趋势进行了探讨。 相似文献
13.
社会媒体网络中不仅包含了用户、文本、图片和视频等多种模态的数据,还包含了反映不同模态数据之间交互的群体特征。为了更好地描述社会媒体网络,从而为上层应用提供更好的服务,提出了一种基于深度神经网络的社会媒体网络模型。该模型采用深度神经网络对单个模态的数据进行学习,从而得到任意一个模态数据的潜在特征表示方法。对于两种不同模态的数据,利用具有高斯分布的先验矩阵与两个模态数据的后验分布建立反映这两个模态数据间群体特征的生成模型。实验结果表明,提出的模型在网络结构的链接分析中具有更好的预测效果,能有效地描述社会媒体网络的整体特征。 相似文献
14.
社交网络极大地方便了人们的生活,加速了信息的共享,但同时也被用于不良和敏感信息的传播,内容安全问题亟待解决。针对此类问题,提出了一套基于社会计算和深度学习的社交网络特定内容监控体系,首先基于成对监督信息实现以内容为导向的半监督社区发现,找到所关心的特定人群;然后对所挖掘的特定人群进行实时监控并获取其发布的内容,对图像和视频进行实时自动内容识别;同时针对实网数据误报多的问题提出面向多负类的误判修正方法,以达到收集实时信息,净化网络环境,在一定程度上预防犯罪的目的。 相似文献
15.
This paper evaluates the effectiveness of a multimedia training program designed specifically for stockpeople in the pig industry. The information was presented in either multimedia or printed manual format with and without the presence of a trainer. Care was taken to ensure that layout and content was the same for both formats. The study comprised two pilot studies to assess the validity of the instruments, followed by a main study in which 92 stockpeople participated in one of four training conditions. Immediately following training, stockpeople completed a Knowledge and a Satisfaction Questionnaire and 6 weeks post-training repeated the Knowledge Questionnaire. Results did not support the hypothesis that participants in the multimedia group would perform and retain content better than participants in the manual group. The trainer had an overall deleterious effect on recall of the information in both groups. There was support for the hypothesis that participants in the multimedia group would be more satisfied with their media than the manual group. Novelty effects did not appear to account for the observed differences between media groups. 相似文献
16.
17.
18.
The phenomenon of social learning analytics presents a synergy between variety of disciplines, such as business intelligence, educational data mining, cyberlearning, and cyber infrastructure. The main contribution of this research is to combine two types of social learning analytics, social learning network analysis and social learning content analysis in studying the impact of the Social Multimedia Systems (SMSs) on cyberlearners. The research study provided in this paper is based on the survey data collected in spring 2011 at Western Kentucky University. The evidence obtained from the analysis shows that SMS impacts (a) the digital communication between faculty and students; (b) students’ success and grades; (c) the amount of materials covered and learned; (d) the effectiveness of studying; (e) the depth of learning; (f) the ability to focus on the most important learning objectives; (g) the degree of collaboration among students; and (h) the students’ motivation of studying. 相似文献