首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

2.
贾晨  刘华平    续欣莹  孙富春   《智能系统学报》2019,14(1):150-157
多模态机器学习通过有效学习各个模态的丰富特征来解决不同模态数据的融合问题。考虑到模态间的差异性,基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架,首先利用宽度学习方法分别提取不同模态的抽象特征,然后将高维特征表示在同一个特征空间进行相关性学习,并通过非线性融合得到最后的特征表达,输入分类器进行目标识别。相关实验建立在康奈尔大学抓取数据集和华盛顿大学RGB-D数据集上,实验结果验证了相比于传统的融合方法,所提出的方法具有更好的稳定性和快速性。  相似文献   

3.
在教育场景下,教育资源推荐是一项关键且基础的任务,教育资源呈现出显著的多源、异构和多模态特性,给教育资源的理解、应用带来了巨大的挑战。对此,该文提出了一种基于多模态语义分析的试题推荐方法:首先进行多模态教育资源的特征抽取以及不同模态数据之间的语义关联,构建多模态教育资源的理解表示框架;并利用相同领域任务进行多模态视频和试题特征的预训练,进行关联知识建模;最后,利用线上收集的数据进行视频-试题关联特征微调,得到更加鲁棒的特征表示,进行多模态教学视频的相关性试题推荐。在教育领域数据集上的实验结果表明,该文所提出的方法能有效提升现有方法的效果,具有很好的应用价值。  相似文献   

4.
基于多模态融合的人体动作识别技术被广泛研究与应用,其中基于特征级或决策级的融合是在单一级别阶段下进行的,无法将真正的语义信息从数据映射到分类器。提出一种多级多模态融合的人体动作识别方法,使其更适应实际的应用场景。在输入端将深度数据转换为深度运动投影图,并将惯性数据转换成信号图像,通过局部三值模式分别对深度运动图和信号图像进行处理,使每个输入模态进一步转化为多模态。将所有的模态通过卷积神经网络训练进行提取特征,并把提取到的特征通过判别相关分析进行特征级融合。利用判别相关分析最大限度地提高两个特征集中对应特征的相关性,同时消除每个特征集中不同类之间的特征相关性,将融合后的特征作为多类支持向量机的输入进行人体动作识别。在UTD-MHAD和UTD Kinect V2 MHAD两个多模态数据集上的实验结果表明,多级多模态融合框架在两个数据集上的识别精度分别达到99.8%和99.9%,具有较高的识别准确率。  相似文献   

5.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

6.
基于差分分段PCA的多模态过程故障监测   总被引:2,自引:0,他引:2  
谭帅  王福利  常玉清  王姝  周贺 《自动化学报》2010,36(11):1626-1636
多模态的故障监测是一个复杂的问题, 既需要考虑稳定模态下的故障监测, 也需要考虑不同模态间的过渡故障监测. 不同稳定模态下的数据具有不同的相关关系, 对每个稳定模态需要建立不同的稳定模态模型. 当稳定生产模态发生改变时, 生产过程进入过渡模态, 需要考虑过渡变量相关关系的变化. 本文通过对过渡数据差分, 得到变量相对变化信息. 利用主成分分析(Principal component analysis, PCA)分段对差分变量的相关特性进行分析, 提取相对变化的特征. 最后以实际连续退火机组生产线为背景, 用基于差分分段PCA的多模态方法对多模态过程进行故障监测, 发现算法很好地反映了实际过渡过程机理, 验证了算法的有效性.  相似文献   

7.
目的 方面级多模态情感分析日益受到关注,其目的是预测多模态数据中所提及的特定方面的情感极性。然而目前的相关方法大都对方面词在上下文建模、模态间细粒度对齐的指向性作用考虑不够,限制了方面级多模态情感分析的性能。为了解决上述问题,提出一个方面级多模态协同注意图卷积情感分析模型(aspect-level multimodal co-attention graph convolutional sentiment analysis model,AMCGC)来同时建模方面指向的模态内上下文语义关联和跨模态的细粒度对齐,以提升情感分析性能。方法 AMCGC为了获得方面导向的模态内的局部语义相关性,利用正交约束的自注意力机制生成各个模态的语义图。然后,通过图卷积获得含有方面词的文本语义图表示和融入方面词的视觉语义图表示,并设计两个不同方向的门控局部跨模态交互机制递进地实现文本语义图表示和视觉语义图表示的细粒度跨模态关联互对齐,从而降低模态间的异构鸿沟。最后,设计方面掩码来选用各模态图表示中方面节点特征作为情感表征,并引入跨模态损失降低异质方面特征的差异。结果 在两个多模态数据集上与9种方法进行对比,在Twitter-2015数据集中,相比于性能第2的模型,准确率提高了1.76%;在Twitter-2017数据集中,相比于性能第2的模型,准确率提高了1.19%。在消融实验部分则从正交约束、跨模态损失、交叉协同多模态融合分别进行评估,验证了AMCGC模型各部分的合理性。结论 本文提出的AMCGC模型能更好地捕捉模态内的局部语义相关性和模态之间的细粒度对齐,提升方面级多模态情感分析的准确性。  相似文献   

8.
多模态情感分析过程中,对情感判定起主导作用的模态常常是动态变化的。传统多模态情感分析方法中通常仅以文本为主导模态,而忽略了由于模态之间的差异性造成不同时刻主导模态的变化。针对如何在各个时刻动态选取主导模态的问题,提出一种自编码器动态主导融合的多模态情感分析方法。该方法首先对单模态编码并获得多模态融合特征,再利用自编码器将其表征到共享空间内;在此空间内衡量单模态特征与融合模态特征的相关程度,在各个时刻动态地选取相关程度最大的模态作为该时刻的主导模态;最后,利用主导模态引导多模态信息融合,得到多模态鲁棒性表征。在多模态情感分析基准数据集CMU-MOSI上进行广泛实验,实验结果表明提出方法的有效性,并且优于大多数现有最先进的多模态情感分析方法。  相似文献   

9.
由于多模态数据中的数据分属多种模态且相互之间存在互补关系,所以利用传统单模态数据的分析和处理方法无法有效地融合不同模态的数据并表示和处理不同模态数据之间的相互关系。为了解决多模态数据的建模、表示和存储问题,使得更好地融合不同模态的数据及更有效地表示数据之间的相互关系,本文提出了一种新的数据模型,即模态结构图,用于多模态医学数据的建模。该模型利用图结构对多模态数据中的模态及模态间的关系进行建模和表示。基于此模型,本文提出了一种并行的数据加载技术,用于抽取出多模态医学数据中分属不同模态和模态间关系的数据并存储到图数据库中。通过使用批量医学数据文件进行实验,验证了该提取加载技术能够获得较好的数据处理效率。  相似文献   

10.
近年来,变分自编码器(Variational auto-encoder,VAE)模型由于在概率数据描述和特征提取能力等方面的优越性,受到了学术界和工业界的广泛关注,并被引入到工业过程监测、诊断和软测量建模等应用中.然而,传统基于VAE的软测量方法使用高斯分布作为潜在变量的分布,限制了其对复杂工业过程数据,尤其是多模态数据的建模能力.为了解决这一问题,本论文提出了一种混合变分自编码器回归模型(Mixture variational autoencoder regression,MVAER),并将其应用于复杂多模态工业过程的软测量建模.具体来说,该方法采用高斯混合模型来描述VAE的潜在变量分布,通过非线性映射将复杂多模态数据映射到潜在空间,学习各模态下的潜在变量,获取原始数据的有效特征表示.同时,建立潜在特征表示与关键质量变量之间的回归模型,实现软测量应用.通过一个数值例子和一个实际工业案例,对所提模型的性能进行了评估,验证了该模型的有效性和优越性.  相似文献   

11.
Correlated information between multiple views can provide useful information for building robust classifiers. One way to extract correlated features from different views is using canonical correlation analysis (CCA). However, CCA is an unsupervised method and can not preserve discriminant information in feature extraction. In this paper, we first incorporate discriminant information into CCA by using random cross-view correlations between within-class examples. Because of the random property, we can construct a lot of feature extractors based on CCA and random correlation. So furthermore, we fuse those feature extractors and propose a novel method called random correlation ensemble (RCE) for multi-view ensemble learning. We compare RCE with existing multi-view feature extraction methods including CCA and discriminant CCA (DCCA) which use all cross-view correlations between within-class examples, as well as the trivial ensembles of CCA and DCCA which adopt standard bagging and boosting strategies for ensemble learning. Experimental results on several multi-view data sets validate the effectiveness of the proposed method.  相似文献   

12.
传统模糊聚类算法在处理复杂非线性数据时学习能力较差。针对此问题,文中基于极限学习机(ELM)理论,结合局部保留投影(LPP)与ELM特征映射,提出压缩隐空间特征映射算法,从而将原始数据从原空间映射至压缩ELM隐空间中。通过连接多个压缩隐空间特征映射,结合模糊聚类技术,提出基于LPP的堆叠隐空间模糊C均值算法。大量实验表明,文中算法对模糊指数的变化不敏感,在处理复杂非线性数据和存在类内差异的图像数据时,能够取得更精确、高效、稳定的学习效果。  相似文献   

13.
Interval data offer a valuable way of representing the available information in complex problems where uncertainty, inaccuracy, or variability must be taken into account. Considered in this paper is the learning of interval neural networks, of which the input and output are vectors with interval components, and the weights are real numbers. The back-propagation (BP) learning algorithm is very slow for interval neural networks, just as for usual real-valued neural networks. Extreme learning machine (ELM) has faster learning speed than the BP algorithm. In this paper, ELM is applied for learning of interval neural networks, resulting in an interval extreme learning machine (IELM). There are two steps in the ELM for usual feedforward neural networks. The first step is to randomly generate the weights connecting the input and the hidden layers, and the second step is to use the Moore–Penrose generalized inversely to determine the weights connecting the hidden and output layers. The first step can be directly applied for interval neural networks. But the second step cannot, due to the involvement of nonlinear constraint conditions for IELM. Instead, we use the same idea as that of the BP algorithm to form a nonlinear optimization problem to determine the weights connecting the hidden and output layers of IELM. Numerical experiments show that IELM is much faster than the usual BP algorithm. And the generalization performance of IELM is much better than that of BP, while the training error of IELM is a little bit worse than that of BP, implying that there might be an over-fitting for BP.  相似文献   

14.
典型相关分析(canonical correlation analysis,CCA)是寻找同一对象两组变量间线性相关性的一种常用的多元统计分析方法,其采用的欧氏距离度量方式导致了算法的非鲁棒性。核诱导的距离度量不仅在理论上被证明是鲁棒的,而且在(聚类)应用上获得了有效验证。将其进一步应用于CCA,发展出了核诱导距离度量的鲁棒CCA(CCA based on kernel-induced measure,KI-CCA)。该算法不仅克服了CCA非鲁棒的不足,而且使现有基于最大相关熵的鲁棒主成分分析(half-quadratic principal component analysis,HQ-PCA)成为特例,且具有非线性相关分析的能力。一方面,核的多样性使得KI-CCA也具有多样性,从而使其成为一般性的分析算法。另一方面,与CCA刻画上的相似性,使其求解可归结为广义特征值问题。在人工数据、多特征手写体数据库(multiple feature database,MFD)和人脸数据集(Yale、AR、ORL)上的实验验证了该算法的有效性。  相似文献   

15.
Extreme learning machine (ELM), which can be viewed as a variant of Random Vector Functional Link (RVFL) network without the input–output direct connections, has been extensively used to create multi-layer (deep) neural networks. Such networks employ randomization based autoencoders (AE) for unsupervised feature extraction followed by an ELM classifier for final decision making. Each randomization based AE acts as an independent feature extractor and a deep network is obtained by stacking several such AEs. Inspired by the better performance of RVFL over ELM, in this paper, we propose several deep RVFL variants by utilizing the framework of stacked autoencoders. Specifically, we introduce direct connections (feature reuse) from preceding layers to the fore layers of the network as in the original RVFL network. Such connections help to regularize the randomization and also reduce the model complexity. Furthermore, we also introduce denoising criterion, recovering clean inputs from their corrupted versions, in the autoencoders to achieve better higher level representations than the ordinary autoencoders. Extensive experiments on several classification datasets show that our proposed deep networks achieve overall better and faster generalization than the other relevant state-of-the-art deep neural networks.  相似文献   

16.
17.
极限学习机(Extreme learning machine, ELM)作为一种新技术具有在回归和分类中良好的泛化性能。局部空间信息的模糊C均值算法(Weighted fuzzy local information C-means, WFLICM)用邻域像素点的空间信息标记中心点的影响因子,增强了模糊C均值聚类算法的去噪声能力。基于极限学习机理论,对WFLICM进行改进优化,提出了基于ELM的局部空间信息的模糊C均值聚类图像分割算法(New kernel weighted fuzzy local information C-means based on ELM,ELM-NKWFLICM)。该方法基于ELM特征映射技术,将原始数据通过ELM特征映射技术映射到高维ELM隐空间中,再用改进的新核局部空间信息的模糊C均值聚类图像分割算法(New kernel weighted fuzzy local information C-means,NKWFLICM)进行聚类。 实验结果表明 ELM-NKWFLICM算法具有比WFLICM算法更强的去噪声能力,且很好地保留了原图像的细节,算法在处理复杂非线性数据时更高效, 同时克服了模糊聚类算法对模糊指数的敏感性问题。  相似文献   

18.
Many modern computer vision algorithms are built atop of a set of low-level feature operators (such as SIFT [23,24]; HOG [8,3]; or LBP [1,2]) that transform raw pixel values into a representation better suited to subsequent processing and classification. While the choice of feature representation is often not central to the logic of a given algorithm, the quality of the feature representation can have critically important implications for performance. Here, we demonstrate a large-scale feature search approach to generating new, more powerful feature representations in which a multitude of complex, nonlinear, multilayer neuromorphic feature representations are randomly generated and screened to find those best suited for the task at hand. In particular, we show that a brute-force search can generate representations that, in combination with standard machine learning blending techniques, achieve state-of-the-art performance on the Labeled Faces in the Wild (LFW) [19] unconstrained face recognition challenge set. These representations outperform previous state-of-the-art approaches, in spite of requiring less training data and using a conceptually simpler machine learning backend. We argue that such large-scale-search-derived feature sets can play a synergistic role with other computer vision approaches by providing a richer base of features with which to work.  相似文献   

19.
为了能够更加高效地检测和诊断模拟电路中的故障元件,提出了自适应狼群算法优化极限学习机的方法。该方法采用自适应遗传算法对特征参数进行选择,从而生成最优特征子集,然后利用最优特征子集构造样本输入极限学习机ELM网络对故障进行分类。针对极限学习机的输入层和隐含层之间的连接权值、隐含层的偏差都将会使其学习速度和分类正确率受到影响的问题,采用本文方法对它们进行优化并选择相应的最优值,提高了极限学习机网络训练的稳定性与故障诊断的成功率。通过2个典型模拟电路的诊断实例,给出了这些方法的具体实现过程,故障诊断率均在99%以上。仿真结果表明使用该方法进行模拟电路故障诊断时具有良好的正确率和稳定性。  相似文献   

20.
有序判别典型相关分析   总被引:1,自引:0,他引:1  
周航星  陈松灿 《软件学报》2014,25(9):2018-2025
多视图学习方法通过视图间互补信息的融合,达到增强单一视图方法的鲁棒性并提升学习性能的目的.典型相关分析(canonical correlation analysis,简称CCA)是一种重要的多视图信息融合技术.其研究的是针对同一组目标两组不同观测数据间的相关性,目标是得到一组相关性最大的投影向量.但当面对标号有序的分类任务时,CCA因没有利用类信息和类间有序信息,造成了对分类性能的制约.为此,通过将有序类信息嵌入CCA进行扩展,发展出有序判别典型相关分析(ordinal discriminative canonical correlation analysis,简称OR-DisCCA).实验结果表明, OR-DisCCA的性能比相关方法更优.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号