首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 487 毫秒
1.
深入分析了跨媒体智能关联分析与语义理解理论技术的最新研究进展,包括多模态数据的统一表达、知识引导的数据融合、跨媒体关联分析、基于知识图谱的跨媒体表征技术以及面向多模态的智能应用.其中,多模态数据的统一表达是对跨媒体信息进行分析推理的先决条件,利用多模态信息间的语义一致性剔除冗余信息,通过跨模态相互转化来实现跨媒体信息统一表达,学习更全面的特征表示;跨媒体关联分析立足于图像语言、视频语言以及音视频语言的跨模态关联分析与理解技术,旨在弥合视觉、听觉以及语言之间的语义鸿沟,充分建立不同模态间的语义关联;基于知识图谱的跨媒体表征技术通过引入跨媒体的知识图谱,从跨媒体知识图谱构建、跨媒体知识图谱嵌入以及跨媒体知识推理3个方面展开研究,增强跨媒体数据表征的可靠性,并提升后续推理任务的分析效率和准确性;随着跨模态分析技术的快速发展,面向多模态的智能应用得到了更多的技术支撑,依据智能应用所需要的领域知识,选取了多模态视觉问答,多模式视频摘要、多模式视觉模式挖掘、多模式推荐、跨模态智能推理和跨模态医学图像预测等跨模态应用实例,梳理了其在多模态数据融合以及跨媒体分析推理方面的研究进展.  相似文献   

2.
如何有效挖掘单模态表征并实现多模态信息的充分融合是多模态情感分析研究的重点之一。针对多模态情感分析中的模态间噪声和多模态特征融合不充分等问题,提出一种基于跨模态门控机制和改进融合方法的多模态情感分析模型。首先,利用跨模态门控机制去除模态间噪声,提取互补信息以增强模态表示。然后,利用权重和相似约束分别关注不同模态情感贡献的差异性和情感表达的一致性。最后,结合模态的多层次表示获得情感分析的结果。在三个公开数据集上的实验结果表明,所提模型是有效的,相比已有一些模型取得了更好的性能。  相似文献   

3.
针对现有跨模态检索方法不能充分挖掘模态之间的相似性信息的问题,提出一种基于语义融合和多重相似性学习(CFMSL)方法。首先,在特征提取过程中融合不同模态的语义信息,加强不同模态特征间的交互,使得模型能够充分挖掘模态间的关联信息。然后,利用生成器将单模态特征和融合模态特征映射到公共子空间中,通过最大化锚点与正例样本之间的相似性和最小化锚点与负例样本间的相似性得到具有判别性的特征进行模态对齐。最后,基于决策融合方式对相似性列表进行重排序,使得最终排序结果同时考虑单模态特征和融合模态特征,提高检索性能。通过在Pascal Sentences、Wikipedia、NUS-WIDE-10K这3个广泛使用的图文数据集上进行实验,实验结果表明CFMSL模型能够有效提高跨模态检索任务的性能。  相似文献   

4.
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。  相似文献   

5.
为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本-语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI (CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLF...  相似文献   

6.
汪美玲  邵伟  张道强 《软件学报》2022,33(12):4545-4558
近年来,随着脑影像和基因技术的发展,脑影像遗传学得到了广泛的关注.在脑影像遗传研究中,检验遗传变异(即单核苷酸多态性(single nucleotide polymorphisms,SNPs))对大脑结构或功能的影响是一项艰巨的任务.此外,提取的多模态脑表型和来自同一区域的一致性脑影像标志物为理解疾病(例如,阿尔茨海默病(Alzheimer’s disease,AD))的机理提供了更多的见解.利用多模态脑表型作为桥接风险基因位点和疾病状态的中间特征,设计通过标签对齐的多模态学习方法来识别AD中风险基因位点与疾病状态之间的一致性表型.首先,用标准的多模态方法去探索和AD相关的基因位点(即APOEe4 rs429358)与多模态脑影像之间关系;其次,为了利用标记样本之间的标签信息,在标准多模态方法的目标函数中添加了一个新的标签对齐正则化项,使得所有具有相同类别标签的多模态样本在映射空间中更靠近;最后,在公开的ADNI (Alzheimer’s disease neuroimaging initiative)数据集上的3种脑影像(即大脑的结构组织信息、脱氧葡萄糖正电子发射断层扫描和正电子发射断层扫描淀粉样蛋白成像)进行实验.实验结果表明:该方法可以在多模态脑影像上发现鲁棒的、一致性脑区域来解释AD的病因,并在3个模态上将相关系数分别提高了8%,9%,5%.  相似文献   

7.
针对现有跨模态行人重识别方法忽略行人的局部特征及模态间的相互协同的问题,文中提出基于局部异质协同双路网络的跨模态行人重识别方法.首先,通过双路网络提取不同模态的全局特征进行局部精细化,挖掘行人的结构化局部信息.然后,通过标签和预测信息建立跨模态局部信息之间的关联,进行协同自适应的跨模态融合,使不同模态的特征之间相互补充,获得富有判别力的特征.在RegDB、SYSU-MM01跨模态行人重识别数据集上的实验验证文中方法的有效性.  相似文献   

8.
已有的无监督跨模态哈希(UCMH)方法主要关注构造相似矩阵和约束公共表征空间的结构,忽略了2个重要问题:一是它们为不同模态的数据提取独立的表征用以检索,没有考虑不同模态之间的信息互补;二是预提取特征的结构信息不完全适用于跨模态检索任务,可能会造成一些错误信息的迁移。针对第一个问题,提出一种多模态表征融合结构,通过对不同模态的嵌入特征进行融合,从而有效地综合来自不同模态的信息,提高哈希码的表达能力,同时引入跨模态生成机制,解决检索数据模态缺失的问题;针对第二个问题,提出一种相似矩阵动态调整策略,在训练过程中用学到的模态嵌入自适应地逐步优化相似矩阵,减轻预提取特征对原始数据集的偏见,使其更适应跨模态检索,并有效避免过拟合问题。基于常用数据集Flickr25k和NUS-WIDE进行实验,结果表明,通过该方法构建的模型在Flickr25k数据集上3种哈希位长检索的平均精度均值较DGCPN模型分别提高1.43%、1.82%和1.52%,在NUS-WIDE数据集上分别提高3.72%、3.77%和1.99%,验证了所提方法的有效性。  相似文献   

9.
本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特征级融合、决策级融合、模型级融合4种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这3个角度分别列举具有代表性的多模态混合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别模型性能的方式和策略进行了深入的探讨与展望。  相似文献   

10.
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。  相似文献   

11.
Multi-modal fusion combines multiple modal information to overcome the limitation of incomplete information expressed by a single modality, so as to realize the complementarity of modal information and enhance feature representation. Multi-modal medical signal fusion algorithm and extraction equipment play an important role in improving the recognition accuracy of brain diseases. This paper compared the existing data fusion methods and explored the fusion research of multi-modal bioelectrical signals, including: (1) the challenges and shortcomings in the signal acquisition phase are explored from the biological signal acquisition equipment and scene settings; (2) five multi-modal fusion forms are analyzed; (3) the fusion methods and evaluation indexes are briefly reviewed; (4) the research status and challenges of multi-modal fusion in the field of spatial cognitive impairment and biometrics are explored; (5) the advantages and challenges of multi-modal fusion are described. The conclusion of this review is that the research of multimodal medical signal fusion is in the initial stage, and some studies have proved that multi-modal fusion is meaningful for medical research. However, the fusion algorithm and fusion strategy need to be improved. While learning the relatively perfect image fusion algorithm, we need to develop the fusion algorithm and fusion strategy that is suitable for medical signal and strengthen its feasibility in clinical application.  相似文献   

12.
张笑非  杨阳  黄佳进  钟宁 《计算机应用》2021,41(9):2767-2772
针对大脑图谱认知特征选择的不确定性提出了基于度中心性的认知特征选择方法(DC-CFSM)。首先,基于大脑图谱构建认知实验任务中被试的脑功能网络(FBN),并计算得到FBN每个兴趣点(ROI)的度中心性(DC);其次,统计对比被试相同皮质兴趣点在执行认知任务时不同认知状态间的差异显著性并对其进行排序;最后,根据排序后的ROI计算人脑认知体系曲线下面积(HBCA-AUC)值,并评估几种认知特征选择方法的性能。在心算认知任务功能核磁共振成像(fMRI)数据上进行的实验中,DC-CFSM在人脑认知体系的任务正相关系统(TPS)、任务负相关系统(TNS)及任务支撑系统(TSS)上得到的HBCA-AUC值分别为0.669 2、0.304 0、0.468 5。与极限树、自适应提升、随机森林、极限梯度提升(XGB)等方法相比,DC-CFSM对TPS的识别率分别提高了22.17%、13.90%、24.32%和37.19%,对TNS的误识率分别减小了20.46%、29.70%、44.96%和33.39%。可见DC-CFSM在大脑图谱认知特征的选择上更能反映人脑认知体系的类别和功能。  相似文献   

13.
陈浩  秦志光  丁熠 《计算机应用》2020,40(7):2104-2109
脑胶质瘤的分割依赖多种模态的核磁共振成像(MRI)的影像。基于卷积神经网络(CNN)的分割算法往往是在固定的多种模态影像上进行训练和测试,这忽略了模态数据缺失或增加问题。针对这个问题,提出了将不同模态的图像通过CNN映射到同一特征空间下并利用同一特征空间下的特征来分割肿瘤的方法。首先,不同模态的数据经过同一深度CNN提取特征;然后,将不同模态的特征连接起来,经过全连接层实现特征融合;最后,利用融合的特征实现脑肿瘤分割。模型采用BRATS2015数据集进行训练和测试,并使用Dice系数对模型进行验证。实验结果表明了所提模型能有效缓解数据缺失问题。同时,该模型较多模态联合的方法更加灵活,能够应对模态数据增加问题。  相似文献   

14.
医学影像是产前筛查、诊断、治疗引导和评估的重要工具,能有效避免胎儿脑的发育异常。近年来,磁共振成像在产前诊断中愈加重要,而实现自动、定量、精确地分析胎儿脑磁共振图像依赖于可靠的图像分割。因此,胎儿脑磁共振图像分割具有十分重要的临床意义与研究价值。由于胎儿图像中存在组织器官多、图像质量差及结构变化快等问题,胎儿脑磁共振图像的分割面临着巨大的困难与挑战。目前,尚未有文献对该领域的方法进行系统性的总结和分析,尤其是基于深度学习的方法。本文针对胎儿脑磁共振图像分割方法进行综述,首先,对胎儿脑磁共振图像的主要公开图谱/数据集进行详细说明;接着,对脑实质提取、组织分割和病灶分割方法进行全面的分类与分析;最后,对胎儿脑磁共振图像分割面临的挑战及未来的研究方向进行总结与展望。  相似文献   

15.
目的 越来越多的研究表明,基于静息态功能磁共振成像(rs-fMRI)的大脑功能分区比传统的大脑结构分区(如AAL分区、Brodmann分区等)在功能网络构建中功能一致性更高。但现阶段对于大脑功能模块的划分较粗糙,需要更精细准确的脑功能分区,明确宏观尺度的基本功能单元。为能使脑科学领域的研究者对基于静息态功能磁共振成像的脑功能分区进行有益的探索和应用,本文对其进行系统综述。方法 从rs-fMRI数据与大脑功能网络的关系出发,理清脑功能区分割的一般思路,对近几年来脑功能分区算法中出现的新思路、新方法以及对原有方法的改进做了较全面的阐述;最后总结该领域现阶段面临的问题并对未来的研究方向做了展望。结果 根据脑区情况,将脑功能分区分为全脑功能分区和局部脑功能分区,并分别阐释这两方面的优势与应用。同时,将脑功能分区算法归纳为基于数据驱动和基于模型驱动两大类,并展示了各类分区算法的优势以及面临的难点和挑战。结论 基于静息态功能磁共振成像的脑功能分区的研究已经取得了一些进展和有价值的研究成果,但是距离研究人脑机制,应用于脑部疾病的预防和诊断以及启示类脑科学的发展,还需要对脑功能分区方法进行更深入的研究和完善。后续研究中可将传统的分区算法和先验知识、空间领域信息、空间约束、稀疏编码、特征选择和采样学习等思想结合起来,形成融合性的脑功能分区算法,致力于更为细致准确的大脑功能分区和脑功能网络构建,解析脑的高级功能。  相似文献   

16.
针对多模态融合效果不佳,不能充分挖掘特定时间段,多视角关键情感信息的问题,提出了一种基于多视角的时序多模态情感分类模型,用于提取特定时间段,多视角下的关键情感信息。首先,对文本标题及文本内容两种视角下的数据进行低维空间词嵌入和序列表达,提取不同视角的多模态时序特征,对图片截取,水平镜像两种视角下的数据进行特征提取;其次,采用循环神经网络构建多模态数据的时序序列交互特征,增大互信息;最后,基于对比学习进行联合训练,完成情感分类。该模型在两个多模态情感分类基准数据集Yelp和Mutli-Zol上评估,准确度分别为73.92%、69.15%。综合实验表明,多视角的特定时间段多模态语句序列可提升模型性能。  相似文献   

17.
与传统的基于RGB视频的行为识别任务相比,基于人体骨架的行为识别方法由于其具有受光照、视角和背景复杂度等诸多因素影响非常小的特点,使其成为近几年来计算机视觉领域的主要研究方向之一。但是目前主流的基于人体骨架的行为识别方法都或多或少地存在参数量过大,运算时间过长,计算复杂度过高等问题,从而导致这些方法难以同时满足时效性和准确度这两个要求。针对上述问题,提出了一种融合多模态数据的轻量级图卷积神经网络。首先通过多模态数据融合的方法将多种信息流数据进行融合;其次通过空间流模块和时间流模块分别获得融合后数据的空间信息和时间信息;最后通过全连接层获得最终的分类结果。在行为识别数据集NTU60 RGB+D和NTU120 RGB+D上的测试结果表明该网络不仅在识别精度上优于近两年内的一些主流方法,同时在参数量的比较上也远小于其他主流方法,从而验证了该网络在兼顾时效性和计算成本的同时,准确度上的表现也十分优异。  相似文献   

18.
针对脑肿瘤多模态信息融合不充分以及肿瘤区域细节信息丢失等问题,提出了一种跨模态融合的双注意力脑肿瘤图像分割网络(CFDA-Net).在编码器-解码器的基础结构上,首先在编码器分支采用密集块与大内核注意力并行的新卷积块,可以使全局和局部信息有效融合且可以防止反向传播时梯度消失的问题;其次在编码器的第2、3和4层的左侧加入多模态深度融合模块,有效地利用不同模态间的互补信息;然后在解码器分支使用Shuffle Attention注意力将特征图分组处理后再聚合,其中分组的子特征一分为二地获取空间与通道的重要注意特征.最后使用二进制交叉熵(binary cross entropy, BCE)、Dice Loss与L2 Loss组成新的混合损失函数,缓解了脑肿瘤数据的类别不平衡问题,进一步提升分割性能.在BraTS2019脑肿瘤数据集上的实验结果表明,该模型在整体肿瘤区域、肿瘤核心区域和肿瘤增强区域的平均Dice系数值分别为0.887、0.892和0.815.与其他先进的分割方法 ADHDC-Net、SDS-MSA-Net等相比,该模型在肿瘤核心区域和增强区域具有更好的分割效果.  相似文献   

19.
目标跟踪是计算机视觉研究中的前沿和热点问题,在安全监控、无人驾驶等领域中有着重要的应用价值。然而,目前基于可见光数据的视觉跟踪方法,在光照变化、恶劣天气下因数据质量受限难以实现鲁棒跟踪。因此,一些研究者提出了多模态视觉跟踪任务,通过引入其他模态数据,包括红外模态、深度模态、事件模态以及文本模态,在一定程度上弥补了可见光模态在恶劣天气、遮挡、快速运动和外观歧义等条件下的不足。多模态视觉跟踪旨在挖掘可见光和其他模态数据的互补优势,在视频中实现鲁棒的目标定位,对全天时全天候感知有着重要的价值和意义,受到越来越多的研究和关注。由于主流的多模态视觉跟踪方法针对可见光—红外跟踪展开,因此,本文以阐述可见光—红外跟踪方法为主,从信息融合的角度将现有方法划分为结合式融合和判别式融合,分别进行了详细介绍和分析,并对不同类方法的优缺点进行了分析和比较。然后,本文对其他多模态视觉跟踪任务的研究工作进行了介绍,并对不同多模态视觉跟踪任务的优缺点进行了分析和比较。最后,本文对多模态视觉跟踪方法进行了总结并对未来发展进行展望。  相似文献   

20.
针对水利图集编制方法的研究不足,水利制图对地理信息整合利用水平不高等问题,运用数字制图和数据库管理等技术,探索信息数据的地图化开发利用方式,设计水利图集的编制方案,促进水利制图在信息化建设中的深度融合.分析水利图集的功能需求,设计编目分组结构和主题内容,基于水利地理信息平台组织地图数据,建设底图库,进行主题表达设计和要...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号