首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
RGB-D图像显著性检测是在一组成对的RGB和Depth图中识别出视觉上最显著突出的目标区域。已有的双流网络,同等对待多模态的RGB和Depth图像数据,在提取特征方面几乎一致。然而,低层的Depth特征存在较大噪声,不能很好地表征图像特征。因此,该文提出一种多模态特征融合监督的RGB-D图像显著性检测网络,通过两个独立流分别学习RGB和Depth数据,使用双流侧边监督模块分别获取网络各层基于RGB和Depth特征的显著图,然后采用多模态特征融合模块来融合后3层RGB和Depth高维信息生成高层显著预测结果。网络从第1层至第5层逐步生成RGB和Depth各模态特征,然后从第5层到第3层,利用高层指导低层的方式产生多模态融合特征,接着从第2层到第1层,利用第3层产生的融合特征去逐步地优化前两层的RGB特征,最终输出既包含RGB低层信息又融合RGB-D高层多模态信息的显著图。在3个公开数据集上的实验表明,该文所提网络因为使用了双流侧边监督模块和多模态特征融合模块,其性能优于目前主流的RGB-D显著性检测模型,具有较强的鲁棒性。  相似文献   

2.
为解决小型无人机“黑飞”对公共领域的威胁问题。基于无人机目标多模态图像信息,文中提出一种轻量化多模态自适应融合孪生网络(Multimodal adaptive fusion Siamese network,MAFS)。设计一种全新的自适应融合策略,该模块通过定义两个模型训练参数赋予不同模态权重以实现自适应融合;本文在Ghost PAN基础上进行结构重建,构建一种更适合无人机目标检测的金字塔融合结构。消融实验结果表明本文算法各个模块对无人机目标检测精度均有提升,多算法对比实验结果表明本文算法鲁棒性更强,与Nanodet Plus-m相比检测时间基本不变的情况下m AP提升9%。  相似文献   

3.
针对现有利用可见光与红外模态融合的行人目标检测算法在全天候环境下漏检率高的问题,提出一种基于光照感知权重融合的多模态行人目标检测算法。首先,使用引入高效通道注意力(ECA)机制模块的ResNet50作为特征提取网络,分别提取两个模态的特征;其次,对现有光照加权感知融合策略进行改进,通过设计一种新的光照感知加权融合机制获取可见光与红外模态的对应权重,并进行加权融合得到融合特征,从而降低算法的检测漏检率;最后,将从特征网络最后一层提取的多模态特征和生成的融合特征共同送入到检测网络,完成行人目标检测。实验结果表明,所提算法在KAIST数据集下具有良好的检测性能,在全天候下对行人目标的检测漏检率为11.16%。  相似文献   

4.
无人机拍摄下的红外图像中变电设备的分割精度直接影响着热故障诊断的结果,针对复杂红外背景下变电设备分割精度低的问题,提出了一种融合可见光和红外图像的多模态路径聚合网络(Multimodal Path Aggregation Network, MPAN)。首先提取并融合两种模态图像的特征,考虑到两种模态图像的特征空间存在差异,提出了自适应特征融合模块(Adaptive Feature Fuse Module, AFFM),以充分融合两种模态特征;对具有多尺度特征的主干网络增加自底向上的金字塔网络,并对横向连接的路径增强模块引入自注意力机制;最后使用dice系数优化掩膜损失函数。实验结果表明,多模态图像的融合能够增强分割性能,且验证了提出各模块的有效性,该模型能够显著提高红外图像中变电设备实例分割的准确率。  相似文献   

5.
赵子平  高天  王欢 《信号处理》2023,39(4):667-677
为提升人机交互时的用户体验以及满足多元化用途的需求,交互设备正逐步引入情感智能技术,其中,实现产业和技术有效融合的前提是可以对人类情感状态进行正确的识别,然而,这仍然是一个具有挑战性的话题。随着多媒体时代的快速发展,越来越多可利用的模态信息便逐步被应用到情感识别系统中。因此,本文提出一种基于特征蒸馏的多模态情感识别模型。考虑到情感表达往往与音频信号的全局信息密切相关,提出了适应性全局卷积(Adaptive Global Convolution, AGC)来提升有效感受野的范围,特征图重要性分析(Feature Map Importance Analysis,FMIA)模块进一步强化情感关键特征。音频亲和度融合(Audio Affinity Fusion, AAF)模块通过音频-文本模态间的内在相关性建模亲和度融合权重,使两种模态的情感信息得到有效融合。此外,为了提升模型泛化能力,有效利用教师模型中概率分布所携带的隐藏知识,帮助学生模型获取更高级别的语义特征,提出了在多模态模型上使用特征蒸馏。最后,在交互式情感二元动作捕捉(Interactive Emotional Dyadic Mot...  相似文献   

6.
针对单一传感器在复杂路况以及恶劣天气情况下车辆行人检测效果不佳,搭建了一套可见光、可见光偏振、短波红外和长波红外多模态数据采集系统,构建了一个多模态数据集,并提出了一种多模态车辆行人检测算法。首先,提出了一种基于改进型SIFT特征点的多尺度部分强度不变特征的异源图像配准算法;然后,提出基于YOLOv5多模态数据目标检测网络。最终实现了平均精度在日间数据集1.0%的提升,日间夜间混合数据集10.9%的提升。  相似文献   

7.
近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合。针对特征层融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合策略,提出了基于多头注意力机制的多模态维度情感识别方法,分别构建音频模型、视频模型和多模态融合模型对信息流进行深层特征学习,最后放入双向长短时网络中得到最终情感预测值。所提方法相比于不同基线方法在激活度和愉悦度上均取得了最佳的性能,可以在高层维度对情感信息有效捕捉,进而更好的对音视频信息进行有效融合。   相似文献   

8.
无人机拍摄下的红外图像中变电设备的分割精度直接影响着热故障诊断的结果,针对复杂红外背景下变电设备分割精度低的问题,提出了一种融合可见光和红外图像的多模态路径聚合网络(Multimodal Path Aggregation Network, MPAN)。首先提取并融合两种模态图像的特征,考虑到两种模态图像的特征空间存在差异,提出了自适应特征融合模块(Adaptive Feature Fuse Module, AFFM),以充分融合两种模态特征;对具有多尺度特征的主干网络增加自底向上的金字塔网络,并对横向连接的路径增强模块引入自注意力机制;最后使用dice系数优化掩膜损失函数。实验结果表明,多模态图像的融合能够增强分割性能,且验证了提出各模块的有效性,该模型能够显著提高红外图像中变电设备实例分割的准确率。  相似文献   

9.
动作识别是计算机视觉领域的重要研究方向。在动作识别的研究中,可以用来识别动作类别的数据模式包括RGB数据、深度图像和骨骼点数据。不同的模态提供不同形式的信息,这些信息很有可能与其他信息互补。在此理论基础上,本文提出了一种基于运动能量的多模态信息互补网络模型架构。该网络同时利用RGB数据提供的丰富的外观特征信息和深度数据提供的深度信息,以及对亮度、观察角度鲁棒性的特点。通过两种模态的信息互补特性完成多模态的融合。此外,为了更好地对长范围时间结构建模,同时考虑到具有子动作共享现象的动作类别,采用了能量引导的视频分割方法。而在特征融合阶段,又提出了跨模态的十字融合方式,通过连接多个卷积层的特征图谱,使得卷积网络不仅在浅层中可以共享两个模态的局部特征,还可以在深层次的卷积层中获得全局特征的融合。最后,该模型在NTU-RGB+D数据集上证明了出色的性能。  相似文献   

10.
大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示。然而,这些方法通常忽略了模态间情感语义的差异性信息。为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任务和3个单模态任务,分别学习多模态特征间的情感语义一致性信息和各个模态所含情感语义的差异性信息。首先,为了学习情感语义一致性信息,提出了一种基于多层循环神经网络的时间注意力机制(TAM),通过赋予时间序列特征向量不同的权重来描述情感特征的贡献度。然后,针对多模态融合,在语义空间进行了逐语义维度的细粒度特征融合。其次,为了有效学习各个模态所含情感语义的差异性信息,提出了一种基于模态间特征向量相似度的自监督单模态标签自动生成策略(ULAG)。通过在CMU-MOSI,CMU-MOSEI, CH-SIMS 3个数据集上的大量实验结果证实,提出的TAM-ULAG模型具有很强的竞争力:在分类指标(Acc2,F 1)和回归指标(MAE, Corr)上与基准模型的指标相比均有所提升;对于二分类识别准确率,在CMUMOSI和CMU-MOSEI数据集上分别为87.2%和85.8%,而在C...  相似文献   

11.
显著性目标检测(SOD)作为目前计算机视觉以及计算机图形学领域中研究的基本课题之一,是许多其他复杂任务的预处理阶段的任务,对例如图像理解与解释、视觉追踪、语义分割,视频分析等对象级应用的发展起到了极大的推动作用。随着深度传感器的普及,深度图像中蕴含的空间信息线索在显著性检测研究中提供了与RGB图像中蕴含的不同模态的辅助补充特征信息,这对于检测精度的提升来说愈发重要,因此如何有效地融合RGB与深度图像中的不同模态间的特征信息成为了RGB-D显著性目标检测课题中研究的重要问题。针对RGB与Depth模态间的特征融合问题,本文设计了一种基于跨模态特征信息融合的双流RGB-D显著目标检测网络模型,通过使用设计的跨模态特征融合模块去除某些低质量深度图带入的冗余与噪音,随后提取放大被优化改良过后的深度特征线索与RGB特征线索间的相似性与差异性,完成跨模态特征信息的有效融合。除此之外在网络编码结构的顶端增加了改良的非局部模块,通过自注意力机制更好地捕捉了的上下文信息以及像素间的长距离依赖。通过使用的两个数据集上的实验表明,这一模型在4个评价指标上取得了较好的表现。  相似文献   

12.
针对流量分类效果与实际情况存在偏差的问题,首先将多模态深度学习运用在流量分类中,通过利用多模态之间的互补性,剔除模态间的冗余,从而学习到更好的流量数据特征表示。然后,提出了一种基于多模态流量数据的检测和分类方法,对同一流量单位的不同模态输入分别采用卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)进行训练,以充分学习流量数据模态间和模态内信息的相互依赖性,克服现有单模态分类器的局限,从而支持更为复杂的现代网络应用场景。  相似文献   

13.
针对人脸识别技术应用中,使用人脸图像或虚拟人脸等技术手段欺骗识别系统进而降低系统安全性的问题,提出了一种多模态特征融合的人脸活体检测算法.该算法将人脸的RGB图、深度图和红外图分别输入到3个相同的残差网络结构中提取特征;通过基于通道注意力机制的方式对3个模态的特征图进行融合;对融合特征做出决策.在CASIA-SURF数...  相似文献   

14.
芦伟 《电子设计工程》2024,(6):136-139+145
随着自组网性能的提升与大规模应用,其内部数据呈现出多模态特征,数据量更是达到了海量级别,为数据融合处理工作带来了极大的挑战。为此,提出基于数字孪生的自组网多模态数据快速融合方法。实时采集自组网数据后,利用NLM算法与卡尔曼滤波算法去除数据中的噪声与冗余信息。然后,构建数字孪生自组网(包括自组网、孪生网络与服务系统),从服务系统加载的数据中提取多模态数据特征,搭建双线性融合模型,从而实现对多模态数据的快速融合处理。实验表明:应用该方法后,多模态数据融合过程的时延始终保持在3 s以下,融合后多模态数据质量系数可达到0.9,证明该方法具有更优的数据融合性能。  相似文献   

15.
情感分析可以挖掘社会热点事件网络舆情的矛盾冲突,加强对多模态信息的分析处理,对网络舆情管理具有重要意义。本文基于BiGRU模型构建多模态网络舆情情感分析框架,运用word2vec提取文本特征,卷积神经网络提取图像特征,采用线性融合进行特征融合实现情感分析。与基线模型相比,本文的多模态网络舆情情感分析方法准确率、宏平均F1和加权平均F1的结果更优,对现实生活产生的舆情事件具有较好的情感识别效果。  相似文献   

16.
基于深度学习的方法,利用多模态信息融合技术,将汽车等目标的声音、图像信息融合,用于对测试目标的判断.利用改进Inception网络对图像识别技术展开研究,分别比较了单纯图像信息情况的辨识、单纯声音信息情况的辨识,以及多模态融合情况下的辨识.通过试验分析和比较,证明该方法可以有效提高用户的图像识别能力,将特种车辆的平均识...  相似文献   

17.
娄焕  邱天 《信息技术》2023,(2):75-80
针对目前网络中有些新闻存在虚假性,缺乏真实性等问题,根据假新闻所包含的数据特征进行分析,选取不同的特征提取方法来针对不同模态数据进行特征提取,并进行特征融合,提出了基于多模态特征融合的检测算法MMDM。首先基于外部信息的文本模态特征提取,然后融合图片物理及语义信息进行特征提取,最后对两个模块特征融合。实验结果表明,多模态特征融合算法检测性能优于其他方法。  相似文献   

18.
王文霞  张文  何凯 《激光与红外》2023,53(9):1364-1374
为提升目标检测算法在复杂环境下的精确性和实用性,将多源信息和深度学习技术相结合,提出了一种基于双模态特征增强的目标检测方法。该方法以红外和可见光图像作为输入,利用颜色空间转换、边缘提取、直方图均衡化等传统图像处理方法丰富图像信息,达到数据增强效果;特征提取部分采用卷积神经网络结构分别提取目标红外及可见光信息,并设计混合注意力机制分别从通道和空间位置角度提升有效特征权重;同时,针对目标双模态信息,引入了自适应交叉融合结构,提高特征多样性;最后,利用交替上下采样将目标全局和局部特征充分融合,并以自主选择方式提取目标相关特征实现检测。通过在标准数据集以及实际场景数据集上的实验结果表明,所提方法有效融合并增强了目标多模态特征,提升了目标检测效果,并能较好的应用于电网场景中,辅助机器人完成目标设备检测。  相似文献   

19.
针对不同模态MR脑肿瘤图像呈现的肿瘤状态差异以及卷积神经网络(convolutional neural networks, CNNs)提取特征局限性的问题,提出了一种基于多模态融合的MR脑肿瘤图像分割方法。分割模型以U-net网络为原型,创新一种多模态图像融合方式以加强特征提取能力,同时引入通道交叉注意力机制(channel cross transformer, CCT)代替U-net中的跳跃连接结构,进一步弥补深浅层次的特征差距与空间依赖性,有效融合多尺度特征,加强对肿瘤的分割能力。实验在BraTS数据集上进行了多目标分割结果验证,通过定量分析对比前沿网络分割结果,表明该方法确有良好的分割性能,其分割出三种肿瘤区域的Dice系数分别达到80%、74%、71%。  相似文献   

20.
多模态医学图像融合技术概述   总被引:6,自引:0,他引:6  
介绍多模态医学图像融合的意义和多模态医学图像融合的方式,重点介绍多模态医学图像融合的实现及主要的医学图像配准方法,并讨论了目前的多模态医学图像融合方法中存在的主要问题,直观地从整体上阐述多模态医学图像融合技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号