首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
人体运动数据集是运动数据去噪、运动编辑及运动合成等研究的重要基础.为支撑更具通用性的多模态数据融合研究,设计并采集一套公开的多模态人体运动数据集是亟待解决的问题.首先设计基于传感器的动作捕捉设备采集精准的运动数据、基于体感设备采集的粗糙运动数据、基于惯性测量单元采集的局部惯性数据的采集环境;然后基于网络时间协议实现设备间时序同步,以及多模态数据间的空间同步;最后分类采集了全身运动多模态数据集(HFUT multimodal motion dataset, HFUT-MMD),包含12位采集者进行6类运动的总计6 971 568帧数据.利用已有算法在HFUT-MMD数据集上的实验结果表明,低精度运动数据经过模型优化能够得到与精准的运动数据相近的运动数据,佐证了各模态数据间的一致性.  相似文献   

2.
张天明  张杉  刘曦  曹斌  范菁 《软件学报》2024,35(3):1107-1124
作为自然语言处理领域的关键子任务,命名实体识别通过提取文本中的关键信息,帮助机器翻译、文本生成、知识图谱构建以及多模态数据融合等许多下游任务深度理解文本蕴含的复杂语义信息,有效地完成任务.在实际生活中,由于时间和人力等成本问题,命名实体识别任务常常受限于标注样本的稀缺.尽管基于文本的小样本命名实体识别方法已取得较好的泛化表现,但由于样本量有限,使得模型能提取的语义信息也十分受限,进而导致模型预测效果依然不佳.针对标注样本稀缺给基于文本的小样本命名实体识别方法带来的挑战,提出了一种融合多模态数据的小样本命名实体识别模型,借助多模态数据提供额外语义信息,帮助模型提升预测效果,进而可以有效提升多模态数据融合、建模效果.该方法将图像信息转化为文本信息作为辅助模态信息,有效地解决了由文本与图像蕴含语义信息粒度不一致导致的模态对齐效果不佳的问题.为了有效地考虑实体识别中的标签依赖关系,使用CRF框架并使用最先进的元学习方法分别作为发射模块和转移模块.为了缓解辅助模态中的噪声样本对模型的负面影响,提出一种基于元学习的通用去噪网络.该去噪网络在数据量十分有限的情况下,依然可以有效地评估辅助模态中不同样...  相似文献   

3.
对跨模态数据检索精确性问题,提出一种基于多模态数据融合的检索方法。采用CNN+Bi_LSTM与Glove+Bi_GRU的方法分别对图片和文本数据进行编码,并通过Transforme+LSTM对编码后数据分别提取图像和文本的语义特征,使用同模态下与不同模态间的多种相似度损失函数,对提取的图像和文本语义特征进行监督和优化。最终根据查询样本与检索结果之间的语义相似度,确定正确检索结果。实验证明,设计的多模态数据融合与检索模型,相较于其他跨模态搜索分类模型,辨别损失更低。且在模型各部分功能上,无论是引入LSTM的多模态特征提取模块,还是基于双尺度相似性计算的语义建模方法,都在数据检索中发挥了一定的作用,当k=12时,本模型相较于传统特征提取模型R@K均值9.9,相较于仅采用中线性分类器代替双尺度相似度的本模型、与仅移除LSTM使用三个头进行语义特征提取的本模型,R@K均值分别高出4.3、2.0;mAP的均值相较于其他三个模型分别高出0.12、0.07、0.03。相较于其他基线跨模态数据检索模型而言,提出的多模态数据融合与检索模型则具有更好的检索结果。当k=12时,相较于LSCO、MADLG、D...  相似文献   

4.
城市功能区的划分与识别对分析城市功能区的分布现状和了解城市内部空间结构具有重要意义.这激发了多源地理空间数据融合的需求,特别是城市遥感数据与社会感知数据的融合.然而,如何有效实现城市遥感数据与社会感知数据的融合是一个技术难题.为了实现城市遥感数据与社会感知数据的融合,提高城市功能识别精度,以遥感图像和社会感知数据为例,...  相似文献   

5.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

6.
提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。  相似文献   

7.
目的 胶质瘤的准确分级是辅助制定个性化治疗方案的主要手段,但现有研究大多数集中在基于肿瘤区域的分级预测上,需要事先勾画感兴趣区域,无法满足临床智能辅助诊断的实时性需求。因此,本文提出一种自适应多模态特征融合网络(adaptive multi-modal fusion net,AMMFNet),在不需要勾画肿瘤区域的情况下,实现原始采集图像到胶质瘤级别的端到端准确预测。方法 AMMFNet方法采用4个同构异义网络分支提取不同模态的多尺度图像特征;利用自适应多模态特征融合模块和降维模块进行特征融合;结合交叉熵分类损失和特征嵌入损失提高胶质瘤的分类精度。为了验证模型性能,本文采用MICCAI (Medical Image Computing and Computer Assisted Intervention Society)2018公开数据集进行训练和测试,与前沿深度学习模型和最新的胶质瘤分类模型进行对比,并采用精度以及受试者曲线下面积(area under curve,AUC)等指标进行定量分析。结果 在无需勾画肿瘤区域的情况下,本文模型预测胶质瘤分级的AUC为0.965;在使用肿瘤区域时,其AUC高达0.997,精度为0.982,比目前最好的胶质瘤分类模型——多任务卷积神经网络同比提高1.2%。结论 本文提出的自适应多模态特征融合网络,通过结合多模态、多语义级别特征,可以在未勾画肿瘤区域的前提下,准确地实现胶质瘤分级预测。  相似文献   

8.
随着社交网络平台的发展,社交网络已经成为人们获取信息的重要来源.然而社交网络的便利性也导致了虚假谣言的快速传播.与纯文本的谣言相比,带有多媒体信息的网络谣言更容易误导用户以及被传播,因此对多模态的网络谣言检测在现实生活中有着重要意义.研究者们已提出若干多模态的网络谣言检测方法,但这些方法都没有充分挖掘出视觉特征和融合文...  相似文献   

9.
随着多媒体技术的发展,可获取的媒体数据在种类和量级上大幅提升。受人类感知方式的启发,多种媒体数据互相融合处理,促进了人工智能在计算机视觉领域的研究发展,在遥感图像解译、生物医学和深度估计等方面有广泛的应用。尽管多模态数据在描述事物特征时具有明显优势,但仍面临着较大的挑战。1)受到不同成像设备和传感器的限制,难以收集到大规模、高质量的多模态数据集;2)多模态数据需要匹配成对用于研究,任一模态的缺失都会造成可用数据的减少;3)图像、视频数据在处理和标注上需要耗费较多的时间和人力成本,这些问题使得目前本领域的技术尚待攻关。本文立足于数据受限条件下的多模态学习方法,根据样本数量、标注信息和样本质量等不同的维度,将计算机视觉领域中的多模态数据受限方法分为小样本学习、缺乏强监督标注信息、主动学习、数据去噪和数据增强5个方向,详细阐述了各类方法的样本特点和模型方法的最新进展。并介绍了数据受限前提下的多模态学习方法使用的数据集及其应用方向(包括人体姿态估计、行人重识别等),对比分析了现有算法的优缺点以及未来的发展方向,对该领域的发展具有积极的意义。  相似文献   

10.
目的使用单幅RGB图像引导稀疏激光雷达(light detection and ranging,LiDAR)点云构建稠密深度图已逐渐成为研究热点,然而现有方法在构建场景深度信息时,目标边缘处的深度依然存在模糊的问题,影响3维重建与摄影测量的准确性。为此,本文提出一种基于多阶段指导网络的稠密深度图构建方法。方法多阶段指导网络由指导信息引导路径和RGB信息引导路径构成。在指导信息引导路径上,通过ERF(efficient residual factorized)网络融合稀疏激光雷达点云和RGB数据提取前期指导信息,采用指导信息处理模块融合稀疏深度和前期指导信息,并将融合后的信息通过双线性插值的方式构建出表面法线,将多模态信息融合指导模块提取的中期指导信息和表面法线信息输入到ERF网络中,提取可用于引导稀疏深度稠密化的后期指导信息,以此构建该路径上的稠密深度图;在RGB信息引导路径上,通过前期指导信息引导融合稀疏深度与RGB信息,通过多模态信息融合指导模块获得该路径上的稠密深度图,采用精细化模块减少该稠密深度图中的误差信息。融合上述两条路径得到的结果,获得最终稠密深度图。结果通过KITTI(...  相似文献   

11.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

12.
体域网作为无线传感器网络在生物医学领域的一个重要分支能够远程实时监测人体多项健康数据.针对基于体域网采集到的多模态健康数据融合与分析方法进行研究,设计了一套包括动态心电传感器、血压传感器和血氧饱和度传感器的体域网组网方式,提出了一种基于贝叶斯网络模型和推理算法的心肌缺血监测识别方法.通过对60例确诊心脏病患者施行单一模态动态心电监测和多模态健康数据监测对比实验,验证了所提出的多模态健康数据融合方法能够有效提高无症状性心肌缺血的检出率,为临床应用提供了一种新的辅助判别手段.  相似文献   

13.
图像在采集和传输过程中往往受到噪声污染,去噪任务是图像预处理中的重要步骤.现有的基于深度学习的图像去噪方法往往只进行单次的去噪,容易产生过于平滑或者太多噪点未去除的结果且无法恢复.因此,本文提出了一种基于循环神经网络的多阶段图像去噪方法.该方法包括两个去噪阶段,通过调整两个阶段的训练权重可以使得第1阶段的去噪结果包含部...  相似文献   

14.
太阳光球亮点近似旋转的曲线运动对研究太阳内部的能量如何传输到日冕层具有重要意义。现有的算法仅能检测光球亮点的全局型曲线运动,因此提出了一种多尺度多模态的深度学习方法来检测光球亮点的全局型和局部型曲线运动。首先,基于双向长短期记忆网络构建了一种多尺度网络模型,用来提取光球亮点的运动轨迹段的多尺度时序特征;然后,采用EfficientNet-B0提取运动轨迹段的空间特征,通过将时序特征和空间特征融合成多模态特征来检测光球亮点各种类型的曲线轨迹段。实验结果表明,所提方法的准确率达到了85.08%,相较于单尺度方法的提升了6.12%,相较于多尺度单模态方法的提升了3.1%。所提方法亦可应用于其他领域的运动类型检测任务中。  相似文献   

15.
针对睡眠多导图中各模态信息在睡眠各阶段存在差异性,而导致特征利用不充分的问题,本文提出了一种基于通道注意力机制和多模态门控机制的睡眠分期模型。首先利用残差收缩网络设计各模态特征提取网络用于提取各模态特征,并在通道维度上进行拼接融合,利用通道注意力机制进一步对融合特征进行重标定得到睡眠多导图的时不变特征;之后提出了一种基于自适应门控机制的多模态门控模块,对各模态特征及时不变特征按照重要程度进行加权融合,实现特征融合;最后利用双向长短时记忆网络提取睡眠多导图的时序特征。实验结果表明,本文提出的睡眠分期模型在欧洲数据格式睡眠数据集(sleep-European data format, sleep-EDF)上准确率为87.6%,$ {M_{{F_1}}} $为82.0%,取得了目前最好的分期效果。  相似文献   

16.
针对环绕智能环境中感知数据类型不同、格式多样问题,设计了基于XML的数据表示方法。其次,提出数据级和决策级相结合的数据融合架构,解决了环绕智能环境数据存在的异质、弱关联问题。最后,设计实现了基于加权自适应和模糊逻辑的数据融合算法,并应用于环绕智能环境监测,实验证明本技术可有效抑止传感器精度差异及噪声等因素导致的感知数据漂移问题,提高了系统决策的准确性。  相似文献   

17.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

18.
王亚  郑博文  张欣 《计算机应用研究》2021,38(3):685-688,695
为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的检索和分类,在ModelNet40数据集上进行了三维模型分类任务和检索任务评估。实验结果及与现有方法进行的对比证明了该方法的优越性,为三维模型检索分类领域提供了一种新的思路。  相似文献   

19.
20.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号