首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对视频理解中的时序难点以及传统方法计算量大的困难,提出了一种带有时空模块的方法用于动作识别.该方法采用残差网络作为框架,加入时空模块提取图像以及时序信息,并且加入RGB差值信息增强数据,采用NetVLAD方法聚合所有的特征信息,最后实现行为动作的分类.实验结果表明,基于时空模块的多模态方法具有较好的识别精度.  相似文献   

2.
提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。  相似文献   

3.
人体动作识别是计算机视觉领域的核心研究方向之一,在很多场合都有应用。深 度卷积神经网络在静态图像识别方面已取得了巨大成功,并逐渐扩展到视频内容识别领域,但 应用依然面临很大挑战。为此提出一种基于 ResNeXt 深度神经网络模型用于视频中的人体动作 识别,主要包括:①使用新型 ResNeXt 网络结构代替原有的各种卷积神经网络结构,并使用 RGB 和光流 2 种模态的数据,使模型可充分地利用视频中动作外观及时序信息;②将端到端的 视频时间分割策略应用于 ResNeXt 网络模型,同时将视频分为 K 段实现对视频序列的长范围时 间结构进行建模,并通过测试得到最优视频分段值 K,使模型能更好地区分存在子动作共享现 象的相似动作,解决某些由于子动作相似而易发生的误判问题。通过在动作识别数据集 UCF101 和 HMDB51 上进行的测试表明,该模型和方法的动作识别准确率性能优于目前文献中的一些模 型和方法的性能。  相似文献   

4.
近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。  相似文献   

5.
情感识别研究热点正从单模态转移到多模态。针对多模态情感特征提取与融合的技术难点,本文列举了目前应用较广的多模态情感识别数据库,介绍了面部表情和语音情感这两个模态的特征提取技术,重点阐述了多模态情感融合识别技术,主要对多模态情感特征融合策略和融合方法进行了综述,对不同算法下的识别效果进行了对比。最后,对多模态情感识别研究中存在的问题进行了探讨,并对未来的研究方向进行了展望。  相似文献   

6.
多模态生物特征识别技术进展综述   总被引:2,自引:0,他引:2  
近年来,生物特征识别已经成为一种最具潜力的身份认证技术之一.主要对多模态生物特征识别技术进行概括和总结,同时也介绍了现存若干用于身份识别和验证的多模态生物特征识别系统.经调查研究显示,多模态生物特征识别技术由于在身份认证和识别过程中考虑了个体的多种生理或行为特征,因而表现出了较单生物特征更高的可靠性和安全性,并已成为生物特征识别技术未来发展的趋势之一.  相似文献   

7.
情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一。为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法。视频图像模态基于局部二值直方图法(LBPH)+稀疏自动编码器(SAE)+改进卷积神经网络(CNN)实现;语音模态基于改进深度受限波尔兹曼机(DBM)和改进长短时间记忆网络(LSTM)实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法(BP)优化DBM和LSTM的非线性映射能力,使用全局均值池化(GAP)提升CNN和LSTM的响应速度并防止过拟合。单模态识别后,两个模态的识别结果基于权值准则在决策层融合,给出所属情感分类及概率。实验结果表明,融合识别策略提升了识别准确率,在中文自然视听情感数据库(cheavd)2.0的测试集达到74.9%的识别率,且可以对使用者的情感进行实时分析。  相似文献   

8.
提出了基于注意力机制的多模态人体行为识别算法;针对多模态特征的有效融合问题,设计基于注意力机制的双流特征融合卷积网络(TAM3DNet, two-stream attention mechanism 3D network);主干网络采用结合注意力机制的注意力3D网络(AM3DNet, attention mechanism 3D network),将特征图与注意力图进行加权后得到加权行为特征,从而使网络聚焦于肢体运动区域的特征,减弱背景和肢体静止区域的影响;将RGB-D数据的颜色和深度两种模态数据分别作为双流网络的输入,从两条分支网络得到彩色和深度行为特征,然后将融合特征进行分类得到人体行为识别结果。  相似文献   

9.
针对视频动作预测领域的算法在不同预测时间预测效果不稳定的缺陷,提出一种基于自注意力机制的多模态LSTM的动作预测模型.综合考虑3种视频特征,采用位置编码及自注意力机制编码3种模态特征,得到具有丰富语义的高层特征;使用LSTM结构总结视频的历史信息,产生不同预测时间的动作预测结果;完成多模态特征的子网络的训练后,采取多模...  相似文献   

10.
陈家乐 《信息与电脑》2023,(22):161-163
为实现人体动作的精准识别,判断人体行为,提出基于Transformer的人体动作识别方法。以注意力机制神经网络为基础,引入Transformer框架,构建人体动作识别网络模型;该模型利用注意力机制提取视频中关键信息特征,同时依据Transformer模块提取动作帧的时间特征,将提取的两种特征融合后输入分类器中,经由模型的分类器完成动作分类识别。测试结果表明,该方法具有较好的应用效果,能够精准识别视频图像中的人体动作情况,判断人体行为。  相似文献   

11.
行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优...  相似文献   

12.
人体动作识别为人机合作提供了基础支撑,机器人通过对操作者动作进行识别和理解,可以提高制造系统的柔性和生产效率.针对人体动作识别问题,在三维骨架数据的基础上,对原始三维骨架数据进行平滑去噪处理以符合人体关节点运动的平滑规律;构建了由静态特征和动态特征组成的融合特征用来表征人体动作;引入了关键帧提取模型来提取人体动作序列中...  相似文献   

13.
以基于视频的人体动作识别为核心,首先对传统RGB动作识别领域的算法进行了全面回顾,包括传统算法和基于深度学习的算法,基于RGB视频的动作识别易受背景光照的影响识别精度不高,但有丰富的颜色外观信息;然后对RGB-D动作识别领域的算法进行分析总结,主要分为深度序列、骨骼和多特征融合三个方面,RGB-D视频具有多个模态可以为动作识别提供更多的信息,可以弥补基于RGB视频的不足但也带来了新的挑战;最后对常用数据集和未来可能的发展方向进行了展望。  相似文献   

14.
目的 在人体行为识别研究中,利用多模态方法将深度数据与骨骼数据相融合,可有效提高动作的识别率。针对深度图像信息数据量大、冗余度高等问题,提出一种通过获取关键时程信息动作帧序列降低冗余的算法,即质心运动路径松弛算法,并根据不同模态数据的特点,提出一种新的时空特征表示方法。方法 质心运动路径松弛算法根据质心在相邻帧之间的运动距离,计算图像差分后获得的活跃部分的相似系数,然后剔除掉相似度高的帧,获得足以表达行为的关键时程信息。根据图像动态部分的变化特性、人体各部分在运动中的协同性和局部显著性特征构建一种新的时空特征表示方法。结果 在MSR-Action3D数据集上对本文方法的效果进行验证。在3个子集中进行交叉验证的平均分类识别率为95.743 2%,分别比Multi-fused,CovP3DJ,D3D-LSTM(densely connected 3DCNN and long short-term memory),Joint Subset Selection方法高2.443 2%,4.763 2%,0.343 2%,0.213 2%。本文方法在使用完整数据集的扩展实验中进行交叉验证的分类识别...  相似文献   

15.
16.
零次学习(ZSL)是迁移学习在图像识别领域一个重要的分支。其主要的学习方法是在不使用未见类 的情况下,通过训练可见类语义属性和视觉属性映射关系来对未见类样本进行识别,是当前图像识别领域的热点。 现有的 ZSL 模型存在语义属性和视觉属性的信息不对称,语义信息不能很好地描述视觉信息,从而出现了领域漂 移问题。未见类语义属性到视觉属性合成过程中部分视觉特征信息未被合成,影响了识别准确率。为了解决未见 类语义特征缺失和未见类视觉特征匹配合成问题,本文设计了属性语义与图谱语义融合增强的 ZSL 模型实现 ZSL 效果的提升。该模型学习过程中使用知识图谱关联视觉特征,同时考虑样本之间的属性联系,对可见类样本和未 见类样本语义信息进行了增强,采用对抗式的学习过程加强视觉特征的合成。该方法在 4 个典型的数据集上实验 表现出了较好的实验效果,模型也可以合成较为细致的视觉特征,优于目前已有的 ZSL 方法。  相似文献   

17.
组合动作识别是计算机视觉领域一个新的挑战,它旨在识别未见过的动作与物体的组合。传统的动作识别模型往往会在物体外观与动作类别之间建立联系,引入错误的偏置,在面对未见过的动作与物体的组合时性能急剧恶化。现有解决方法是忽视外观信息,以物体的坐标和身份等信息作为输入,建立以物体为中心的模型。受此启发,提出了时空增强式交互模型。首先在基础网络的不同深度提取并聚合多级别物体特征;然后构建物体分支,使用时空增强模块和物体交互模块分别对物体特征进行增强以及建模物体的移动和交互模式;最终将该分支的输出与基础网络的输出融合用于动作分类,使模型兼顾外观信息和物体交互信息。在多个数据集上的广泛实验证明了所提模型的有效性。  相似文献   

18.
基于时空特征的方法是行为识别的主流方法,已经有许多研究学者提出了多种局部时空特征。然而,不同的局部特征所反映的行为信息的侧重点并不一样。通过引入集成学习的方法,对多种特征在分类器层次上进行融合,使得多种特征能够优势互补,从而增强了特征的描述能力,为构建出高效、稳定的行为识别分类器提供了保证。经仿真实验验证,所提出的方法是鲁棒和有效的。  相似文献   

19.
基于流形学习的人体动作识别   总被引:3,自引:2,他引:3       下载免费PDF全文
目的 提出了一个基于流形学习的动作识别框架,用来识别深度图像序列中的人体行为。方法 从Kinect设备获得的深度信息中评估出人体的关节点信息,并用相对关节点位置差作为人体特征表达。在训练阶段,利用LE(Lalpacian eigenmaps)流形学习对高维空间下的训练集进行降维,得到低维隐空间下的运动模型。在识别阶段,用最近邻差值方法将测试序列映射到低维流形空间中去,然后进行匹配计算。在匹配过程中,通过使用改进的Hausdorff距离对低维空间下测试序列和训练运动集的吻合度和相似度进行度量。结果 用Kinect设备捕获的数据进行了实验,取得了良好的效果;同时也在MSR Action3D数据库上进行了测试,结果表明在训练样本较多情况下,本文方法识别效果优于以往方法。结论 实验结果表明本文方法适用于基于深度图像序列的人体动作识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号