首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对当前基于二维图像的人体动作识别算法鲁棒性差、识别率不高等问题,提出了一种融合卷积神经网络和图卷积神经网络的双流人体动作识别算法,从人体骨架信息提取动作的时间与空间特征进行人体动作识别。首先,构建人体骨架信息时空图,利用引入注意机制的图卷积网络提取骨架信息的时间和空间特征;其次,构建骨架信息运动图,将卷积神经网络网络提取到骨架运动信息的特征作为时空图卷积网络所提取特征的时间和空间特征的补充;最后,将双流网络进行融合,形成基于双流的、注意力机制的人体动作识别算法。算法增强了骨架信息的表征能力,有效提高了人体动作的识别精度,在NTU-RGB+D60数据集上取得了比较好的结果,Cross-Subject和Cross-View的识别率分别为86.5%和93.5%,相比其他同类算法有一定的提高。  相似文献   

2.
针对目前人体危险行为识别过程中由于时空特征挖掘不充分导致精度不够的问题,对传统双流卷积模型进行改进,提出了一种基于CNN-LSTM的双流卷积危险行为识别模型。该模型将CNN网络与LSTM网络并联,其中CNN网络作为空间流,将人体骨架空间运动姿态分为静态与动态特征进行分别提取,两者融合作为空间流的输出;在时间流中采用改进的可滑动长短时记忆网络,以增加人体骨架时序特征的提取能力;最后将两个分支进行时空融合,利用Softmax对危险动作做出分类识别。在公开的NTU-RGB+D数据集和Kinetics数据集上的实验结果表明,改进后模型的平均跨角度(Cross view,CV)精度达到92.5%,平均跨视角(Cross subject,CS)精度为87.9%。所提方法优于改进前及其他方法,可以有效地对人体危险动作做出识别,同时对于模糊动作也有较好的区分效果。  相似文献   

3.
提取一种融合注意力和多尺度时空图网络的人体行为识别算法,在时空图网络卷积层融入通道-空间级联注意力机制以及在时间图卷积中增加多尺度卷积,利用改进的算法通过嵌入式平台在NTU RGB+D数据集的两个评估基准X-Sub和X-View上的准确率达到了89.1%和92.5%。实验结果表明,该方法具有可靠的精度,可以应用于嵌入式平台完成人体行为识别任务。  相似文献   

4.
基于人体骨骼的动作识别因具有简洁、鲁棒的特点,近年来受到了广泛的关注.目前大部分基于骨骼的动作识别方法,如时空图卷积网络(ST-GCN),通过提取连续帧的时间特征和帧内骨骼关节的空间特征来区分不同的动作,取得了良好的效果.考虑人体运动中存在的因果性关系,提出了一种融合因果关系和时空图卷积网络的动作识别方法.针对计算关节力矩获取权重复杂的情况,根据关节之间的因果关系为骨骼图分配边权重,并将权重作为辅助信息增强图卷积网络,来提高驱动力较强的关节在神经网络中的权重,降低重要性低的关节的关注度,增强重要性高的关节的关注度.相比ST-GCN等方法,在Kinetics公开数据集上,所提方法无论是Top-1还是Top-5都有较大的提升,在构建的真实太极拳数据集上的识别精度达97.38%(Top-1)和99.79%(Top-5),证明了该方法可以有效地增强动作特征,提升识别的准确率.  相似文献   

5.
人体动作识别因其难以结合时空域信息成为计算机视觉方向中一项具有挑战性的任务.提出一个多注意力时空图卷积网络,其核心思想是根据时间序列信息和人体骨架的自然连接构建一个连通图,然后利用具有多注意力机制的时空图卷积网络自动地学习空间和时间特征并且优化该连通图,最后实现对人体动作的预测.引入图注意力模块,模型构建的图的拓扑结构在初始化后会随着网络训练的过程进行优化,最终得到更适合表达人体动作的拓扑结构.此外,加入通道注意力模块,使网络能够更加注意相对重要的通道信息,从而提取更有效描述动作的特征.在公认的大型数据集NTU-RGBD和Kinetics上进行了大量的实验,结果表明该方法具有更高的识别准确率.  相似文献   

6.
人体行为识别是智能监控、人机交互、机器人等领域的一项重要的基础技术。图卷积神经网络(GCN)在基于骨骼的人体行为识别上取得了卓越的性能。不过GCN在人体行为识别研究中存在以下问题:1)人体骨架的骨骼点采用坐标表示,缺乏骨骼点的运动细节信息;2)在某些视频中,人体骨架的运动幅度太小导致关键骨骼点的表征信息不明显。针对上述问题,首先提出骨骼点的时序散度模型来描述骨骼点的运动状态,从而放大了不同人体行为的类间方差。并进一步提出了时序散度特征的注意力机制,以突显关键骨骼点,进一步扩大类间方差。最后根据原始骨架的空间数据特征和时序散度特征的互补性构建了双流融合模型。所提算法在权威的人体行为数据集NTU-RGB+D的两种划分策略下分别达到了82.9%和83.7%的准确率,相比自适应图卷积网络(AGCN)提高了1.3个百分点和0.5个百分点,准确率的提升证明了所提算法的有效性。  相似文献   

7.
智慧教育即教育信息化,是利用现代信息技术的新一代教育模式,智慧行为分析是智慧教育系统的核心组成。在面对复杂的教室应用场景时,针对传统的行为识别分类算法的精确性与时效性都存在严重不足的问题,提出了一种基于分离与注意力机制的图卷积(Depthwise Separable Attention Graph Convolutional Network,DSA-GCN)骨架动作识别算法。首先,为解决传统算法在通道域信息聚合天生不充分的难题,通过逐点卷积进行多维通道映射,将时空图卷积对输入骨骼序列的原始时空信息的保护能力与深度可分离卷积在空间和通道特征学习上的分离能力相结合,以增强模型特征学习与抽象表达性。其次,采用多维度融合的注意力机制,在空间卷积域利用自注意力与通道注意力机制来提升模型的动态敏感性,在时间卷积域利用时间与通道注意力融合法来增强对关键帧的判别力。实验结果表明,在NTU RGB+D和N-UCLA两个大型数据集上,DSA-GCN都获得了优异的性能和效能表现,证明了模型对通道域信息聚合能力的提升。  相似文献   

8.
视频中的人体动作识别在计算机视觉领域得到广泛关注,基于人体骨架的动作识别方法可以明确地表现人体动作,因此已逐渐成为该领域的重要研究方向之一。针对多数主流人体动作识别方法网络参数量大、计算复杂度高等问题,设计一种融合多流数据的轻量级图卷积网络,并将其应用于人体骨架动作识别任务。在数据预处理阶段,利用多流数据融合方法对4种特征数据流进行融合,通过一次训练就可得到最优结果,从而降低网络参数量。设计基于图卷积网络的非局部网络模块,以捕获图像的全局信息从而提高动作识别准确率。在此基础上,设计空间Ghost图卷积模块和时间Ghost图卷积模块,从网络结构上进一步降低网络参数量。在动作识别数据集NTU60 RGB+D和NTU120 RGB+D上进行实验,结果表明,与近年主流动作识别方法ST-GCN、2s AS-GCN、2s AGCN等相比,基于该轻量级图卷积网络的人体骨架动作识别方法在保持较低网络参数量的情况下能够取得较高的识别准确率。  相似文献   

9.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

10.
为进一步提升基于骨骼信息的人体行为识别准确率,对人体姿态的骨骼信息进行研究,分析图卷积(GCN)的理论基础,提出一种多尺度时空图卷积(multiscale STGCN)的方法对骨骼的动态信息进行建模,不同于传统的手工对人体进行自上而下或者自下而上的遍历规则设计方法,而是通过构建网络模型对人体行为的时间空间信息进行自动捕捉,利用图卷积学习人体骨架在空间特征信息,结合多尺度时间卷积(multiscale TCN)在时间层捕获的骨架动作序列信息,增强网络模型对人体骨骼动作信息的理解,将其应用到人体的行为识别,通过对数据集NTU-RGBD上用CS和CV两种类型数据集设计的对模型进行评估和测试的对比实验,验证了该网络模型的准确性及有效性。  相似文献   

11.
Liu  Shuhua  Bai  Xiaoying  Fang  Ming  Li  Lanting  Hung  Chih-Cheng 《Applied Intelligence》2022,52(2):1544-1555

Action recognition based on a human skeleton is an extremely challenging research problem. The temporal information contained in the human skeleton is more difficult to extract than the spatial information. Many researchers focus on graph convolution networks and apply them to action recognition. In this study, an action recognition method based on a two-stream network called RNXt-GCN is proposed on the basis of the Spatial-Temporal Graph Convolutional Network (ST-GCN). The human skeleton is converted first into a spatial-temporal graph and a SkeleMotion image which are input into ST-GCN and ResNeXt, respectively, for performing the spatial-temporal convolution. The convolved features are then fused. The proposed method models the temporal information in action from the amplitude and direction of the action and addresses the shortcomings of isolated temporal information in the ST-GCN. The experiments are comprehensively performed on the four datasets: 1) UTD-MHAD, 2) Northwestern-UCLA, 3) NTU RGB-D 60, and 4) NTU RGB-D 120. The proposed model shows very competitive results compared with other models in our experiments. On the experiments of NTU RGB?+?D 120 dataset, our proposed model outperforms those of the state-of-the-art two-stream models.

  相似文献   

12.
由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作,本文提出基于多模态特征学习的人体行为识别算法.首先采用两条通道分别提取行为视频的RGB特征和3D骨骼特征,第1条通道C3DP-LA网络由两部分组成:(1)包含时空金字塔池化(Spatial Temporal Pyramid Pooling,STPP)的改进3D CNN;(2)基于时空注意力机制的LSTM,第2条通道为时空图卷积网络(ST-GCN),然后,本文将提取到的两种特征融合使其优势互补,最后用Softmax分类器对融合特征进行分类,并在公开数据集UCF101和NTU RGB+D上验证.实验表明,本文提出的方法与现有行为识别算法相比具有较高的识别准确度.  相似文献   

13.
在人体骨架结构动作识别方法中,很多研究工作在提取骨架结构上的空间信息和运动信息后进行融合,没有对具有复杂时空关系的人体动作进行高效表达。本文提出了基于姿态运动时空域融合的图卷积网络模型(PM-STFGCN)。对于在时域上存在大量的干扰信息,定义了一种基于局部姿态运动的时域关注度模块(LPM-TAM),用于抑制时域上的干扰并学习运动姿态的表征。设计了基于姿态运动的时空域融合模块(PM-STF),融合时域运动和空域姿态特征并进行自适应特征增强。通过实验验证,本文提出的方法是有效性的,与其他方法相比,在识别效果上具有很好的竞争力。设计的人体动作交互系统,验证了在实时性和准确率上优于语音交互系统。  相似文献   

14.
与传统的基于RGB视频的行为识别任务相比,基于人体骨架的行为识别方法由于其具有受光照、视角和背景复杂度等诸多因素影响非常小的特点,使其成为近几年来计算机视觉领域的主要研究方向之一。但是目前主流的基于人体骨架的行为识别方法都或多或少地存在参数量过大,运算时间过长,计算复杂度过高等问题,从而导致这些方法难以同时满足时效性和准确度这两个要求。针对上述问题,提出了一种融合多模态数据的轻量级图卷积神经网络。首先通过多模态数据融合的方法将多种信息流数据进行融合;其次通过空间流模块和时间流模块分别获得融合后数据的空间信息和时间信息;最后通过全连接层获得最终的分类结果。在行为识别数据集NTU60 RGB+D和NTU120 RGB+D上的测试结果表明该网络不仅在识别精度上优于近两年内的一些主流方法,同时在参数量的比较上也远小于其他主流方法,从而验证了该网络在兼顾时效性和计算成本的同时,准确度上的表现也十分优异。  相似文献   

15.
目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA)。方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息。结果 实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2FA与其基线方法2s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果。在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%。同时,消融实验验证了多维特征嵌合机制的有效性。实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果。结论 通过与基线方法2s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确。  相似文献   

16.
目的 基于骨骼的动作识别技术由于在光照变化、动态视角和复杂背景等情况下具有更强的鲁棒性而成为研究热点。利用骨骼/关节数据识别人体相似动作时,因动作间关节特征差异小,且缺少其他图像语义信息,易导致识别混乱。针对该问题,提出一种基于显著性图像特征强化的中心连接图卷积网络(saliency image feature enhancement based center-connected graph convolutional network,SIFE-CGCN)模型。方法 首先,设计一种骨架中心连接拓扑结构,建立所有关节点到骨架中心的连接,以捕获相似动作中关节运动的细微差异;其次,利用高斯混合背景建模算法将每一帧图像与实时更新的背景模型对比,分割出动态图像区域并消除背景干扰作为显著性图像,通过预训练的VGG-Net(Visual Geometry Group network)提取特征图,并进行动作语义特征匹配分类;最后,设计一种融合算法利用分类结果对中心连接图卷积网络的识别结果强化修正,提高对相似动作的识别能力。此外,提出了一种基于骨架的动作相似度的计算方法,并建立一个相似动作数据集。结果 ...  相似文献   

17.
基于骨骼的动作识别因不受人体物理特征的影响,简单清晰地传达了人体行为识别的重要信息而受到广泛关注。传统的应用程序骨架建模通常依赖遍历规则的人为设置而导致表达能力有限和推广困难。因此,在近年来热门的时空图卷积网络(ST-GCN)模型基础上提出了一种新的划分骨架关节点的分区策略。该策略相比于原始分区方法加强了身体相对位置之间的关系,从而有利于提高骨架关节点信息在时间和空间上的关联。与此同时,在训练过程中通过设置不同的迭代学习率以进一步提高识别精度。在两个不同性质的大规模数据集Kinetics和NTU-RGB+D上与现有方法进行识别效果的比较,实验结果表明了该方法的有效性。  相似文献   

18.
近年来人体行为识别成为计算机视觉领域的一个研究热点,而卷积神经网络(Convolutional Neural Network,CNN)在图像分类和识别领域取得了重要突破,但是人体行为识别是基于视频分析的,视频包含空间域和时间域两部分的信息。针对基于视频的人体行为识别问题,提出一种改进的双流卷积神经网络(Two-Stream CNN)模型,对于空间域,将视频的单帧RGB图像作为输入,送入VGGNet_16模型;对于时间域,将多帧叠加后的光流图像作为输入,送入Flow_Net模型;最终将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体行为识别器。基于JHMDB公开数据库的实验,结果证明了改进的双流CNN在人体行为识别任务上的有效性。  相似文献   

19.
行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号