首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
得益于图卷积网络(GCN)对于处理非欧几里得数据有着非常好的效果,同时人体的骨骼点数据相对于RGB视频数据具有更好的环境适应性和动作表达能力.因此,基于骨骼点的人体动作识别方法得到了越来越多的关注和研究.将人体骨骼建模为时空图形的数据进行基于GCN模型的动作识别取得了显著的性能提升,但是现有的基于GCN的动作识别模型往往无法捕获动作视频流中的细节特征.针对此问题,本文提出了一种基于分段时间注意力时空图卷积骨骼点动作识别方法.通过将数据的时间帧进行分段处理,提取注意力,来提高模型对细节特征的提取能力.同时引入协调注意力模块,将位置信息嵌入注意力图中,这种方法增强了模型的泛化能力.在NTU-RGBD数据集和Kinetics-Skeleton数据集上的大量实验表明,本文所提模型可以获得比目前多数文献更高的动作识别精度,有更好的识别效果.  相似文献   

2.
最近,基于骨架的动作识别研究受到了广泛关注.因为图卷积网络可以更好地建模非规则数据的内部依赖,ST-GCN (spatial temporal graph convolutional network)已经成为该领域的首选网络框架.针对目前大多数基于ST-GCN的改进方法忽视了骨架序列所蕴含的几何特征.本文利用骨架关节几何特征,作为ST-GCN框架的特征补充,其具有视觉不变性和无需添加额外参数学习即可获取的优势,进一步地,利用时空图卷积网络建模骨架关节几何特征和早期特征融合方法,构成了融合几何特征的时空图卷积网络框架.最后,实验结果表明,与ST-GCN、2s-AGCN和SGN等动作识别模型相比,我们提出的框架在NTU-RGB+D数据集和NTU-RGB+D 120数据集上都取得了更高准确率的效果.  相似文献   

3.
目的 多人交互行为的识别在现实生活中有着广泛应用。现有的关于人类活动分析的研究主要集中在对单人简单行为的视频片段进行分类,而对于理解具有多人之间关系的复杂人类活动的问题还没有得到充分的解决。方法 针对多人交互动作中两人肢体行为的特点,本文提出基于骨架的时空建模方法,将时空建模特征输入到广义图卷积中进行特征学习,通过谱图卷积的高阶快速切比雪夫多项式进行逼近。同时对骨架之间的交互信息进行设计,通过捕获这种额外的交互信息增加动作识别的准确性。为增强时域信息的提取,创新性地将切片循环神经网络(recurrent neural network,RNN)应用于视频动作识别,以捕获整个动作序列依赖性信息。结果 本文在UT-Interaction数据集和SBU数据集上对本文算法进行评估,在UT-Interaction数据集中,与H-LSTCM(hierarchical long short-term concurrent memory)等算法进行了比较,相较于次好算法提高了0.7%,在SBU数据集中,相较于GCNConv(semi-supervised classification with graph convolutional networks)、RotClips+MTCNN(rotating cliips+multi-task convolutional neural netowrk)、SGC(simplifying graph convolutional)等算法分别提升了5.2%、1.03%、1.2%。同时也在SBU数据集中进行了融合实验,分别验证了不同连接与切片RNN的有效性。结论 本文提出的融合时空图卷积的交互识别方法,对于交互类动作的识别具有较高的准确率,普遍适用于对象之间产生互动的行为识别。  相似文献   

4.
人体动作识别因其难以结合时空域信息成为计算机视觉方向中一项具有挑战性的任务.提出一个多注意力时空图卷积网络,其核心思想是根据时间序列信息和人体骨架的自然连接构建一个连通图,然后利用具有多注意力机制的时空图卷积网络自动地学习空间和时间特征并且优化该连通图,最后实现对人体动作的预测.引入图注意力模块,模型构建的图的拓扑结构...  相似文献   

5.
近年来,随着深度学习技术的发展,已有很多新颖的基于骨架的人体动作识别算法被提出,极大地推动了该领域的发展.对基于骨架的人体动作识别领域的主要数据集和算法进行全面、细致的总结.首先对NTU,Kinetics-Skeleton和SYSU 3DHOI等骨架相关的数据集进行回顾;然后将基于骨架的人体动作识别算法归纳为基于监督学习的、基于半监督学习的和基于无监督学习的3大类,并对分属不同类别的算法进行介绍和比较;最后分析和总结得出该领域当前面临过度依赖大数据、大算力和大模型等挑战,并针对性地提出缓解以上挑战的3点未来发展方向:高精度骨架数据集建设、细粒度骨架动作识别和数据有效学习的骨架动作识别.  相似文献   

6.
基于人体骨骼的动作识别因具有简洁、鲁棒的特点,近年来受到了广泛的关注.目前大部分基于骨骼的动作识别方法,如时空图卷积网络(ST-GCN),通过提取连续帧的时间特征和帧内骨骼关节的空间特征来区分不同的动作,取得了良好的效果.考虑人体运动中存在的因果性关系,提出了一种融合因果关系和时空图卷积网络的动作识别方法.针对计算关节力矩获取权重复杂的情况,根据关节之间的因果关系为骨骼图分配边权重,并将权重作为辅助信息增强图卷积网络,来提高驱动力较强的关节在神经网络中的权重,降低重要性低的关节的关注度,增强重要性高的关节的关注度.相比ST-GCN等方法,在Kinetics公开数据集上,所提方法无论是Top-1还是Top-5都有较大的提升,在构建的真实太极拳数据集上的识别精度达97.38%(Top-1)和99.79%(Top-5),证明了该方法可以有效地增强动作特征,提升识别的准确率.  相似文献   

7.
在视频动作识别任务中,无论是在视频的空间维度还是时序维度,如何充分学习和利用特征之间相关性,对最终识别性能的影响非常大。卷积操作通过计算邻域内特征点之间的相关性获得局部特征,而自注意力机制通过所有特征点之间的信息交互学习到全局信息。单个卷积层不具备在全局视角上学习特征相关性的能力,即使是重复堆叠多层也只是获得了若干个更大的感受野。自注意力层虽然具有全局视角,但其关注的核心仅是不同特征点所表达的内容联系,忽略了局部的位置特性。为了解决以上问题,提出了一种时空卷积注意力网络用于动作识别。时空卷积注意力网络由空间卷积注意力网络和时序卷积注意力网络共同组成。空间卷积注意力网络使用自注意力方法捕捉空间维度的表观特征联系,用一维卷积提取动态信息。时序卷积注意力网络通过自注意力方法来获取时序维度上帧级特征间的关联信息,用2D卷积学习空间特征。时空卷积注意力网络集成两种网络的共同测试结果来提升模型识别性能。在HMDB51数据集上进行实验,以ResNet50为基线,引入时空卷积注意力模块后,神经网络的识别准确率在空间流和时序流上分别提升了6.25和5.13个百分点。与当前先进方法进行比较,时空卷积注意力...  相似文献   

8.
当前骨骼动作识别任务中仍存在数据预处理不合理、模型参数量大、识别精度低的缺点。为解决以上问题,提出了一种基于特征交互与自适应融合的骨骼动作识别方法 AFFGCN。首先,提出一种自适应分池数据预处理算法,以解决数据帧分布不均匀和数据帧代表性差的问题;其次,引入一种多信息特征交互的方法来挖掘更深的特征,以提高模型的性能;最后,提出一种自适应特征融合(AFF)模块用于图卷积特征融合,以进一步提高模型性能。实验结果表明,该方法在NTU-RGB+D 60数据集上较基线方法轻量级多信息图卷积神经网络(LMI-GCN)在交叉主题(CS)与交叉视角(CV)两种评估设置上均提升了1.2个百分点,在NTU-RGB+D 120数据集上较基线方法 LMI-GCN在CS和交叉设置号(SS)评估设置上分别提升了1.5和1.4个百分点。而在单流和多流网络上的实验结果表明,相较于语义引导神经网络(SGN)等当前主流骨骼动作识别方法,所提方法的模型参数量更低、准确度更高,模型性能优势明显,更加适用于移动设备的部署。  相似文献   

9.
随着全民健身热潮的兴起,越来越多的人积极参加健身锻炼,但由于缺乏科学的运动指导,使健身难以取得相应的效果.据我们所知,没有产品可以自动分析健身运动并提供指导.针对这个现象,设计了一个基于深度学习的健身动作识别系统,该系统由三个部分组成:提取运动边界、人体姿态估计和动作识别/评分.首先使用边界敏感网络来生成包含动作实例的...  相似文献   

10.
近年来,连续手语识别的研究工作主要围绕RGB模态的数据展开,并且在现实场景数据集和实验室采集数据集上都取得了显著进展。然而,RGB模态的处理对设备计算能力具有很高的要求,而骨骼关键点模态则由于输入数据复杂度相对低,因此处理速度更快,只是在识别性能上弱于RGB模态。为了综合两种方法的优点,文中提出了一种基于时序关联信息对齐的跨模态知识蒸馏方法(Temporally Related Knowledge Distillation, TRKD)。该方法使用RGB模态的神经网络作为教师网络来指导使用骨骼关键点模态的学生网络,以快速准确地实现连续手语识别。由于教师网络对手语语境的理解能力十分值得学生网络学习,因此提出了具有先验信息以及自适应学习方法的图卷积网络来提取两类模态中的时序关联特征,并通过特征对齐来实现教学。在特征对齐过程中,在教师网络中引入可学习参数会导致教师提供的监督信息丢失。为了解决这个问题,所提出的TRKD方法引入了自监督学习中的对比学习来提供监督信息,从而实现了教师网络与学生网络在时序关联特征上的对齐。文中在Phoenix-2014手语数据集上组织了多项蒸馏任务,以验证所提方法的...  相似文献   

11.
兰红  何璠  张蒲芬 《计算机应用研究》2021,38(12):3791-3795,3825
针对现有骨架动作识别主要采用双流框架,在提取时间空间以及通道特征方法上存在的问题,提出一个ADGCN,用于骨架动作识别.首先对骨架数据进行建模,分别将关节、骨骼及其关节和骨骼的运动信息输入到多流框架的单个流.然后将输入的数据传送到提出的有向图卷积网络中进行提取关节和骨骼之间的依赖关系,再利用提出的时空通道注意力网络(STCN),增强每层网络中关键关节的时间、空间以及通道的信息.最后将四个流的信息通过加权平均计算动作识别的精度,输出动作的预测结果.此模型在两个大型数据集NTU-RGB+D和Kinectics-Skeleton中进行训练和验证,验证的结果与基线方法DGNN(有向图神经网络)相比,在NTU-RGB+D数据集上,在两个交叉子集CS和CV上的准确率分别提升了2.43%和1.2%.在Kinectics-Skeleton数据集的top1和top5上的准确率分别提升了0.7%和0.9%.提出的ADGCN可以有效地增强骨架动作识别的性能,在两个大型数据集上的效果都有所提升.  相似文献   

12.
在手势识别研究过程中,人工选取特征难以适应手势的多变性。提出了一种结合肤色模型和卷积神经网络的手势识别方法,对采集的不同背景下的手势图像,首先用肤色高斯模型分割出手势区域,然后采用卷积神经网络建立手势的识别模型,该模型融合了手势特征提取和分类过程,模拟视觉传导和认知,有效避免了人工特征提取的主观性和局限性。识别模型以手势区域的灰度信息为输入,同时利用权值共享和池化等技术减少网络权值个数,降低了模型的复杂度。实验结果表明,卷积神经网络(CNN)方法能够有效进行特征学习,在不同数据集下对手势的平均识别率都达到95%以上,与传统方法进行对比实验,表明该方法具有较高的识别率和实时性。  相似文献   

13.
以卷积神经网络为代表的深度学习技术推动神经网络在医学图像研究领域不断实现新突破。然而,平移不变性等理论假设限制了卷积神经网络在非欧氏空间数据中的表达能力,是医学图像深度学习技术亟待突破的瓶颈。图卷积技术不仅能够解决非欧氏空间数据的拓扑建模难题,还实现了空间特征提取,是深度学习技术全新的研究方向。本文对图卷积网络在医学图像领域的相关理论及其应用进行综述,旨在系统归纳和全面总结医学图像领域最新的图卷积理论、方法和实践,包括图结构视角下医学图像的专业采集、数据结构的剪枝转换以及特征聚类重构方法;图卷积网络的理论溯源,重要的网络架构和发展脉络;图卷积网络的优化方向和衍生出的跳跃连接、inception、图注意力等重要机制;图卷积网络在医学图像分割、疾病检测和图像重建等方面的实践应用。最后,提出了图卷积网络在医学图像分析领域仍亟待突破的瓶颈问题:1)多模态医学图像学习中,异构图的构建与学习任务的优化;2)特征重构和池化过程中,如何通过构图算法设计与神经架构搜索算法结合,以实现最优图结构的可学习过程转换;3)高质量图结构医学标注数据的大规模低成本生成与生成对抗网络的算法设计。随着人工智能技术的不断发展和医学影像规模的不断扩大,以图卷积为代表的深度学习方法必将在医疗辅助诊断领域取得更大的突破。  相似文献   

14.
针对如何在保持低参数量和低计算量前提下构建高性能模型的问题,提出一种轻量级多信息图卷积神经网络(LMI-GCN)。LMI-GCN通过将关节坐标、关节速度、骨骼边、骨骼边速度四种不同信息编码至高维空间的方式进行信息融合,并引入可以聚合重要特征的多通道自适应图和分流时间卷积块以减少模型参数量。同时,提出一种随机池数据预处理方法。在NTU-RGB+D120数据集上与基线方法SGN(语义引导神经网络)相比,在两种评估设置cross-subject和cross-setup上提高5.4%和4.7%。实验结果表明,LMI-GCN性能高于SGN。  相似文献   

15.
多模态对话情绪识别是一项根据对话中话语的文本、语音、图像模态预测其情绪类别的任务。针对现有研究主要关注话语上下文的多模态特征提取和融合,而没有充分考虑每个说话人情绪特征利用的问题,提出一种基于一致性图卷积网络的多模态对话情绪识别模型。该模型首先构建了多模态特征学习和融合的图卷积网络,获得每条话语的上下文特征;在此基础上,以说话人在完整对话中的平均特征为一致性约束,使模型学习到更合理的话语特征,从而提高预测情绪类别的性能。在两个基准数据集IEMOCAP和MELD上与其他基线模型进行了比较,结果表明所提模型优于其他模型。此外,还通过消融实验验证了一致性约束和模型其他组成部分的有效性。  相似文献   

16.
零次学习(ZSL)是迁移学习在图像识别领域一个重要的分支。其主要的学习方法是在不使用未见类 的情况下,通过训练可见类语义属性和视觉属性映射关系来对未见类样本进行识别,是当前图像识别领域的热点。 现有的 ZSL 模型存在语义属性和视觉属性的信息不对称,语义信息不能很好地描述视觉信息,从而出现了领域漂 移问题。未见类语义属性到视觉属性合成过程中部分视觉特征信息未被合成,影响了识别准确率。为了解决未见 类语义特征缺失和未见类视觉特征匹配合成问题,本文设计了属性语义与图谱语义融合增强的 ZSL 模型实现 ZSL 效果的提升。该模型学习过程中使用知识图谱关联视觉特征,同时考虑样本之间的属性联系,对可见类样本和未 见类样本语义信息进行了增强,采用对抗式的学习过程加强视觉特征的合成。该方法在 4 个典型的数据集上实验 表现出了较好的实验效果,模型也可以合成较为细致的视觉特征,优于目前已有的 ZSL 方法。  相似文献   

17.
目的 超分辨率技术在实际生活中具有较为广泛的应用。经典的基于卷积神经网络的超分辨率(SRCNN)方法存在重建图像纹理结构模糊以及网络模型训练收敛过慢等问题。针对这两个问题,在SRCNN的基础上,提出一种多通道卷积的图像超分辨率(MCSR)算法。方法 通过增加残差链接,选择MSRA初始化方法对网络权值进行初始化,加快模型收敛;引入多通道映射提取更加丰富的特征,使用多层3×3等小卷积核代替单层9×9等大卷积核,更加有效地利用特征,增强模型的超分辨率重构效果。结果 MCSR迭代4×106次即可收敛,在Set5与Set14数据集上边长放大3倍后的平均峰值信噪比分别是32.84 dB和29.28 dB,与SRCNN相比提升显著。结论 MCSR收敛速度更快,并且可以生成轮廓清晰的高分辨率图像,超分辨率效果更加优秀。  相似文献   

18.
重点研究了视频中的人体行为识别问题,提出了基于多时域划分的深度聚合特征的行为识别算法。通过多时间划分的采样形式,丰富行为深度特征的多样性,并引入多聚合中心,量化深度特征与聚合中心的残差关系,进而形成人体行为的结构化建模方法,构建可以学习复杂行为特征分布的深度聚合模型,解决时间跨度较长时的人体行为分类问题。通过在开源行为数据集UCF101与HMDB51上的实验,验证了算法的有效性和先进性。  相似文献   

19.
针对传统人工提取专家特征来进行通信信号识别的方法存在局限性大、低信噪比下准确率低的问题,提出一种复基带信号与卷积神经网络自动调制识别相结合的新方法。该方法将接收到的信号进行预处理,得到包含同相分量和正交分量的复基带信号,该信号作为输入卷积神经网络模型的数据集,通过多次训练调整模型结构以及卷积核、步长、特征图和激活函数等超参数,利用训练好的模型对通信信号进行特征提取和识别。实现了对2FSK、4FSK、BPSK、8PSK、QPSK、QAM16和QAM64 七种数字通信信号类型的识别分类。实验结果表明,当信噪比为0dB时,七种信号的平均识别准确率已达94.61%,验证了算法是有效的且在低信噪比条件下有较高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号