首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 634 毫秒
1.
人体行为识别是计算机视觉中最具吸引力和实践性的研究领域之一,近年来,双流卷积神经网络因其可以同时捕获行为的空间信息和运动信息来进行人体行为的识别而越发的流行。然而,现有的基于双流卷积神经网络的行为识别方法的卷积方式无法全面的捕获相邻光流帧之间的运动信息和边缘的表观信息。为了解决这一问题,提出了一种利用全局特征金字塔和空间注意模块的来识别人类行为的双流网络结构。首先,在时间流提出了一个主要由卷积编码器和全局多头自注意(global multi-head self attention,GMSA)机制组成的全局特征金字塔结构.较小的卷积核在早期阶段捕获低维度特性,而较大的卷积核在卷积编码器后捕获其高维特性。而全局多头注意力则捕获全局的运动信息。其次,设计了一个空间注意模块。通过使用平均池化操作来聚合特征映射的空间信息来生成一维映射来表示空间上的平均合并特征,然后经过3*3的卷积核进行卷积来对RGB图像的边缘表观信息进行提取。最后,利用长短期记忆(long short-term memory, LSTM)来提取密集光流中的时间序列信息。在数据集UCF101、HMDB51上进行实验,实验表明,与...  相似文献   

2.
《现代电子技术》2019,(19):37-40
为了更好地获取视频中连续帧之间的时间信息,提出一种新颖的双流卷积网络结构用于视频的人体行为识别。该网络在不改变双流卷积中空间流结构的情况下,在时间流的卷积模型中加入长短时记忆(LSTM)网络,并且时间流的训练相较于以往的双流卷积架构采用端对端的训练方式。同时在新的网络结构上尝试使用组合误差函数来获得更好的光流信息。在KTH和UCF101两个通用人体行为视频数据集上进行实验,实验结果证明,提出的使用组合误差函数结合LSTM的双流卷积与普通的双流卷积、使用以往误差函数结合LSTM的双流卷积相比,识别率有明显的提高。  相似文献   

3.
相较于图像分析,如何分析时序信息是动作识别中的一个主要问题.大多数先前的方法,如3D卷积网络、双流卷积网络,仅使用包含全局时域信息的特征作为视频的表征,忽略了局部时序特征的重要性.考虑到这样的问题,本文提出一种基于时序交互感知模块的长短时序关注网络——Long and Short Sequence Concerned Networks(LSCN),融合不同的时序信息,利用不同卷积层时序特征的交互加强对不同时序长度的动作实例的表示,兼顾长短动作实例对时序信息的需求.实验结果表明,基于3D ResNext101的LSCN在两个公共数据集(UCF101和HMDB51)上,相较于基础的网络分别有0.4%和2.9%的准确率提升.  相似文献   

4.
康书宁  张良 《信号处理》2020,36(11):1897-1905
基于深度学习的人体动作识别近几年取得了良好的识别效果,尤其是二维卷积神经网络可以较充分的学习人体动作的空间特征,但在捕获长时间的运动信息上仍存在问题。针对此问题,提出了基于语义特征立方体切片的人体动作识别模型来联合地学习动作的表观和运动特征。该模型在时序分割网络(Temporal Segment Networks,TSN)的基础上,选取InceptionV4作为骨干网络提取人体动作的表观特征,将得到的三维特征图立方体分为二维的空间上和时间上的特征图切片。另外设计一个时空特征融合模块协同的学习多维度切片的权重分配,从而得到人体动作的时空特征,由此实现了网络的端到端训练。与TSN模型相比,该模型在UCF101和 HMDB51数据集上的准确率均有所提升。实验结果表明,该模型在不显著增加网络参数量的前提下,能够捕获更丰富的运动信息,使人体动作的识别结果提高。   相似文献   

5.
刘强  张文英  陈恩庆 《信号处理》2020,36(9):1422-1428
人体动作识别在人机交互、视频内容检索等领域有众多应用,是多媒体信息处理的重要研究方向。现有的大多数基于双流网络进行动作识别的方法都是在双流上使用相同的卷积网络去处理RGB与光流数据,缺乏对多模态信息的利用,容易造成网络冗余和相似性动作误判问题。近年来,深度视频也越来越多地用于动作识别,但是大多数方法只关注了深度视频中动作的空间信息,没有利用时间信息。为了解决这些问题,本文提出一种基于异构多流网络的多模态动作识别方法。该方法首先从深度视频中获取动作的时间特征表示,即深度光流数据,然后选择合适的异构网络来进行动作的时空特征提取与分类,最后对RGB数据、RGB中提取的光流、深度视频和深度光流识别结果进行多模态融合。通过在国际通用的大型动作识别数据集NTU RGB+D上进行的实验表明,所提方法的识别性能要优于现有较先进方法的性能。   相似文献   

6.
针对动作特征在卷积神经网络模型传输时的损失问题以及网络模型过拟合的问题,该文提出一种跨层融合模型和多个模型投票的动作识别方法。在预处理阶段,借助排序池化的方法聚集视频中的运动信息,生成近似动态图像。在全连接层前设置对特征信息进行水平翻转结构,构成无融合模型。在无融合模型的基础上添加第2层的输出特征与第5层的输出特征融合结构,构造成跨层融合模型。训练时,对无融合模型和跨层融合模型两种基本模型采用3种数据划分方式以及两种生成近似动态图像顺序进行训练,得到多个不同的分类器。测试时使用多个分类器进行预测,对它们得到的结果进行投票集成,作为最终分类结果。在UCF101数据集上,提出的无融合模型和跨层融合模型的识别方法与动态图像网络模型的方法相比,识别率有较大提高;多模型投票的识别方法能有效缓解模型的过拟合现象,增加算法的鲁棒性,得到更好的平均性能。  相似文献   

7.
张昱彤  翟旭平  聂宏 《红外技术》2022,44(3):286-293
近年来动作识别成为计算机视觉领域的研究热点,不同于针对视频图像进行的研究,本文针对低分辨率红外传感器采集到的温度数据,提出了一种基于此类红外传感器的双流卷积神经网络动作识别方法.空间和时间数据分别以原始温度值的形式同时输入改进的双流卷积神经网络中,最终将空间流网络和时间流网络的概率矢量进行加权融合,得到最终的动作类别....  相似文献   

8.
《现代电子技术》2020,(4):137-141
针对RGB视频中遮挡物以及其他外界因素对人体动作识别产生影响,以及识别精确度有待提升的问题,提出基于双流独立循环神经网络人体动作识别算法。在提取特征方面,时间网络采用分层IndRNN对时序中3D骨架坐标信息进行特征提取;空间网络采用深层的IndRNN对每个时刻骨架的空间位置关系进行特征提取,其中骨架的空间结构采用了图遍历的方法。对于空间网络和时间网络的特征融合采用加权求和的方式,最后用softmax对动作进行分类。在3D骨架动作数据集(NTU RGB+D)以及交互数据集(SBU Interaction Dataset)上验证了模型的有效性。  相似文献   

9.
针对地铁站特定场合下,人体异常行为识别无法有效利用帧间运动时间维度信息,导致人体异常行为识别准确率不高的问题,提出一种深层次残差长短期双流网络结构。将RGB帧和连续光流帧作为双流网络的输入,分别利用ResNet34提取低层特征信息,空间流网络提取运动外观特征信息,时间流网络提取光流运动信息,然后将特征信息输入长短期记忆(LSTM)网络,有效学习空间外观和光流运动的帧间关联时间信息,并且通过多种加权融合策略加强模型识别效果。最后在地铁站异常行为数据集上验证提出的网络结构,并与原双流网络进行对比,改进后的网络识别准确率提高了4.7%,融合后的模型准确率提高了12.9%。实验结果表明,所提方法能够充分利用时间维度信息,可有效提高异常行为识别准确率,在昏暗环境下仍有较好的识别效果。  相似文献   

10.
针对大部分行为识别算法效率较低,难以应对大规模影像识别任务的问题,一方面,提出一种结合双流结构与多纤维网络的双流多纤维网络模型,分别以RGB序列、光流序列为输入提取视频的时空信息,然后将两条支路网络的识别结果进行决策相加,提高了对战场目标聚集行为的检测效率与识别准确率;另一方面,提出一种结合分离卷积思想与多纤维网络的双流分离卷积多纤维网络模型,进一步提高网络检测效率与抗过拟合能力。实验表明,在建立的情报影像仿真数据集中,上述算法能够有效识别出战场目标聚集行为,在大幅提升检测效率同时实现了识别准确率的提升。  相似文献   

11.
针对骨架行为识别对时空特征提取不充分以及难以捕捉全局上下文信息的问题,研究了一种将时空注意力机制和自适应图卷积网络相结合的人体骨架行为识别方案。首先,构建基于非局部操作的时空注意力模块,辅助模型关注骨架序列中最具判别性的帧和区域;其次,利用高斯嵌入函数和轻量级卷积神经网络的特征学习能力,并考虑人体先验知识在不同时期的影响,构建自适应图卷积网络;最后,将自适应图卷积网络作为基本框架,并嵌入时空注意力模块,与关节信息、骨骼信息以及各自的运动信息构建双流融合模型。该算法在NTU RGB+D数据集的两种评价标准下分别达到了90.2%和96.2%的准确率,在大规模的数据集Kinetics上体现出模型的通用性,验证了该算法在提取时空特征和捕捉全局上下文信息上的优越性。   相似文献   

12.
In video-based action recognition, using videos with different frame numbers to train a two-stream network can result in data skew problems. Moreover, extracting the key frames from a video is crucial for improving the training and recognition efficiency of action recognition systems. However, previous works suffer from problems of information loss and optical-flow interference when handling videos with different frame numbers. In this paper, an augmented two-stream network (ATSNet) is proposed to achieve robust action recognition. A frame-number-unified strategy is first incorporated into the temporal stream network to unify the frame numbers of videos. Subsequently, the grayscale statistics of the optical-flow images are extracted to filter out any invalid optical-flow images and produce the dynamic fusion weights for the two branch networks to adapt to different action videos. Experiments conducted on the UCF101 dataset demonstrate that ATSNet outperforms previously defined methods, improving the recognition accuracy by 1.13%.  相似文献   

13.
In this paper, we propose a strong two-stream point cloud sequence network VirtualActionNet for 3D human action recognition. In the data preprocessing stage, we transform the depth sequence into a point cloud sequence as the input of our VirtualActionNet. In order to encode intra-frame appearance structures, static point cloud technologies are first employed as a virtual action generation sequence module to abstract the point cloud sequence into a virtual action sequence. Then, a two-stream network framework is presented to model the virtual action sequence. Specifically, we design an appearance stream module for aggregating all the appearance information preserved in each virtual action frame. Moreover, a motion stream module is introduced to capture dynamic changes along the time dimension. Finally, a joint loss strategy is adopted during data training to improve the action prediction accuracy of the two-stream network. Extensive experiments on three publicly available datasets demonstrate the effectiveness of the proposed VirtualActionNet.  相似文献   

14.
本文提出了一种基于双流特征融合的FMCW雷达人体连续动作识别方法。首先对人体动作雷达回波信号进行预处理得到距离时间域图与微多普勒时频谱图,之后分别对两个不同维度的图像进行主成分分析提取对应特征并选取相同时间段的主成分分析结果进行融合得到双流融合特征,最后将双流融合特征输入到Bi-LSTM网络中训练与测试,网络对每个时间段的输入特征产生与之对应的动作类别输出从而实现连续人体动作识别。实验结果表明,当采用双流融合特征作为Bi-LSTM网络的输入时平均识别准确率要高于只采用距离时间特征或微多普勒特征作为网络输入时的平均识别准确率。  相似文献   

15.
Action recognition in video is one of the most important and challenging tasks in computer vision. How to efficiently combine the spatial-temporal information to represent video plays a crucial role for action recognition. In this paper, a recurrent hybrid network architecture is designed for action recognition by fusing multi-source features: a two-stream CNNs for learning semantic features, a two-stream single-layer LSTM for learning long-term temporal feature, and an Improved Dense Trajectories (IDT) stream for learning short-term temporal motion feature. In order to mitigate the overfitting issue on small-scale dataset, a video data augmentation method is used to increase the amount of training data, as well as a two-step training strategy is adopted to train our recurrent hybrid network. Experiment results on two challenging datasets UCF-101 and HMDB-51 demonstrate that the proposed method can reach the state-of-the-art performance.  相似文献   

16.
任克强  胡慧 《液晶与显示》2019,34(1):110-117
针对角度Softmax损失强约束存在的问题,提出一种用角度空间三元组损失对角度Softmax损失预训练模型进行微调的算法。算法首先对原来的卷积神经网络结构进行改进,将1×1卷积核与池化层加在不同残差块间,以进行选择更有效的特征。然后用角度空间下的三元组损失对预训练模型进行微调,以降低困难样本的强约束条件。最后在测试时,分别提取原始人脸图像特征和水平翻转的人脸图像特征,对两个特征相加作为最终的人脸特征表达,以丰富人脸特征信息,提高识别率。实验结果表明,在LFW和YTF人脸数据集分别取得了99.25%和94.52%的识别率,在大规模人脸身份识别中,本文提出的方法在仅用单模型和比较小的训练集就能有效地提高人脸识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号