首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 90 毫秒
1.
行为识别是当今计算机视觉领域的一个研究热点,是一项具有挑战性的任务.行为识别分析与其网络输入数据类型、网络结构、特征融合环节具有密切联系.目前,主流的行为识别网络输入数据为RGB图像和光流图像,网络结构主要以双流和3D卷积为主;而特征选择直接影响到识别的效率,多层次的特征融合工作还有很多问题有待解决.针对主流的双流卷积网络输入数据为RGB图像和光流图像的局限,利用低秩空间中稀疏特征能够有效捕捉视频中运动物体信息的特点,对网络输入数据进行补充.同时,针对网络中缺乏信息交互的特点,将深度网络中高层语义信息和低层细节信息结合起来共同识别行为动作,使时序分割网络性能更具优势.在行为识别数据集UCF101和HMDB51上取得了97.1%和76.7%的识别效果,较目前主流算法有了较大的提升.实验结果表明,该方法能够有效地提高行为识别的识别率.  相似文献   

2.
目的 时序行为识别是视频理解中最重要的任务之一,该任务需要对一段视频中的行为片段同时进行分类和回归,而视频中往往包含不同时间长度的行为片段,对持续时间较短的行为片段进行检测尤其困难。针对持续时间较短的行为片段检测问题,文中构建了3维特征金字塔层次结构以增强网络检测不同持续时长的行为片段的能力,提出了一种提案网络后接分类器的两阶段新型网络。方法 网络以 RGB 连续帧作为输入,经过特征金字塔结构产生不同分辨率和抽象程度的特征图,这些不同级别的特征图主要在网络的后两个阶段发挥作用:1)在提案阶段结合锚方法,使得不同时间长度的锚段具有与之对应的不同大小的感受野,锚段的初次预测将更加准确;2)在感兴趣区域池化阶段,不同的提案片段映射给对应级别特征图进行预测,平衡了分类和回归对特征图抽象度和分辨率的需求。结果 在THUMOS Challenge 2014数据集上对模型进行测试,在与没有使用光流特征的其他典型方法进行比较时,本文模型在不同交并比阈值上超过了对比方法3%以上,按类别比较时,对持续时间较短的行为片段检测准确率则普遍得到提升。消融性实验中,在交并比阈值为0.5时,带特征金字塔结构的网络则超过使用普通特征提取网络的模型1.8%。结论 本文提出的基于3维特征金字塔特征提取结构的双阶段时序行为模型能有效提升对持续时间较短的行为片段的检测准确率。  相似文献   

3.
4.
为解决现有人体行为识别方法不能有效融合视频局部特征的问题,提高行为识别的准确率,对视频的一般特点进行分析,提出一种时序激励机制。以BN-Inception作为基础模型分别提取RGB图像序列与光流图像序列的特征,在模型中嵌入时许激励模块实现对视频局部特征序列的动态加权,突出局部特征序列中对行为识别有益的特征的作用,使融合得到的全局特征更具鉴别力。在数据集HMDB51和自建的油田生产现场行为识别数据集OilField-7上进行实验,准确率分别可达71.6%和92.8%,验证了所提方法的有效性。  相似文献   

5.
针对人体行为最重要的motion特征,提出了基于时间上下文的二级递推异常行为识别方法.不同于传统深度学习的训练方法,本文方法不是直接从图像数据中学习特征,而是把提取的形状信息HOG特征作为训练输入.首先提取基于HOG算法的图像形状特征,采用提取到的特征训练DBN网络.其次利用已经训练好的DBN网络和Softmax分类器识别出人体粗目标区,然后根据粗目标区域的时序上下文信息,计算质心加速度.最后判断加速度的阈值,识别出异常行为的精目标区.本文将粗细目标结合的二级递推方法应用到课堂行为识别中,通过实验结果表明,该方法在运动模糊和目标密集遮挡的场景下都能较好地识别出课堂行为,识别率相比其他方法有较大提升.课堂异常行为数据分析,可在课堂动态管理和学习效果评估等方面发挥辅助作用.  相似文献   

6.
目前人体行为识别是视频分析领域的研究热点,准确有效的人体行为识别的关键是动作时序建模和特征表示。该文归纳了人体行为识别常用的数据集,对人体行为识别表示方法进行了全面的回顾,并介绍了人体行为识别研究的最新方法,包括RGB和深度数据中手工设计的动作特征的进展,基于深度学习的时序表示方法的最新进展及当前研究的热点。最后总结了目前待解决的问题,对未来行为识别可能的发展方向进行了论述。  相似文献   

7.
针对实际环境噪声下的手机来源识别问题,提出一种基于线性判别分析和时序卷积网络的手机来源识别方法.首先,通过分析不同手机语音特征在实际环境噪声下的分类性能,基于带能量描述符、常数Q变换域和线性判别分析得到一种新的手机语音混合特征.然后,以此混合特征为输入,基于时序卷积网络进行训练和分类.最后,在10个品牌、47种手机型号...  相似文献   

8.
倪苒岩  张轶 《计算机应用》2023,43(2):521-528
针对双流网络提取运动信息需要预先计算光流图,从而无法实现端到端的识别以及三维卷积网络参数量巨大的问题,提出了一种基于视频时空特征的行为识别方法。该方法能够高效提取视频中的时空信息,且无需添加任何光流计算和三维卷积操作。首先,利用基于注意力机制的运动信息提取模块捕获相邻两帧之间的运动位移信息,从而模拟双流网络中光流图的作用;其次,提出了一种解耦的时空信息提取模块代替三维卷积,从而实现时空信息的编码;最后,在将两个模块嵌入二维的残差网络中后,完成端到端的行为识别。将所提方法在几个主流的行为识别数据集上进行实验,结果表明在仅使用RGB视频帧作为输入的情况下,在UCF101、HMDB51、Something-Something-V1数据集上的识别准确率分别为96.5%、73.1%和46.6%,与使用双流结构的时间分段网络(TSN)方法相比,在UCF101数据集上的识别准确率提高了2.5个百分点。可见,所提方法能够高效提取视频中的时空特征。  相似文献   

9.
在视频人体行为识别研究中三维卷积神经网络和双流卷积神经网络均存在不足.针对此种情况,文中提出结合双流网络架构和三维网络架构的复合型深度神经网络.在双流架构的时间流子网络和空间流子网络部分均采用改进的R(2+1)D卷积神经网络,分别从视频的RGB图像序列和光流图像序列中学习行为表示和分类方法,并融合时间流子网络、空间流子网络的分类结果.进一步地,在网络训练过程中,提出基于梯度中心化算法改进的带动量的随机梯度下降算法,在不改变网络结构的情况下提高网络的泛化性能.实验表明,文中网络在UCF101、HMDB51数据集上均获得较高的识别精度.  相似文献   

10.
目的 视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题。针对这些难点,提出了一种多特征融合的行为识别模型。方法 首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息。其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符——3D ConvNets (3D convolutional neural networks)结构。然后,采用BiConvLSTM (bidirectional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题。最后,利用Softmax最大化似然函数分类行为动作。结果 为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计。结果表明,本文算法在两个验证集上的平均准确率分别为96.47%和80.03%。结论 通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点。  相似文献   

11.
针对3D人体骨架序列动作识别这一问题,提出了一种结合了局部特征融合的时间卷积网络方法.首先,对一个动作中整个骨架序列的所有关节点的空间位置变化进行建模,提取其骨架序列的全局空间特征;然后,根据人体关节点及连接关系的拓扑结构将全局空间特征划分为人体局部空间特征,并将得到的局部空间特征分别作为对应TCN的输入,进而学习各关节内部的特征关系;最后,对输出的各部分特征向量进行融合,学习各部分关节之间的协作关系,从而完成对动作的识别.运用该方法在当前最具挑战性的数据集NTU-RGB+D进行了分类识别实验,结果表明,与已有的基于CNN,LSTM以及TCN的方法相比,其在对象交叉(cross-subject)和视图交叉(cross-view)的分类准确率上分别提高到了79.5%和84.6%.  相似文献   

12.
视频行为识别是图像和视觉领域的一个基础问题,在基于深度学习的行为识别模型中,2D卷积方法模型参数较少,但是准确率不高;3D卷积方法在一定程度上提高了准确率,但会产生较多的参数和计算量。为了在保持准确率的前提下降低3D卷积神经网络行为识别模型的参数量,减少计算资源消耗,提出了时域零填充卷积网络行为识别算法,对视频进行3D卷积时不在时间维度上填充额外数据,以此来保证时域信息的完整性。为了充分利用有限的时间信息,设计了适合此填充方式的网络结构:先以时域不填充的方式使用3D卷积提取时空信息,然后利网络重组结构将3D卷积变为2D卷积来进一步提取特征。实验表明,该网络的参数量为10.385×106,不使用预训练权重的情况下在UCF101数据集上准确率为60.28%,与其他3D卷积网络行为识别方法相比在资源占用和准确率上都有明显优势。  相似文献   

13.
Journal of Computer Science and Technology - With the growing popularity of somatosensory interaction devices, human action recognition is becoming attractive in many application scenarios....  相似文献   

14.
为了高效、准确地获得视频中的行为类别和运动信息,减少计算的复杂度,文中提出一种融合特征传播和时域分割网络的视频行为识别算法.首先将视频分为3个小片段,分别从相应片段中提取关键帧,从而实现对长时间视频的建模;然后设计一个包含特征传播表观信息流和FlowNet运动信息流的改进时域分割网络(P-TSN),分别以RGB关键帧、RGB非关键帧、光流图为输入提取视频的表观信息流和运动信息流;最后将改进时域分割网络的BN-Inception描述子进行平均加权融合后送入Softmax层进行行为识别.在UCF101和HMDB51这2个数据集上分别取得了94.6%和69.4%的识别准确率,表明该算法能够有效地获得视频中空域表观信息和时域运动信息,提高了视频行为识别的准确率.  相似文献   

15.
基于深度学习的行为识别算法往往由于复杂的网络设计而难以在实际应用中达到快速、准确的识别效果.针对以上情况,提出一种轻量型的基于时移和片组注意力融合的端到端双流神经网络模型.算法在RGB与光流分支网络中,采用时间稀疏分组随机采样策略实现长时程建模,利用时移模块在时间维度上置换部分通道从而结合邻帧信息来提升时序表征能力,同...  相似文献   

16.
基于多阶信息融合的行为识别方法研究   总被引:2,自引:0,他引:2  
双流卷积神经网络能够获取视频局部空间和时间特征的一阶统计信息, 测试阶段将多个视频局部特征的分类器分数平均作为最终的预测. 但是, 一阶统计信息不能充分建模空间和时间特征分布, 测试阶段也未考虑使用多个视频局部特征之间的更高阶统计信息. 针对这两个问题, 本文提出一种基于二阶聚合的视频多阶信息融合方法. 首先, 通过建立二阶双流模型得到视频局部特征的二阶统计信息, 与一阶统计信息形成多阶信息. 其次, 将基于多阶信息的视频局部特征分别进行二阶聚合, 形成高阶视频全局表达. 最后, 采用两种策略融合该表达. 实验表明, 本文方法能够有效提高行为识别精度, 在HMDB51和UCF101数据集上的识别准确率比双流卷积神经网络分别提升了8 % 和2.1 %, 融合改进的密集点轨迹(Improved dense trajectory, IDT) 特征之后, 其性能进一步提升.  相似文献   

17.
人体动作识别是视频理解领域的重要课题之一,在视频监控、人机交互、运动分析、视频信息检索等方面有着广泛的应用.根据骨干网络的特点,从2D卷积神经网络、3D卷积神经网络、时空分解网络三个角度介绍了动作识别领域的最新研究成果,并对三类方法的优缺点进行了定性的分析和比较.然后,从场景相关和时间相关两方面,全面归纳了常用的动作视...  相似文献   

18.
与传统的基于RGB视频的行为识别任务相比,基于人体骨架的行为识别方法由于其具有受光照、视角和背景复杂度等诸多因素影响非常小的特点,使其成为近几年来计算机视觉领域的主要研究方向之一.但是目前主流的基于人体骨架的行为识别方法都或多或少地存在参数量过大,运算时间过长,计算复杂度过高等问题,从而导致这些方法难以同时满足时效性和...  相似文献   

19.
以对比语言−图像预训练(Contrastive language-image pre-training, CLIP)模型为基础, 提出一种面向视频行为识别的多模态模型, 该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展, 可更好地学习多模态视频表达. 具体地, 在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM), 首先, 由视频采样帧的类别分词做线性变换得到虚拟帧分词; 然后, 对其进行基于时序卷积和虚拟帧分词移位的时序建模操作, 有效建模视频中的时空变化信息; 最后, 在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module, VPM), 通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达. 在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果, 验证了该多模态模型的有效性和泛化性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号