首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
视频行为识别近年来逐渐成为计算机视觉领域学者的研究热点,按照识别对象进行划分,视频行为识别任务可分为个体行为识别与群体行为识别.本文聚焦于群体行为识别,识别与分析视频场景中整体人群的行为,已有的群体行为识别方法大多采用多层时序网络模型,学习得到表征时序变化的个体行为特征并对其进行聚合形成群体行为特征,但是,在个体特征聚...  相似文献   

2.
群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在共同完成的群体行为.群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中.多人场景视频较为复杂,时间和空间上的信息十分丰富,对模型提取关键信息的能力要求更高.模型只有高效地建模场景中的层次化关系,并为人物群体提取有区分性的时空特征,才能准确地识别出群体行为.由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注.对近几年来群体行为识别问题上的大量研究工作进行了深入分析,总结出了群体行为识别研究所面临的主要挑战,系统地归纳出了6种类型的群体行为识别方法,包含传统非深度学习识别方法以及基于深度学习技术的识别方法,并对未来研究的可能方向进行了展望.  相似文献   

3.
姚足  龚勋  陈锐  卢奇  罗彬 《自动化学报》2021,47(12):2742-2760
行人重识别(Person re-identification, Re-ID)旨在跨区域、跨场景的视频中实现行人的检索及跟踪, 其成果在智能监控、刑事侦查、反恐防暴等领域具有广阔的应用前景. 由于真实场景下的行人图像存在光照差异大、拍摄视角不统一、物体遮挡等问题, 导致从图像整体提取的全局特征易受无关因素的干扰, 识别精度不高. 基于局部特征的方法通过挖掘行人姿态、人体部位、视角特征等关键信息, 可加强模型对人体关键区域的学习, 降低无关因素的干扰, 从而克服全局特征的缺陷, 也因此成为近几年的研究热点. 本文对近年基于局部特征的行人重识别文献进行梳理, 简述了行人重识别的发展历程, 将基于局部特征的方法归纳为基于姿势提取、基于特征空间分割、基于视角信息、基于注意力机制四类, 并详细阐述了每一类的原理及优缺点. 然后在三个主流行人数据集上对典型方法的识别性能进行了分析比较, 最后总结了目前基于局部特征算法的难点, 并对未来本领域的研究趋势和发展方向进行展望.  相似文献   

4.
群体行为识别是计算机视觉领域应用广泛且亟待解决的重要研究问题.伴随着深度神经网络的发展,群体行为识别与理解的宽度与深度也在不断扩展.通过调研近十年来群体行为识别的研究文献,确定了目前群体行为识别研究的问题定义;指出了群体行为识别研究现存的问题与挑战;在深度学习网络架构下,描述了从早期仅仅对群体行为进行分类识别,到如今更...  相似文献   

5.
车辆重识别是指从不同的摄像机来重新识别出同一辆车。车辆重识别非常容易受到车辆角度以及光照等其他因素的影响,是一项非常有挑战性的任务。许多车辆重识别方法都过分关注车辆全局特征,而忽略了车辆图像的局部有分辨力的特征,造成了车辆重识别精度不高的问题。针对这一问题,本文提出一种整合非局部注意力的和多尺度特征的车辆重识别方法,使用注意力机制获取车辆显著特征,并融合多尺度特征从而提高车辆重识别的检索精度。首先,使用骨干特征提取网络与注意力模块获取车辆的显著性细粒度特征。然后,将特征分为多个分支进行度量学习,分别学习车辆的局部与全局特征,将全局特征与细粒度的局部特征融合,构建车辆重识别的特征。最后,利用该方法提取不同车辆的特征,计算不同车辆的相似度,从而判断是否具有相同的身份。实验结果表明本文提出的车辆重识别算法具有更高的精度。  相似文献   

6.
针对车辆重识别技术中难以通过全局外观特征准确识别不同车辆之间细微差异性的问题,提出一种基于局部感知的车辆重识别算法(local-aware based vehicle re-identification,LVR)。获取全局宏观特征以保留图像的上下文信息;利用空间变换网络的对齐模块对车辆图像进行分块,获取车辆局部细节信息;采用由粗到细的关键点检测方法获取局部关键点特征。在两个大型车辆数据集(即VeRi和VehicleID)上的评估结果表明,该算法具有较好的重识别效果。  相似文献   

7.
目前基于深度学习的步态识别方法大多通过叠加卷积层获取全局特征,忽略有利于细粒度分类的局部特征.针对上述问题,文中提出结合非局部与分块特征的跨视角步态识别方法.将一对步态能量图(GEI)作为输入,提取单样本的非局部信息与样本对之间的相对非局部信息.为了更好地提取局部特征,根据GEI的几何特性,将人体区域水平切分为静态块、微动态块和强动态块,连接至3个二值分类器分别进行训练.在OU-ISIR-LP和CASIA-B步态数据集上的对比实验表明,文中方法的正确识别率较高.  相似文献   

8.
群体行为的多层次深度分析是行为识别领域亟待解决的重要问题。在深度神经网络研究的基础上,提出了群体行为识别的层级性分析模型。基于调控网络的迁移学习,实现了行为群体中多人体的时序一致性检测;通过融合时空特征学习,完成了群体行为中时长无约束的个体行为识别;通过场景中个体行为类别、交互场景上下文信息的融合,实现了对群体行为稳定有效的识别。在公用数据集上进行的大量实验表明,与现有方法相比,该模型在群体行为分析识别方面具有良好的效果。  相似文献   

9.
大部分结合深度学习的行人重识别算法主要以单分支的网络结构为主,且大多利用图片的全局特征信息,这样易错失关键行人信息,导致度量学习效果、算法精度下降。因此,为使网络获取到更多的关键行人信息,减少对行人局部、细节信息的错失,加强网络对行人特征的学习。基于ResNet-50的骨干网络,采取多分支的网络结构设计,综合考虑训练难易、运算量,选择融合三个独立分支的结构设计:随机擦除分支、全局学习分支、局部学习分支,并在此基础上根据实验数据进行调整优化,最后再结合最小二乘法分配损失函数权重使模型更具鲁棒性,实验结果表明,三个分支具有互补性,使用融合分支特征做算法测试时,相比基础的单分支、多分支网络,该算法使得行人重识别精度提升。  相似文献   

10.
目前大多数基于双流卷积网络的行为识别方法采用同样的时空网络结构,双流合并时会产生大量的冗余信息,从而降低识别的精确度.对此提出一种基于双流网络的时空异构网络结构.该网络采用两种不同的时空网络结构对行为进行分类.此外,对视频序列的长时间结构采用分段形式进行建模,使整个行为视频的学习变得高效.在UCF101和HMDB51数...  相似文献   

11.
针对现有基于深度学习的人体动作识别模型参数量大、网络过深过重等问题,提出了一种轻量型的双流融合深度神经网络模型并将该模型应用于人体动作识别。该模型将浅层多尺度网络和深度网络相结合,实现了模型参数量的大幅减少,避免了网络过深的问题。在数据集UCF101和HMDB51上进行实验,该模型在ImageNet预训练模式下分别取得了94.0%和69.4%的识别准确率。实验表明,相较于现有大多基于深度学习的人体动作识别模型,该模型大幅减少了参数量,并且仍具有较高的动作识别准确率。  相似文献   

12.
针对移动用户行为识别模型中存在过度拟合导致泛化性差的问题,提出一种基于随机Dropout深度信念网络DBN(Deep Belief Network)的移动用户行为识别方法,该方法通过随机更改Dropout算法中的概率参数,减少隐层单元的网络节点数,优化每次训练的网络权值,以提高行为识别的准确率和样本较少时的泛化能力。实验结果表明,加入随机Dropout的网络对静止、散步、跑步、上楼及下楼五种行为的平均识别准确率可达94.23%,相对于传统的DBN识别方法,准确率提高了4.57%。  相似文献   

13.
重点研究了视频中的人体行为识别问题,提出了基于多时域划分的深度聚合特征的行为识别算法。通过多时间划分的采样形式,丰富行为深度特征的多样性,并引入多聚合中心,量化深度特征与聚合中心的残差关系,进而形成人体行为的结构化建模方法,构建可以学习复杂行为特征分布的深度聚合模型,解决时间跨度较长时的人体行为分类问题。通过在开源行为数据集UCF101与HMDB51上的实验,验证了算法的有效性和先进性。  相似文献   

14.
深度卷积神经网络的汽车车型识别方法   总被引:1,自引:0,他引:1  
针对现有汽车车型识别方法计算量大、提取特征复杂等问题,提出一种基于深度卷积神经网络的汽车车型识别方法。该方法借助于深度学习,对经典的卷积神经网络做出改进并得到由多个卷积层和次抽样层构成的深度卷积神经网络。根据五种车型的分类结果,表明该方法在识别率方面较传统方法有明显的提高。实验还研究了网络层数、卷积核大小、特征维数对深度卷积神经网络的性能和识别率的影响。  相似文献   

15.
Human activity recognition and deep learning are two fields that have attracted attention in recent years. The former due to its relevance in many application domains, such as ambient assisted living or health monitoring, and the latter for its recent and excellent performance achievements in different domains of application such as image and speech recognition. In this article, an extensive analysis among the most suited deep learning architectures for activity recognition is conducted to compare its performance in terms of accuracy, speed, and memory requirements. In particular, convolutional neural networks (CNN), long short-term memory networks (LSTM), bidirectional LSTM (biLSTM), gated recurrent unit networks (GRU), and deep belief networks (DBN) have been tested on a total of 10 publicly available datasets, with different sensors, sets of activities, and sampling rates. All tests have been designed under a multimodal approach to take advantage of synchronized raw sensor' signals. Results show that CNNs are efficient at capturing local temporal dependencies of activity signals, as well as at identifying correlations among sensors. Their performance in activity classification is comparable with, and in most cases better than, the performance of recurrent models. Their faster response and lower memory footprint make them the architecture of choice for wearable and IoT devices.  相似文献   

16.
With the development of deep learning, numerous models have been proposed for human activity recognition to achieve state-of-the-art recognition on wearable sensor data. Despite the improved accuracy achieved by previous deep learning models, activity recognition remains a challenge. This challenge is often attributed to the complexity of some specific activity patterns. Existing deep learning models proposed to address this have often recorded high overall recognition accuracy, while low recall and precision are often recorded on some individual activities due to the complexity of their patterns. Some existing models that have focused on tackling these issues are always bulky and complex. Since most embedded systems have resource constraints in terms of their processor, memory and battery capacity, it is paramount to propose efficient lightweight activity recognition models that require limited resources consumption, and still capable of achieving state-of-the-art recognition of activities, with high individual recall and precision. This research proposes a high performance, low footprint deep learning model with a squeeze and excitation block to address this challenge. The squeeze and excitation block consist of a global average-pooling layer and two fully connected layers, which were placed to extract the flattened features in the model, with best-fit reduction ratios in the squeeze and excitation block. The squeeze and excitation block served as channel-wise attention, which adjusted the weight of each channel to build more robust representations, which enabled our network to become more responsive to essential features while suppressing less important ones. By using the best-fit reduction ratio in the squeeze and excitation block, the parameters of the fully connected layer were reduced, which helped the model increase responsiveness to essential features. Experiments on three publicly available datasets (PAMAP2, WISDM, and UCI-HAR) showed that the proposed model outperformed existing state-of-the-art with fewer parameters and increased the recall and precision of some individual activities compared to the baseline, and the existing models.  相似文献   

17.
Action recognition is an important research topic in video analysis that remains very challenging. Effective recognition relies on learning a good representation of both spatial information (for appearance) and temporal information (for motion). These two kinds of information are highly correlated but have quite different properties, leading to unsatisfying results of both connecting independent models (e.g., CNN-LSTM) and direct unbiased co-modeling (e.g., 3DCNN). Besides, a long-lasting tradition on this task with deep learning models is to just use 8 or 16 consecutive frames as input, making it hard to extract discriminative motion features. In this work, we propose a novel network structure called ResLNet (Deep Residual LSTM network), which can take longer inputs (e.g., of 64 frames) and have convolutions collaborate with LSTM more effectively under the residual structure to learn better spatial-temporal representations than ever without the cost of extra computations with the proposed embedded variable stride convolution. The superiority of this proposal and its ablation study are shown on the three most popular benchmark datasets: Kinetics, HMDB51, and UCF101. The proposed network could be adopted for various features, such as RGB and optical flow. Due to the limitation of the computation power of our experiment equipment and the real-time requirement, the proposed network is tested on the RGB only and shows great performance.  相似文献   

18.
基于局部二值模式和深度学习的人脸识别   总被引:2,自引:0,他引:2  
张雯  王文伟 《计算机应用》2015,35(5):1474-1478
针对人脸识别中深度学习直接提取人脸特征时忽略了其局部结构特征的问题,提出一种将分块局部二值模式(LBP)与深度学习相结合的人脸识别方法.首先,将人脸图像分块,利用均匀LBP算子分别提取图像各局部的LBP直方图特征,再按照顺序连接在一起形成整个人脸的LBP纹理特征; 其次,将得到的LBP特征作为深度信念网络(DBN)的输入,逐层训练网络,并在顶层形成分类面; 最后,用训练好的深度信念网络对人脸样本进行识别.在ORL、YALE和FERET人脸库上的实验结果表明,所提算法与采用支持向量机(SVM)的方法相比,在小样本的人脸识别中有很好的识别效果.  相似文献   

19.
为了梳理深度学习方法在人体动作识别领域的发展脉络,对该领域近年来最具代表性的模型和算法进行了综述。以人体动作识别任务流程为线索,详细阐述了深度学习方法在视频预处理阶段、网络结构上的最新成果及其优缺点。介绍了人体动作识别相关的两类数据集,并选取常用的几种进行具体说明。最后,对人体动作识别未来的研究方向进行了探讨与展望。  相似文献   

20.
针对人体动作深度视频的四维信息映射到二维空间后,动作分类容易发生混淆的问题,提出一种基于深度学习的人体动作识别方法。首先构建空间结构动态深度图,将深度视频的四维信息映射到二维空间,进行信息降维处理;然后提出基于联合代价函数的深度卷积神经网络,结合交叉熵损失函数与中心损失函数作为联合代价函数,指导卷积层学习到更具分辨力的深度特征,以进行更精确的分类。在MSRDailyActivity3D和SYSU 3D HOI两个数据集的实验结果表明,与现有方法相比,该方法识别率得到了较明显的提升,验证了其有效性和鲁棒性。该方法较好地解决了动作分类容易发生混淆的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号