首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
针对课堂教学场景遮挡严重、学生众多,以及目前的视频行为识别算法并不适用于课堂教学场景,且尚无学生课堂行为的公开数据集的问题,构建了课堂教学视频库以及学生课堂行为库,提出了基于深度时空残差卷积神经网络的课堂教学视频中实时多人学生课堂行为识别算法.首先,结合实时目标检测和跟踪,得到每个学生的实时图片流;接着,利用深度时空残...  相似文献   

2.
针对非可控环境下人脸表情识别面临的诸如种族、性别和年龄等因子变化问题,提出一种基于深度条件随机森林的鲁棒性人脸表情识别方法.与传统的单任务人脸表情识别方法不同,设计了一种以人脸表情识别为主,人脸性别和年龄属性识别为辅的多任务识别模型.在研究中发现,人脸性别和年龄等属性对人脸表情识别有一定的影响,为了捕获它们之间的关系,提出一种基于人脸性别和年龄双属性的深度条件随机森林人脸表情识别方法.在特征提取阶段,采用多示例注意力机制进行人脸特征提取以便去除诸如光照、遮挡和低分辨率等变化问题;在人脸表情识别阶段,根据人脸性别和年龄双属性因子,采用多条件随机森林方法进行人脸表情识别.在公开的CK+,ExpW,RAF-DB,AffectNet人脸表情数据库上进行了大量实验:在经典的CK+人脸库上达到99%识别率,在具有挑战性的自然场景库(ExpW,RAF-DB,AffectNet组合库)上达到70.52%的识别率.实验结果表明:与其他方法相比具有先进性,对自然场景中的遮挡、噪声和分辨率变化具有一定的鲁棒性.  相似文献   

3.
表情识别是在人脸检测基础之上的更进一步研究,是计算机视觉领域的一个重要研究方向。将研究的目标定位于基于微视频的表情自动识别,研究在大数据环境下,如何使用深度学习技术来辅助和促进表情识别技术的发展。针对表情智能识别过程中存在的一些关键性技术难题,设计了一个全自动表情识别模型。该模型结合深度自编码网络和自注意力机制,构建了一个人脸表情特征自动提取子模型,然后结合证据理论对多特征分类结果进行有效融合。实验结果表明,该模型能显著提升表情识别的准确度,具有重要的理论意义和研究价值。  相似文献   

4.
为了解决实际中动态表情识别存在的局部遮挡问题,提出一种基于并行Gan网络的有遮挡动态表情识别方法。构建一个并联网络P-IncepNet进行上下文特征提取,利用条件对抗网络训练了一个处理不同程度遮挡的图像修复网络。将构建的并联网络与LSTM进行级联,充分利用并联网络的特征提取和LSTM的时空信息获取能力,训练得到一个更具鲁棒性的动态表情识别网络。实验结果表明,在CelebA和MMI数据集上训练的局部遮挡补全网络对中小程度遮挡的补全优于其他网络;构建的级联表情识别网络对于不同程度遮挡的识别结果显示,修复表情图的平均识别率比未修复表情图高4.45个百分点,尤其愤怒、惊讶、高兴有6.36个百分点的较大识别率提升得益于遮挡图像的修复;在AFEW和MMI数据集的无遮挡实验表明,该网络对无遮挡的识别同样具有优越性能,平均识别准确率达51.12%和80.31%。因此构建的P-IncepNet是稳定的,对图像的遮挡修复和表情识别性能均有明显改善。  相似文献   

5.
针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题,提出了一种深度多尺度融合注意力残差网络(deep multi-scale fusion attention residual network, DMFA-ResNet)。该模型基于ResNet-50残差网络,设计了新的注意力残差模块,由7个具有三条支路的注意残差学习单元构成,能够对输入图像进行并行多卷积操作,以获得多尺度特征,同时引入注意力机制,突出重点局部区域,有利于遮挡图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息,简化网络复杂度,在保证感受野的情况下减少计算量,实现网络抗过拟合效果。在3组数据集上的实验结果表明,本文提出的算法均优于对比的其他先进方法。  相似文献   

6.
在真实环境下遮挡是准确分析识别人脸表情的主要障碍之一。近年来研究者采用深度学习技术解决遮挡条件下表情误识别率高的问题。针对遮挡表情识别的深度学习算法和遮挡相关的问题进行归纳总结。首先,概括局部遮挡条件下表情识别的发展现状、表情的表示方式以及研究遮挡表情用到的数据集;其次,回顾遮挡表情识别深度学习方法的最新进展和分析遮挡对表情的影响;最后,总结主要技术挑战,研究难点及其可能的应对策略。目的是为将来的遮挡表情识别研究提供更有益的参考依据和基准。  相似文献   

7.
面部表情识别在诸多领域具有广泛的应用价值, 但在识别过程中局部遮挡会导致面部难以提取有效的表情识别特征, 而局部遮挡的面部表情识别可能需要多个区域的表情特征, 单一的注意力机制无法同时关注面部多个区域特征. 针对这一问题, 本文提出了一种基于加权多头并行注意力的局部遮挡面部表情识别模型, 该模型通过并行多个通道-空间注意力提取局部未被遮挡的多个面部区域表情特征, 有效缓解了遮挡对表情识别的干扰, 大量的实验结果表明, 本文的方法相比于很多先进的方法取得了最优的性能, 在RAF-DB和FERPlus上的准确率分别为89.54%、89.13%, 在真实遮挡的数据集Occlusion-RAF-DB和Occlusion-FERPlus的准确率分别为87.47%、86.28%. 因此, 本文的方法具有很强的鲁棒性.  相似文献   

8.
面部表情识别已经广泛运用于人机交互、教育、自动驾驶等各种领域,针对现有表情识别方法网络结构复杂、参数多、泛化能力不足、识别率低等问题,且人脸表情在自然环境下易受到光照、姿态和局部遮挡等环境因素的影响,提出了一种多尺度残差注意力网络.以ResNet-18网络为基础,提出了一种新的多尺度残差注意力模块,通过提取不同尺度特征,增加特征多样性.引入CBAM注意力机制获取表情图像重点特征信息,有利于提升遮挡表情的识别.构建特征残差融合块,将浅层特征与深层特征进行残差融合,有利于获取丰富的人脸表情图像整体特征.实验结果表明,本文方法在CK+、JAFFE和Oulu-CASIA 3个公开表情数据集上分别达到了99.49%、98.53%和97.08%的准确率,与一些现有方法相比,本文方法表情识别率更高,证明了该方法可用于人脸表情识别.  相似文献   

9.
随着深度学习的应用,表情识别技术得到快速发展,但如何提取多尺度特征及高效利用关键特征仍是表情识别网络面临的挑战.针对上述问题,文中使用金字塔卷积有效提取多尺度特征,使用空间通道注意力机制加强关键特征的表达,构建基于残差注意力机制和金字塔卷积的表情识别网络,提高识别的准确率.网络使用MTCNN(Multi-task Convolutional Neural Network)进行人脸检测、人脸裁剪及人脸对齐,再将预处理后的图像送入特征提取网络.同时,为了缩小同类表情的差异,扩大不同类表情的距离,结合Softmax Loss和Center Loss,进行网络训练.实验表明,文中网络在Fer2013、CK+数据集上的准确率较高,网络参数量较小,适合表情识别在现实场景中的应用.  相似文献   

10.
目的 人脸表情识别是计算机视觉的核心问题之一。一方面,表情的产生对应着面部肌肉的一个连续动态变化过程,另一方面,该运动过程中的表情峰值帧通常包含了能够识别该表情的完整信息。大部分已有的人脸表情识别算法要么基于表情视频序列,要么基于单幅表情峰值图像。为此,提出了一种融合时域和空域特征的深度神经网络来分析和理解视频序列中的表情信息,以提升表情识别的性能。方法 该网络包含两个特征提取模块,分别用于学习单幅表情峰值图像中的表情静态“空域特征”和视频序列中的表情动态“时域特征”。首先,提出了一种基于三元组的深度度量融合技术,通过在三元组损失函数中采用不同的阈值,从单幅表情峰值图像中学习得到多个不同的表情特征表示,并将它们组合在一起形成一个鲁棒的且更具辩识能力的表情“空域特征”;其次,为了有效利用人脸关键组件的先验知识,准确提取人脸表情在时域上的运动特征,提出了基于人脸关键点轨迹的卷积神经网络,通过分析视频序列中的面部关键点轨迹,学习得到表情的动态“时域特征”;最后,提出了一种微调融合策略,取得了最优的时域特征和空域特征融合效果。结果 该方法在3个基于视频序列的常用人脸表情数据集CK+(the extended Cohn-Kanade dataset)、MMI (the MMI facial expression database)和Oulu-CASIA (the Oulu-CASIA NIR&VIS facial expression database)上的识别准确率分别为98.46%、82.96%和87.12%,接近或超越了当前同类方法中的表情识别最高性能。结论 提出的融合时空特征的人脸表情识别网络鲁棒地分析和理解了视频序列中的面部表情空域和时域信息,有效提升了人脸表情的识别性能。  相似文献   

11.
This paper addresses the dynamic recognition of basic facial expressions in videos using feature subset selection. Feature selection has been already used by some static classifiers where the facial expression is recognized from one single image. Past work on dynamic facial expression recognition has emphasized the issues of feature extraction and classification, however, less attention has been given to the critical issue of feature selection in the dynamic scenario. The main contributions of the paper are as follows. First, we show that dynamic facial expression recognition can be casted into a classical classification problem. Second, we combine a facial dynamics extractor algorithm with a feature selection scheme for generic classifiers.We show that the paradigm of feature subset selection with a wrapper technique can improve the dynamic recognition of facial expressions. We provide evaluations of performance on real video sequences using five standard machine learning approaches: Support Vector Machines, K Nearest Neighbor, Naive Bayes, Bayesian Networks, and Classification Trees.  相似文献   

12.
由于人脸表情图像具有细微的类间差异信息和类内公有信息,提取具有判别性的局部特征成为关键问题,为此提出了一种注意力分层双线性池化残差网络。该模型采用有效的通道注意力机制显式地建模各通道的重要程度,为输出特征图分配不同的权重,按权重值大小定位显著区域。并添加了一个新的分层双线性池化层,集成多个跨层双线性特征来捕获层间部分特征关系,以端到端的深度学习方式在特征图中进行空间池化,使所提网络模型更适合精细的面部表情分类。分别在FER-2013和CK+数据集上对设计的网络进行实验,最高识别率分别为73.84%和98.79%,达到了具有竞争性的分类准确率,适用于细微的面部表情图像识别任务。  相似文献   

13.
基于深度学习的人体行为识别算法综述   总被引:10,自引:0,他引:10  
人体行为识别和深度学习理论是智能视频分析领域的研究热点, 近年来得到了学术界及工程界的广泛重视, 是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础. 近年来, 被广泛关注的深度学习算法已经被成功运用于语音识别、图形识别等各个领域.深度学习理论在静态图像特征提取上取得了卓著成就, 并逐步推广至具有时间序列的视频行为识别研究中. 本文在回顾了基于时空兴趣点等传统行为识别方法的基础上, 对近年来提出的基于不同深度学习框架的人体行为识别新进展进行了逐一介绍和总结分析; 包括卷积神经网络(Convolution neural network, CNN)、独立子空间分析(Independent subspace analysis, ISA)、限制玻尔兹曼机(Restricted Boltzmann machine, RBM)以及递归神经网络(Recurrent neural network, RNN)及其在行为识别中的模型建立, 对模型性能、成果进展及各类方法的优缺点进行了分析和总结.  相似文献   

14.
目的 相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法 首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果 在公开的BAUM-1s (Bahcesehir University multimodal)和RML (Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论 该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。  相似文献   

15.
雾天是影响高速公路交通安全的重要因素。研究从监控图像进行高速公路雾天能见度的自动识别方法可以为交通管理部门的智能管理和决策提供技术支持。根据大气散射模型分析出与雾浓度相关的多个物理因素,提出了综合这些物理因素的多通路融合识别网络。该网络使用三个通路联合学习深度视觉特征、传输矩阵特征和场景深度特征,并设计注意力融合模块来自适应地融合这三类特征以进行能见度等级识别。同时构建了一个合成数据集和一个真实的高速公路场景数据集,用于网络参数学习和性能评估。实景数据集中的图像是从中国多条高速公路的监控视频中收集的。在这两个数据集上的实验表明,所提方法可以适应不同的监控拍摄场景,能够比现有方法更准确地识别能见度等级,有效提升了识别精度。  相似文献   

16.
Students' disengagement problem has become critical in the modern scenario due to various distractions and lack of student-teacher interactions. This problem is exacerbated with large offline classrooms, where it becomes challenging for teachers to monitor students' engagement and maintain the right-level of interactions. Traditional ways of monitoring students' engagement rely on self-reporting or using physical devices, which have limitations for offline classroom use. Student's academic affective states (e.g., moods and emotions) analysis has potential for creating intelligent classrooms, which can autonomously monitor and analyse students' engagement and behaviours in real-time. In recent literature, a few computer vision based methods have been proposed, but they either work only in the e-learning domain or have limitations in real-time processing and scalability for large offline classes. This paper presents a real-time system for student group engagement monitoring by analysing their facial expressions and recognizing academic affective states: ‘boredom,’ ‘confuse,’ ‘focus,’ ‘frustrated,’ ‘yawning,’ and ‘sleepy,’ which are pertinent in the learning environment. The methodology includes certain pre-processing steps like face detection, a convolutional neural network (CNN) based facial expression recognition model, and post-processing steps like frame-wise group engagement estimation. For training the CNN model, we created a dataset of the aforementioned facial expressions from classroom lecture videos and added related samples from three publicly available datasets, BAUM-1, DAiSEE, and YawDD, to generalize the model predictions. The trained model has achieved train and test accuracy of 78.70% and 76.90%, respectively. The proposed methodology gave promising results when compared with self-reported engagement levels by students.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号