首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 906 毫秒
1.
C3D作为一种典型的三维卷积神经网络被应用于视频动作识别任务。针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的C3D三维卷积网络模型。在原C3D网络插入由GCNet通道注意力模块和3D-Crisscross空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能。将所提方法在UCF-101和HMDB-51两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对更高的准确率,在UCF-101和HMDB-51数据集上的识别准确率可以达到96.7%和63.3%,而且与原C3D方法相比在效果上有明显提升。  相似文献   

2.
传统的2D卷积神经网络在进行视频识别时容易丢失目标在时间维度上的相关特征信息,导致识别准确率降低。针对该问题,本文采用3D卷积网络作为基本的网络框架,使用3D卷积核进行卷积操作提取视频中的时空特征,同时集成多个3D卷积神经网络模型对动态手势进行识别。为了提高模型的收敛速度和训练的稳定性,运用批量归一化(BN)技术优化网络,使优化后的网络训练时间缩短。实验结果表明,本文方法对于动态手势的识别具有较好的识别结果,在Sheffield Kinect Gesture (SKIG)数据集上识别准确率达到98.06%。与单独使用RGB信息、深度信息以及传统2D CNN相比,手势识别率均有所提高,验证了本文方法的可行性和有效性。  相似文献   

3.
针对原始C3D卷积神经网络的层数较少、参数量较大和难以关注关键帧而导致的人体行为识别准确率较低的问题,提出一种基于改进型C3D的注意力残差网络模型;首先,增加原始网络卷积层并采用卷积核合并与拆分操作实现(3x1x7)和(3x7x1)的非对称式卷积核,之后采用全预激活式残差网络结构来增加构建的非对称卷积层,并且在残差块中增加时空通道注意力模块;最后,为展示该算法的先进性和应用性,则将该算法与原始C3D网络以及其他流行算法分别在基准数据集HMDB51和自建的43类别体育运动数据集上相比较;实验结果表明,该算法与原始C3D网络相比,在HMDB51和43类体育运动数据集上分别提高了9.88%和21.61%,参数量比原来降低了38.68%,并且结果也优于其他流行算法。  相似文献   

4.
王中杰  张鸿 《计算机应用》2019,39(12):3697-3702
针对传统的机器学习算法对大数据量的航运监控视频识别分类的效果不佳,以及现有的三维(3D)卷积的识别准确率较低的问题,基于3D卷积神经网络模型,结合较为流行的视觉几何组(VGG)网络结构以及GoogleNet的Inception网络结构,提出了一种基于VGG-16的3D卷积网络并引入Inception模块的VIC3D模型对航运货物实时监控视频进行智能识别。首先,将从摄像头获取到的视频数据处理成图片;然后,将等间隔取帧的视频帧序列按照类别进行分类并构建训练集与测试集;最后,在保证运行环境相同并且训练方式相同的前提下,将结合后的VIC3D模型与原模型分别进行训练,根据测试集的测试结果对各种模型进行比较。实验结果表明,VIC3D模型的识别准确率在原模型的基础上有所提升,相较于组约束循环卷积神经网络(GCRNN)模型的识别准确率提高了11.1个百分点,且每次识别所需时间减少了1.349 s;相较于C3D的两种模型的识别准确率分别提高了14.6个百分点和4.2个百分点。VIC3D模型能有效地应用到航运视频监控项目中。  相似文献   

5.
改进残差网络在玉米叶片病害图像的分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的玉米叶片病害图像识别方法正确率不高、速度慢等问题,提出一种基于改进深度残差网络模型的玉米叶片图像识别算法。提出的改进策略有:将传统的ResNet-50模型第一层卷积层中7×7卷积核替换为3个3×3的卷积核;使用LeakyReLU激活函数替代ReLU激活函数;改变残差块中批标准化层、激活函数与卷积层的排列顺序。进行数据预处理,将训练集与测试集的比例划分为4∶1,采用数据增强的方式对训练集进行扩充,将改进的ResNet-50模型经过迁移学习得到在ImageNet上预训练好的权重参数。实验结果表明,改进的网络在玉米叶片病害图像分类中得到了98.3%的正确率,与其他网络模型相比准确率大幅提升,鲁棒性进一步增强,可为玉米叶片病害的识别提供参考。  相似文献   

6.
针对人脸表情识别的泛化能力不足、稳定性差以及速度慢难以满足实时性要求的问题,提出了一种基于多尺度核特征卷积神经网络的实时人脸表情识别方法。首先,提出改进的MobileNet结合单发多盒检测器(MSSD)轻量化人脸检测网络,并利用核相关滤波(KCF)模型对检测到的人脸坐标信息进行跟踪来提高检测速度和稳定性;然后,使用三种不同尺度卷积核的线性瓶颈层构成三条支路,用通道合并的特征融合方式形成多尺度核卷积单元,利用其多样性特征来提高表情识别的精度;最后,为了提升模型泛化能力和防止过拟合,采用不同的线性变换方式进行数据增强来扩充数据集,并将FER-2013人脸表情数据集上训练得到的模型迁移到小样本CK+数据集上进行再训练。实验结果表明,所提方法在FER-2013数据集上的识别率达到73.0%,较Kaggle表情识别挑战赛冠军提高了1.8%,在CK+数据集上的识别率高达99.5%。对于640×480的视频,人脸检测速度达到每秒158帧,是主流人脸检测网络多任务级联卷积神经网络(MTCNN)的6.3倍,同时人脸检测和表情识别整体速度达到每秒78帧。因此所提方法能够实现快速精确的人脸表情识别。  相似文献   

7.
徐访  黄俊  陈权 《计算机工程》2021,47(11):283-291
在不带有标志帧的手势视频上进行动态手势识别,容易导致识别准确率下降。提出一种具有分级网络结构的动态手势识别模型。以手势检测模型为第1级网络,手势分类模型为第2级网络,分步完成识别任务。同时,将三维卷积核拆分为时间域和空间域卷积分阶段完成任务,解决三维卷积神经网络中因参数过多造成模型训练或运行时间过长的问题。实验结果表明,在保证实时性的前提下,该模型在EgoGesture数据集上的识别准确率高达93.35%,优于C3D、ResNeXt101、MTUT等模型。  相似文献   

8.
针对煤矿井下探水作业监工人员通过观看视频来监控卸杆作业的方式存在效率低下且极易出错的问题,提出利用三维卷积神经网络(3DCNN)模型对探水作业中的卸杆动作进行识别。3DCNN模型使用3D卷积层自动完成动作特征提取,通过3D池化层对运动特征进行降维,通过Softmax分类处理来识别卸杆动作,并使用批量归一化层提高模型的收敛速度和识别准确率。采用3DCNN模型对卸杆动作进行识别时,首先对数据集进行预处理,从每段视频中均匀抽取几帧图像作为某动作的代表,并降低分辨率;然后采用训练集对3DCNN模型进行训练,并保存训练好的权重文件;最后采用训练好的3DCNN模型对测试集进行测试,得出分类结果。实验结果表明,设置采样帧数为10帧、分辨率为32×32、学习率为0.000 1,3DCNN模型对卸杆动作的识别准确率最高可达98.86%。  相似文献   

9.
针对深度卷积神经网络模型缺乏对语义信息的表征能力,而细粒度视觉识别中种类间视觉差异微小且多集中在关键的语义部位的问题,提出基于语义信息融合的深度卷积神经网络模型及细粒度车型识别模型.该模型由定位网络和识别网络组成,通过定位网络FasterRCNN获取车辆目标及各语义部件的具体位置;借助识别网络提取目标车辆及各语义部件的特征,再使用小核卷积实现特征拼接和融合;最后经过深层神经网络得到最终识别结果.实验结果表明,文中模型在斯坦福BMW-10数据集的识别准确率为78.74%,高于VGG网络13.39%;在斯坦福cars-197数据集的识别准确率为85.94%,其迁移学习模型在BMVC car-types数据集的识别准确率为98.27%,比该数据集目前最好的识别效果提高3.77%;该模型避免了细粒度车型识别对于车辆目标及语义部件位置的依赖,并具有较高的识别准确率及通用性.  相似文献   

10.
视频行为识别是图像和视觉领域的一个基础问题,在基于深度学习的行为识别模型中,2D卷积方法模型参数较少,但是准确率不高;3D卷积方法在一定程度上提高了准确率,但会产生较多的参数和计算量。为了在保持准确率的前提下降低3D卷积神经网络行为识别模型的参数量,减少计算资源消耗,提出了时域零填充卷积网络行为识别算法,对视频进行3D卷积时不在时间维度上填充额外数据,以此来保证时域信息的完整性。为了充分利用有限的时间信息,设计了适合此填充方式的网络结构:先以时域不填充的方式使用3D卷积提取时空信息,然后利网络重组结构将3D卷积变为2D卷积来进一步提取特征。实验表明,该网络的参数量为10.385×106,不使用预训练权重的情况下在UCF101数据集上准确率为60.28%,与其他3D卷积网络行为识别方法相比在资源占用和准确率上都有明显优势。  相似文献   

11.
针对目前普通卷积神经网络(CNN)在表情和性别识别任务中出现的训练过程复杂、耗时过长、实时性差等问题,提出一种深度可分卷积神经网络的实时人脸表情和性别识别模型。首先,利用多任务级联卷积网络(MTCNN)对不同尺度输入图像进行人脸检测,并利用核相关滤波(KCF)对检测到的人脸位置进行跟踪进而提高检测速度。然后,设置不同尺度卷积核的瓶颈层,用通道合并的特征融合方式形成核卷积单元,以具有残差块和可分卷积单元的深度可分卷积神经网络提取多样化特征,并减少参数数量,轻量化模型结构;使用实时启用的反向传播可视化来揭示权重动态的变化并评估了学习的特征。最后,将表情识别和性别识别两个网络并联融合,实现表情和性别的实时识别。实验结果表明,所提出的网络模型在FER-2013数据集上取得73.8%的识别率,在CK+数据集上的识别率达到96%,在IMDB数据集中性别分类的准确率达到96%;模型的整体处理帧率达到80 frame/s,与结合支持向量机的全连接卷积神经网络方法所得结果相比,有着1.5倍的提升。因此针对数量、分辨率、大小等差异较大的数据集,该网络模型检测快,训练时间短,特征提取简单,具有较高的识别率和实时性。  相似文献   

12.
目的 基于深度学习的动作识别方法识别准确率显著提升,但仍然存在很多挑战和困难。现行方法在一些训练数据大、分类类别多的数据集以及实际应用中鲁棒性较差,而且许多方法使用的模型参数量较大、计算复杂,提高模型准确度和鲁棒性的同时对模型进行轻量化仍然是一个重要的研究方向。为此,提出了一种基于知识蒸馏的轻量化时空图卷积动作识别融合模型。方法 改进最新的时空卷积网络,利用分组卷积等设计参数量较少的时空卷积子模型;为了训练该模型,选取两个现有的基于全卷积的模型作为教师模型在数据集上训练,在得到训练好的教师模型后,再利用知识蒸馏的方法结合数据增强技术训练参数量较少的时空卷积子模型;利用线性融合的方法将知识蒸馏训练得到的子模型融合得到最终的融合模型。结果 在广泛使用的NTU RGB + D数据集上与前沿的多种方法进行了比较,在CS(cross-subject)和CV(cross-view)两种评估标准下,本文模型的准确率分别为90.9%和96.5%,与教师模型2s-AGCN(two-stream adaptive graph convolutional networks for skeleton-based action)相比,分别提高了2.4%和1.4%;与教师模型DGNN(directed graph neural network)相比,分别提高了1.0%和0.4%;与MS-AAGCN(multi-stream attention-enhanced adaptive graph convolutional neural network)模型相比,分别提高了0.9%和0.3%。结论 本文提出的融合模型,综合了知识蒸馏、数据增强技术和模型融合的优点,使动作识别更加准确和鲁棒。  相似文献   

13.
针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折(10-fold)交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。  相似文献   

14.
针对已有的卷积神经网络(Convolutional Neural Network,CNN)在人脸识别训练中出现过拟合、收敛速度慢以及识别准确率不高的问题,提出了新型的LeNet-FC卷积神经网络模型。通过增加网络层、缩小卷积核等结构改进以及采用优化的对数-修正线性单元(Logarithmic Rectified Linear Unit,L_ReLU)激活函数,该模型在人脸识别训练的准确率达到了99.85%。同时基于LeNet-FC卷积神经网络模型设计了一个人脸识别系统。该系统在ORL人脸库的仿真测试实验中识别准确率达到了96%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号