首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
长短期记忆网络(LSTM)广泛应用于视频序列的人脸表情识别,针对单层LSTM表达能力有限,在解决复杂问题时其泛化能力易受制约的不足,提出一种层级注意力模型:使用堆叠LSTM学习时间序列数据的分层表示,利用自注意力机制构建差异化的层级关系,并通过构造惩罚项,进一步结合损失函数优化网络结构,提升网络性能.在CK+和MMI数据集上的实验结果表明,由于构建了良好的层次级别特征,时间序列上的每一步都从更感兴趣的特征层级上挑选信息,相较于普通的单层LSTM,层级注意力模型能够更加有效地表达视频序列的情感信息.  相似文献   

2.
说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。  相似文献   

3.
视频场景识别是机器学习和计算机视觉一个重要的研究领域.但是当前对于视频场景识别的探索工作还远远不够,而且目前提出的模型大都使用视频级的特征信息,忽略了多粒度的视频特征关联.本文提出了一种基于多粒度的视频特征的注意力机制的模型架构,可以动态高效的利用各维度视频信息之间存在的丰富的语义关联,提高识别准确度.本文在中国多媒体大会(CCF ChinaMM 2019)最新推出的VideoNet数据集上进行了实验,实验结果表明基于多粒度的视频特征的注意力机制的模型与传统方法相比具有明显的优越性.  相似文献   

4.
兰红  何璠  张蒲芬 《计算机应用研究》2021,38(12):3791-3795,3825
针对现有骨架动作识别主要采用双流框架,在提取时间空间以及通道特征方法上存在的问题,提出一个ADGCN,用于骨架动作识别.首先对骨架数据进行建模,分别将关节、骨骼及其关节和骨骼的运动信息输入到多流框架的单个流.然后将输入的数据传送到提出的有向图卷积网络中进行提取关节和骨骼之间的依赖关系,再利用提出的时空通道注意力网络(STCN),增强每层网络中关键关节的时间、空间以及通道的信息.最后将四个流的信息通过加权平均计算动作识别的精度,输出动作的预测结果.此模型在两个大型数据集NTU-RGB+D和Kinectics-Skeleton中进行训练和验证,验证的结果与基线方法DGNN(有向图神经网络)相比,在NTU-RGB+D数据集上,在两个交叉子集CS和CV上的准确率分别提升了2.43%和1.2%.在Kinectics-Skeleton数据集的top1和top5上的准确率分别提升了0.7%和0.9%.提出的ADGCN可以有效地增强骨架动作识别的性能,在两个大型数据集上的效果都有所提升.  相似文献   

5.
针对目前仅单独考虑价格序列中样本的趋势或仅考虑多个关联属性与价格间的函数关系,而不能更准确地进行房价预测的问题,构建了时空注意力图卷积长短期记忆模型AG-LSTM,包含局部特征提取模块、区域特征提取模块、复合预测模块。局部特征提取模块分别使用同构图和异构图神经网络提取各小区及价格关系属性、各小区和配套邻居节点相关性的特征信息;区域特征提取模块先对邻近小区节点进行聚类,再结合图注意力网络获得小区节点对所属区域的重要性程度,建立区域与小区之间的映射矩阵,根据小区节点信息和映射矩阵得到区域特征;复合预测模块使用长短期记忆模型对由局部特征和区域特征组成的复合特征进行时序建模,实现房价预测。以链家网北京房价数据进行了实验,结果表明AG-LSTM预测结果优于已有基线模型。该模型同时挖掘了小区间位置关系、小区与其配套间位置关系、多个关联属性、价格时序趋势对房屋价格的影响,较好地实现了房屋价格的预测。  相似文献   

6.
目的深度伪造是新兴的一种使用深度学习手段对图像和视频进行篡改的技术,其中针对人脸视频进行的篡改对社会和个人有着巨大的威胁。目前,利用时序或多帧信息的检测方法仍处于初级研究阶段,同时现有工作往往忽视了从视频中提取帧的方式对检测的意义和效率的问题。针对人脸交换篡改视频提出了一个在多个关键帧中进行帧上特征提取与帧间交互的高效检测框架。方法从视频流直接提取一定数量的关键帧,避免了帧间解码的过程;使用卷积神经网络将样本中单帧人脸图像映射到统一的特征空间;利用多层基于自注意力机制的编码单元与线性和非线性的变换,使得每帧特征能够聚合其他帧的信息进行学习与更新,并提取篡改帧图像在特征空间中的异常信息;使用额外的指示器聚合全局信息,作出最终的检测判决。结果所提框架在FaceForensics++的3个人脸交换数据集上的检测准确率均达到96.79%以上;在Celeb-DF数据集的识别准确率达到了99.61%。在检测耗时上的对比实验也证实了使用关键帧作为样本对检测效率的提升以及本文所提检测框架的高效性。结论本文所提出的针对人脸交换篡改视频的检测框架通过提取关键帧减少视频级检测中的计算成本和时间消耗,使用卷积...  相似文献   

7.
视觉问答作为多模态数据处理中的重要任务,需要将不同模态的信息进行关联表示。现有视觉问答模型无法有效区分相似目标对象且对于目标对象之间的空间关系表达不准确,从而影响模型整体性能。为充分利用视觉问答图像和问题中的细粒度信息与空间关系信息,基于自底向上和自顶向下的注意力(BUTD)模型及模块化协同注意力网络(MCAN)模型,结合空间域特征和频率域特征构造多维增强注意力(BUDR)模型和模块化共同增强注意力网络(MCDR)模型。利用离散余弦变换得到频率信息,改善图像细节丢失问题。采用关系网络学习空间结构信息和潜在关系信息,减少图像和问题特征出现对齐错误,并加强模型推理能力。在VQA v2.0数据集和test-dev验证集上的实验结果表明,BUDR和MCDR模型能够增强图像细粒度识别性能,提高图像和问题目标对象间的关联性,相比于BUTD和MCAN模型预测精确率分别提升了0.14和0.25个百分点。  相似文献   

8.
提出一种基于时空变化信息的视频内容检索方法.此方法以自适应变间隔关键帧选择策略提取镜头在时间域上的变化内容,采用时空注意力模型提取空域显著内容;然后对每一显著区域按Mpeg-7标准抽取相似纹理描述子、可扩展颜色描述子和基于轮廓的形状描述子,联合三低层视觉特征进行显著区域间的匹配度计算;最后提出用于视频检索的两镜头相似度匹配算法.对比实验表明该方法能有效进行基于内容的视频检索.  相似文献   

9.
针对监控视频中行人外观、姿态相似等现象导致的视频行人重识别准确率低的问题进行了研究,提出了一种基于图模型的视频行人重识别方法,有效利用了视频中的时序信息,实现跨帧及帧内区域的信息交互。具体来说,利用跨帧分块区域间的关联信息建立区域节点间的固有关系,并进行特征传播迭代更新区域信息。另一方面,在度量学习过程中,提出了一种加权损失函数策略,这个方法将先前挖掘策略中的二进制分配法(即丢弃或保留该样本)优化为连续分数分配法,解决了可用样本未被有效利用的问题。将模型在MARS和DukeMTMC-VideoReID两个数据集上进行了评估,实验结果证实了提出方法的有效性。  相似文献   

10.
针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题,提出一种基于改进的双向长短期记忆(BiLSTM)网络的视频摘要生成模型.首先,通过卷积神经网络(CNN)提取视频帧的深度特征,而且为了使生成的视频摘要更具多样性,采用BiLSTM网络将深度特征识别任务转换为视频帧的时序特征标注任...  相似文献   

11.
基于模式识别视频搜索技术的研究   总被引:1,自引:0,他引:1  
本文中视频搜索技术针对音视频这类非结构化数据,使用了实时音频索引、自动抽帧和内容自动关联等技术,从内容上对视频进行检索,通过对视频中的语音、图象和文字的自动分析和处理,根据不同的视频分解粒度和对象重要度判定模型,建立模式识别算法,生成视频摘要,从而形成高效的视频搜索系统。  相似文献   

12.
陈潮 《现代计算机》2023,(15):69-72
监控设备生成海量的视频数据,由于管理不善、维护不力和人为删除等原因,存在监控视频数据的丢失和篡改等问题。在研究云存储和区块链的基础上,结合区块链去中心化、难篡改和可溯源等特性,提出一种基于区块链的监控视频数据存储模型。监控视频数据存储在单位的云存储服务器,监控视频数据的哈希值等元数据存储在区块链,云存储技术实现监控视频数据的海量存储和便捷访问,区块链技术实现上链监控视频数据的防篡改和防删除,对于提高监控视频数据的安全性和可靠性有一定的应用价值。  相似文献   

13.
视频帧预测是计算机视觉领域一个重要的研究领域,并且拥有广泛的应用。目前,常用的视频帧预测模型虽然取得了一定的效果,但由于这类模型并不能在时空信息上同时建模,因此难以在更加复杂度的现实场景下应用。针对此问题,文中提出一种深度时空建模神经络。该网络通过预测未来光流,并利用该光流对前一帧图像进行采用的方法来预测未来图像,此外分别加入卷积LSTM与自注意力机制进行时空信息的建模。文章在Caltech行人数据集上进行了充分的实验,并取得了较好的实验结果。  相似文献   

14.
针对现有行人属性识别方法忽视行人属性的互相关性和空间信息导致识别性能较低的问题,将任务视为时空序列多标签图像分类问题,提出基于卷积神经网络(CNN)和卷积长短期记忆网络(ConvLSTM)并融合通道注意力机制的模型.用CNN和通道注意力提取行人属性的显著性和相关性视觉特征;用ConvLSTM进一步提取视觉特征的空间信息...  相似文献   

15.
端到端的CNN-LSTM模型利用卷积神经网络(Convolutional Neural Network, CNN)提取图像的空间特征,利用长短期记忆网络LSTM提取视频帧间的时间特征,在视频表情识别中得到了广泛的应用。但在学习视频帧的分层表示时,CNN-LSTM模型复杂度较高,且易发生过拟合。针对这些问题,提出一个高效、低复杂度的视频表情识别模型ECNN-SA (Enhanced Convolutional Neural Network with Self-Attention)。首先,将视频分成若干视频段,采用带增强特征分支的卷积神经网络和全局平均池化层提取视频段中每帧图像的特征向量。其次,利用自注意力(Self-Attention)机制获得特征向量间的相关性,根据相关性构建权值向量,主要关注视频段中的表情变化关键帧,引导分类器给出更准确的分类结果。最终,该模型在CK+和AFEW数据集上的实验结果表明,自注意力模块使得模型主要关注时间序列中表情变化的关键帧,相比于单层和多层的LSTM网络,ECNN-SA模型能更有效地对视频序列的情感信息进行分类识别。  相似文献   

16.
针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。  相似文献   

17.
手写笔迹识别是模式识别的一个重要研究领域。因为每个人的书写习惯有所不同,导致手写的字体有一定的差异。传统的Softmax模型在手写数字的识别结果上并没有达到人们的期望。目前,深度神经网络框架是模式识别领域的主流方法。长短期记忆神经网络(long-short term memory network,LSTM)是一种特殊的循环神经网络,它由输入门、遗忘门、输出门以及神经元组成。长短期记忆神经网络对于长序列问题有很好的处理。文中提出采用双向长短期记忆神经网络进行手写数字识别。采用MNIST数据集,分别使用传统的Softmax方法和双向长短期记忆神经网络方法对MNIST数据集里的图片进行识别。实验结果表明,传统的Softmax模型的正确率为92%左右,而LSTM模型的正确率达到了96.3%,提升4.3%。  相似文献   

18.
侯旭东  滕飞  张艺 《计算机应用》2022,42(9):2686-2692
针对在医疗命名实体识别(MNER)问题中随着网络加深,基于深度学习的识别模型出现的识别精度与算力要求不平衡的问题,提出一种基于深度自编码的医疗命名实体识别模型CasSAttMNER。首先,使用编码与解码间深度差平衡策略,以经过蒸馏的Transformer语言模型RBT6作为编码器以减小编码深度以及降低对训练和应用上的算力要求;然后,使用双向长短期记忆(BiLSTM)网络和条件随机场(CRF)提出了级联式多任务双解码器,从而完成实体提及序列标注与实体类别判断;最后,基于自注意力机制在实体类别中增加实体提及过程抽取的隐解码信息,以此来优化模型设计。实验结果表明,CasSAttMNER在两个中文医疗实体数据集上的F值度量可分别达到0.943 9和0.945 7,较基线模型分别提高了3个百分点和8个百分点,验证了该模型更进一步地提升了解码器性能。  相似文献   

19.
基于深度学习的视频动作识别方法处理时间信息的方式主要有两种,一是利用光流表示相邻帧之间的运动信息,但其无法有效建模长程时间特征,二是利用3D卷积对时空信号进行混合建模,但其引入了大量的参数,导致内存消耗和计算量剧增.针对上述问题,本文提出了一种改进2D CNN时空特征提取的动作识别方法,在2D CNN中嵌入时空门控和动作注意力聚合(Spatial-temporal Gate and Motion Attention-aggregation, SGMA)模块增强其时空特征提取能力.SGMA包含时空动态门控和动作注意力聚合两个子模块,时空动态门控能够可视化各通道特征的运动比例因子并依此逐通道分离运动强相关特征和运动弱相关特征,动作注意力聚合利用运动强相关特征构建金字塔结构来提取不同时间跨度的运动特征,并使用注意力机制自适应聚合各时间跨度特征实现长程时间建模,运动弱相关特征经过2D卷积提取空间特征后融合动作注意力聚合模块的输出最终获得强有力的时空特征表达.在相同帧采样策略下,本文方法在Something-SomethingV1&V2验证集上的Top1准确度比基准TSM分别提高了4.4...  相似文献   

20.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号