期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨思佳辛山刘悦张雷《电讯技术》2023,23(6)

在基于视频图像的动作识别中,由于固定视角相机所获取的不同动作视频存在视角差异,会造成识别准确率降低等问题。使用多视角视频图像是提高识别准确率的方法之一,提出基于三维残差网络（3D Residual Network,3D ResNet）和长短时记忆（Long Short-term Memory,LSTM）网络的多视角人体动作识别算法,通过3D ResNet学习各视角动作序列的融合时空特征,利用多层LSTM网络继续学习视频流中的长期活动序列表示并深度挖掘视频帧序列之间的时序信息。在NTU RGB+D 120数据集上的实验结果表明,该模型对多视角视频序列动作识别的准确率可达83.2%。相似文献

2.

基于ConvGRU和注意力特征融合的人体动作识别

程娜娜张荣芬刘宇红刘源刘昕斐杨双《光电子．激光》2023,34(12):1298-1306

在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。相似文献

3.

基于双流独立循环神经网络的人体动作识别

《现代电子技术》2020,(4):137-141

针对RGB视频中遮挡物以及其他外界因素对人体动作识别产生影响,以及识别精确度有待提升的问题,提出基于双流独立循环神经网络人体动作识别算法。在提取特征方面,时间网络采用分层IndRNN对时序中3D骨架坐标信息进行特征提取;空间网络采用深层的IndRNN对每个时刻骨架的空间位置关系进行特征提取,其中骨架的空间结构采用了图遍历的方法。对于空间网络和时间网络的特征融合采用加权求和的方式,最后用softmax对动作进行分类。在3D骨架动作数据集(NTU RGB+D)以及交互数据集(SBU Interaction Dataset)上验证了模型的有效性。相似文献

4.

基于语义特征立方体切片的人体动作识别

下载免费PDF全文

康书宁张良《信号处理》2020,36(11):1897-1905

基于深度学习的人体动作识别近几年取得了良好的识别效果,尤其是二维卷积神经网络可以较充分的学习人体动作的空间特征,但在捕获长时间的运动信息上仍存在问题。针对此问题,提出了基于语义特征立方体切片的人体动作识别模型来联合地学习动作的表观和运动特征。该模型在时序分割网络(Temporal Segment Networks,TSN)的基础上,选取InceptionV4作为骨干网络提取人体动作的表观特征,将得到的三维特征图立方体分为二维的空间上和时间上的特征图切片。另外设计一个时空特征融合模块协同的学习多维度切片的权重分配,从而得到人体动作的时空特征,由此实现了网络的端到端训练。与TSN模型相比,该模型在UCF101和 HMDB51数据集上的准确率均有所提升。实验结果表明,该模型在不显著增加网络参数量的前提下,能够捕获更丰富的运动信息,使人体动作的识别结果提高。相似文献

5.

改进的R-C3D时序行为检测网络

下载免费PDF全文

田翔张良《信号处理》2021,37(3):447-455

为了提高时序行为检测网络的分类精度和时序上的定位精度,本文提出了一种改进的区域3D卷积神经网络(Region Con-volutional 3D Network,R-C3D)。在时序候选子网中,通过逐层空间卷积把特征图的高宽由(H/16,W/16)变为(1,1),提高行为的分类精度,通过卷积-反卷积网络(Convolutional-De-Convolutional Networks,CDC)里反卷积的思想,使用时域反卷积网络增加特征图长度,提高时域上行为的定位精度。在THUMOS14数据集的实验结果表明:与R-C3D相比,本文提出的方法在长时序未分割视频上有较高的检测精度。相似文献

6.

PPNet：基于预先预测的降雨短时预测模型

宋毅张晗奕孙丰张敬林白琮《电子与信息学报》2024,(2):492-502

降雨短时预测一直以来都是气象预测问题中的热点问题。传统的预测方法基于数值天气预测模型展开预报,但近些年利用深度学习展开基于雷达回波图的降雨短时预测方法受到了广大研究者的关注。其中,时序预测网络存在不能并行计算导致耗时过长的问题且存在梯度爆炸问题。全卷积网络可以解决上述两个问题,但是却不具备时序信息提取的能力。因此,该文以泰勒冻结假设为理论依据,提出一个基于预先预测辅助推断结构的2维全卷积网络(PPNet)。网络先行提取粗粒度时序信息与空间信息,然后利用全卷积结构细化特征粒度,有效缓解2维卷积网络不能提取时序信息的缺陷。此外,该文还提供一种时序特征约束器对预先预测特征进行时间维度的特征约束,使预测特征更倾向于真实特征。消融实验证明所提预先预测辅助推断结构和时序特征约束器具有优秀的时序特征能力,可以提升网络对时序信息的敏感度。与目前最好的降雨预测算法或视频预测算法相比,该文网络均取得较好结果,特别在暴雨指标上达到最优。相似文献

7.

联合实例深度的多尺度单目3D目标检测算法

王凤随熊磊钱亚萍《激光与光电子学进展》2023,(16):238-246

针对单目3D目标检测算法中存在图像缺乏深度信息以及检测精度不佳的问题，提出一种联合实例深度的多尺度单目3D目标检测算法。首先，为了增强模型对不同尺度目标的处理能力，设计基于空洞卷积的多尺度感知模块，同时考虑到不同尺度特征图之间的不一致性，从空间和通道两个方向对包含多尺度信息的深度特征进行重新精炼。其次，为了使模型获得更好的3D感知，将实例深度信息作为辅助学习任务来增强3D目标的空间深度特征，并使用稀疏实例深度来监督该辅助任务。最后，在KITTI测试集以及评估集上对所提算法进行验证。实验结果表明，所提算法相较于基线算法在汽车类别的平均精度提升了5.27%，有效提升了单目3D目标检测算法的检测性能。相似文献

8.

结合时序动态图和双流卷积网络的人体行为识别

张文强王增强张良《激光与光电子学进展》2021,58(2):96-104

为了更好地对人体动作的长时时域信息进行建模,提出了一种结合时序动态图和双流卷积网络的人体行为识别算法。首先,利用双向顺序池化算法来构建时序动态图,实现视频从三维空间到二维空间的映射,用来提取动作的表观和长时时序信息;然后提出了基于inceptionV3的双流卷积网络,包含表观及长时运动流和短时运动流,分别以时序动态图和堆叠的光流帧序列作为输入,且结合数据增强、模态预训练、稀疏采样等方式;最后将各支流输出的类别判定分数通过平均池化的方式进行分数融合。在UCF101和HMDB51数据集的实验结果表明:与传统双流卷积网络相比,该方法可以有效利用动作的时空信息,识别率得到较大的提升,具有有效性和鲁棒性。相似文献

9.

多通道时空融合网络双人交互行为识别

下载免费PDF全文

裴晓敏范慧杰唐延东《红外与激光工程》2020,49(5):20190552-20190552-6

提出一种基于多通道时空融合网络的双人交互行为识别方法,对双人骨架序列行为进行识别。首先,采用视角不变性特征提取方法提取双人骨架特征,然后,设计两层级联的时空融合网络模型,第一层基于一维卷积神经网络（1DCNN）和双向长短时记忆网络（BiLSTM）学习空间特征,第二层基于长短时记忆网络(LSTM)学习时间特征,得到双人骨架的时空融合特征。最后,采用多通道时空融合网络分别学习多组双人骨架特征得到多通道融合特征,利用融合特征识别交互行为,各通道之间权值共享。将文中算法应用于NTU-RGBD人体交互行为骨架库,双人交叉对象实验准确率可达96.42%,交叉视角实验准确率可达97.46%。文中方法与该领域的典型方法相比,在双人交互行为识别中表现出更好的性能。相似文献

10.

结合LSTM与CNN的野外车辆声信号分类

下载免费PDF全文

李翔王艳李宝清《压电与声光》2021,43(3):379-384

针对野外环境下微声传感器采集的小型轮式车、大型轮式车和履带车3种车辆声信号受风噪影响严重、分类性能较低的问题,提出了一种长短时记忆网络（LSTM）与多尺度、多层次特征融合卷积神经网络（CNN）相结合的分类算法——野外车辆识别算法（FVNet）。该算法先采用一层LSTM网络提取声信号的时序特征,充分利用声信号的长时依赖关系;再用CNN并行提取多尺度特征,避免网络加深过程中特征的流失;引入通道注意力机制进行多尺度和多层次特征融合,增强多尺度、多层次关键特征信息;最后在相同数据集上进行验证。实验结果表明,FVNet算法对3种车辆的总识别率可达94.95%,与传统方法相比,其总识别率提高了14.61%,取得了较好的分类效果。相似文献

11.

Deep global-attention based convolutional network with dense connections for text classification

Tang Xianlun Chen Yingjie Xu Jin Yu Xinxian 《中国邮电高校学报(英文版)》2020,27(2):46-55

Text classification is a classic task innatural language process (NLP). Convolutional neural networks (CNNs) have demonstrated its effectiveness in sentence and document modeling. However, most of existing CNN models are applied to the fixed-size convolution filters, thereby unable to adapt different local interdependency. To address this problem, a deep global-attention based convolutional network with dense connections (DGA-CCN) is proposed. In the framework, dense connections are applied to connect each convolution layer to each of the other layers which can accept information from all previous layers and get multiple sizes of local information. Then the local information extracted by the convolution layer is reweighted by deep global-attention to obtain a sequence representation with more valuable information of the whole sequence. A series of experiments are conducted on five text classification benchmarks, and the experimental results show that the proposed model improves upon the state of-the-art baselines on four of five datasets, which can show the effectiveness of our model for text classification. 相似文献

12.

卷积神经网络在异常声音识别中的研究

下载免费PDF全文

胡涛张超程炳吴小培《信号处理》2018,34(3):357-367

卷积神经网络(CNNs)已广泛应用于语音识别领域中以改善传统声学模型存在的鲁棒性弱、实时性差、识别性能低等缺点。本文对卷积神经网络在异常声音识别任务中的适用性及其识别性能进行了研究,针对日常常见的6种不同异常声音样本,分析了不同声音特征的维度对卷积神经网络识别性能的的影响,还将卷积神经网络分别与高斯混合模型、BP神经网络进行比较。实验结果表明,无噪声条件下,一维特征在卷积神经网络中的平均识别率比二维特征相对提升了2.91%,且误差收敛速度更快,但在有噪声条件下,二维特征的平均识别率比一维特征相对提升了3.41%。同时卷积神经网络比其它两种识别模型在对噪声的鲁棒性和误差收敛速度等方面均有明显的优势。相似文献

13.

Video description method based on multidimensional and multimodal information

Enjie DING Zhongyu LIU Yafeng LIU Wanli YU 《通信学报》2020,41(2):36-43

相似文献

14.

结合时序注意力机制的多特征融合行人序列图像属性识别方法

下载免费PDF全文

黄晨裴继红赵阳《信号处理》2022,38(1):64-73

目前绝大多数的行人属性识别任务都是基于单张图像的,单张图像所含信息有限,而图像序列中包含丰富的有用信息和时序特征,利用序列信息是提高行人属性识别性能的一个重要途径.本文提出了结合时序注意力机制的多特征融合行人序列图像属性识别网络,该网络除了使用常见的空-时二次平均池化特征聚合和空-时平均最大池化特征聚合提取序列的特征外... 相似文献

15.

Multi-view motion modelled deep attention networks (M2DA-Net) for video based sign language recognition

《Journal of Visual Communication and Image Representation》2021

Currently, video-based Sign language recognition (SLR) has been extensively studied using deep learning models such as convolutional neural networks (CNNs) and recurrent neural networks (RNNs). In addition, using multi view attention mechanism along with CNNs could be an appealing solution that can be considered in order to make the machine interpretation process immune to finger self-occlusions. The proposed multi stream CNN mixes spatial and motion modelled video sequences to create a low dimensional feature vector at multiple stages in the CNN pipeline. Hence, we solve the view invariance problem into a video classification problem using attention model CNNs. For superior network performance during training, the signs are learned through a motion attention network thus focusing on the parts that play a major role in generating a view based paired pooling using a trainable view pair pooling network (VPPN). The VPPN, pairs views to produce a maximally distributed discriminating features from all the views for an improved sign recognition. The results showed an increase in recognition accuracies on 2D video sign language datasets. Similar results were obtained on benchmark action datasets such as NTU RGB D, MuHAVi, WEIZMANN and NUMA as there is no multi view sign language dataset except ours. 相似文献

16.

Spatiotemporal emotion recognition based on 3D time-frequency domain feature matrix

晁浩连卫芳刘永利《中国邮电高校学报(英文版)》2022,29(5):62-72

The research of emotion recognition based on electroencephalogram (EEG) signals often ignores the relatedinformation between the brain electrode channels and the contextual emotional information existing in EEG signals,which may contain important characteristics related to emotional states. Aiming at the above defects, aspatiotemporal emotion recognition method based on a 3-dimensional (3D) time-frequency domain feature matrixwas proposed. Specifically, the extracted time-frequency domain EEG features are first expressed as a 3D matrixformat according to the actual position of the cerebral cortex. Then, the input 3D matrix is processed successivelyby multivariate convolutional neural network (MVCNN) and long short-term memory (LSTM) to classify theemotional state. Spatiotemporal emotion recognition method is evaluated on the DEAP data set, and achievedaccuracy of 87.58% and 88.50% on arousal and valence dimensions respectively in binary classification tasks, aswell as obtained accuracy of 84.58% in four class classification tasks. The experimental results show that 3D matrixrepresentation can represent emotional information more reasonably than two-dimensional (2D). In addition,MVCNN and LSTM can utilize the spatial information of the electrode channels and the temporal context information of the EEG signal respectively. 相似文献