期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

项俊林染染黄子源侯建华《计算机工程与应用》2020,56(20):152-157

行人重识别是计算机视觉领域一个重要的研究方向。近年来,随着视频监控需求的日益增长,基于视频序列的行人重识别研究受到了广泛的关注。典型的视频序列行人重识别系统由三部分构成：图片特征提取器（例如卷积神经网络）、提取时域信息的时域模型、损失函数。在固定特征提取器和损失函数的前提下,研究不同时域模型对视频行人重识别算法性能的影响,包括时域池化、时域注意力、循环神经网络。在Mars数据集上的实验结果表明：与基于图像的行人重识别基准算法相比,采用时域池化模型、时间注意力模型可以有效改善识别精度,但采用循环神经网络后识别效果比基准算法有所下降。相似文献

2.

结合BiLSTM和注意力机制的视频行人再识别

下载免费PDF全文

余晨阳温林凤杨钢王玉涛《中国图象图形学报》2019,24(10):1703-1710

目的跨摄像头跨场景的视频行人再识别问题是目前计算机视觉领域的一项重要任务。在现实场景中,光照变化、遮挡、观察点变化以及杂乱的背景等造成行人外观的剧烈变化,增加了行人再识别的难度。为提高视频行人再识别系统在复杂应用场景中的鲁棒性,提出了一种结合双向长短时记忆循环神经网络（BiLSTM）和注意力机制的视频行人再识别算法。方法首先基于残差网络结构,训练卷积神经网络（CNN）学习空间外观特征,然后使用BiLSTM提取双向时间运动信息,最后通过注意力机制融合学习到的空间外观特征和时间运动信息,以形成一个有判别力的视频层次表征。结果在两个公开的大规模数据集上与现有的其他方法进行了实验比较。在iLIDS-VID数据集中,与性能第2的方法相比,首位命中率Rank1指标提升了4.5%;在PRID2011数据集中,相比于性能第2的方法,首位命中率Rank1指标提升了3.9%。同时分别在两个数据集中进行了消融实验,实验结果验证了所提出算法的有效性。结论提出的结合BiLSTM和注意力机制的视频行人再识别算法,能够充分利用视频序列中的信息,学习到更鲁棒的序列特征。实验结果表明,对于不同数据集,均能显著提升识别性能。相似文献

3.

行人再识别技术综述 总被引：20，自引：7，他引：13

李幼蛟卓力张菁李嘉锋张辉《自动化学报》2018,44(9):1554-1568

行人再识别指的是判断不同摄像头下出现的行人是否属于同一行人, 可以看作是图像检索的子问题, 可以广泛应用于智能视频监控、安保、刑侦等领域.由于行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化等原因, 使得行人再识别成为目前计算机视觉领域一个既具有研究价值又极具挑战性的研究热点和难点问题.早期的行人再识别方法大多基于人工设计特征, 在小规模数据集上开展研究.近年来, 大规模行人再识别数据集不断推出, 以及深度学习技术的迅猛发展, 为行人再识别技术的发展带来了新的契机.本文对行人再识别的发展历史、研究现状以及典型方法进行梳理和总结.首先阐述了行人再识别的基本研究框架, 然后分别针对行人再识别的两个关键技术(特征表达和相似性度量), 进行了归纳总结, 重点介绍了目前发展迅猛的深度学习技术在行人再识别中的应用.另外, 本文对行人再识别中代表性的数据集以及在各个数据集上可以取得优异性能的方法进行了分析和比较.最后对行人再识别技术的未来发展趋势进行了展望. 相似文献

4.

ReID2.0：从行人再识别走向人像态势计算

下载免费PDF全文

王生进豆朝鹏樊懿轩李亚利《中国图象图形学报》2023,28(5):1326-1345

行人再识别（person re-identification,Person ReID）指利用计算机视觉技术对在一个摄像头的视频图像中出现的某个确定行人在其他时间、不同位置的摄像头中再次出现时能够辨识出来,或在图像或视频库中检索特定行人。行人再识别研究具有强烈的实际需求,在公共安全、新零售以及人机交互领域具有潜在应用,具备显著的机器学习和计算机视觉领域的理论研究价值。行人成像存在复杂的姿态、视角、光照和成像质量等变化,同时也有一定范围的遮挡等难点,因此行人再识别面临着非常大的技术挑战。近年来,学术界和产业界投入了巨大的人力和资源研究该问题,并取得了一定进展,在多个数据集上的平均准确率均值（mean average precision,mAP）有了较大提升,并部分开始实际应用。尽管如此,当前行人再识别研究主要还是侧重于服装表观的特征,缺乏对行人表观显式的多视角观测和描述,这与人类观测的机理不尽相符。本文旨在打破现有行人再识别任务的设定,形成对行人综合性观测描述。为推进行人再识别研究的进展,本文在前期行人再识别研究的基础上提出了人像态势计算的概念（ReID2.0）。人像态势计算以像态、形态、... 相似文献

5.

基于多尺度特征融合的小尺度行人检测

《软件》2019,(12):100-105

随着无人驾驶技术的蓬勃发展,针对行人的检测成为一大难点,同时也是热点研究问题。而针对传统行人检测框架(One-stage和Two-stage等)对小尺度行人检测效果不佳的问题,本文在FPN网络基础上尝试了新的策略,致力于提高视频序列不同尺度行人的识别精度。算法先通过ResNet50提取特征,并采用FPN进行多尺度特征融合,同时利用RPN产生推荐区域,最后Fast RCNN对RPN产生的推荐区域实现分类与回归,经过非极大值抑制后处理等到最终结果。实验结果表明,本文基于FPN构建的行人检测算法,在CityPersons数据集上达到了11.88%MR,比基准模型Adapted Faster RCNN在小尺度行人检测上有较大提升,相比于传统检测框架能更好的检测不同尺度的行人。该技术可以广泛应用在智能视频监控,车辆辅助驾驶等领域中。相似文献

6.

面向行人重识别的局部特征研究进展、挑战与展望

姚足龚勋陈锐卢奇罗彬《自动化学报》2021,47(12):2742-2760

行人重识别(Person re-identification, Re-ID)旨在跨区域、跨场景的视频中实现行人的检索及跟踪, 其成果在智能监控、刑事侦查、反恐防暴等领域具有广阔的应用前景. 由于真实场景下的行人图像存在光照差异大、拍摄视角不统一、物体遮挡等问题, 导致从图像整体提取的全局特征易受无关因素的干扰, 识别精度不高. 基于局部特征的方法通过挖掘行人姿态、人体部位、视角特征等关键信息, 可加强模型对人体关键区域的学习, 降低无关因素的干扰, 从而克服全局特征的缺陷, 也因此成为近几年的研究热点. 本文对近年基于局部特征的行人重识别文献进行梳理, 简述了行人重识别的发展历程, 将基于局部特征的方法归纳为基于姿势提取、基于特征空间分割、基于视角信息、基于注意力机制四类, 并详细阐述了每一类的原理及优缺点. 然后在三个主流行人数据集上对典型方法的识别性能进行了分析比较, 最后总结了目前基于局部特征算法的难点, 并对未来本领域的研究趋势和发展方向进行展望. 相似文献

7.

基于ResNet-LSTM的行人过街行为识别方法

窦雪婷《计算机与数字工程》2021,49(9):1872-1877

为提高行人行为识别精度,通过基于光流处理的Resnet-LSTM网络模型对行人过街行为进行识别.在采用光流法对连续视频帧进行处理的基础上,基于ResNet神经网络提取有序光流数据信息的空间维度特征,并利用LSTM网络进行时序性分析,完成行人过街行为的分类识别.论文利用Weizmann数据集对该模型做有效性检验,结果表明,算法的行为识别率可达99.46％. 相似文献

8.

跨模态行人重识别研究与展望

陈丹李永忠于沛泽邵长斌《计算机系统应用》2020,29(10):20-28

行人重识别是计算机视觉的热门研究方向,其对智能安防、视频监控的发展有着重大意义.目前大部分工作主要集中在研究基于可见光的行人重识别,然而可见光摄像头无法在光线不足的黑夜中正常使用,而新型摄像头能够随机切换红外模式进行24小时视频监控,因此最近有一些工作对RGB-IR跨模态行人重识别问题进行了研究.本文分别从定义、研究难点和发展现状介绍了跨模态行人重识别问题,并根据不同的技术类型将目前存在的方法分为三类,即基于统一特征模型的方法;基于度量学习的方法;基于模态转换的方法.本文也详细介绍了该任务的数据集和评价准则,并对现有算法的性能进行分析与归纳.最后,总结了跨模态行人重识别的未来发展方向. 相似文献

9.

基于情景记忆的运动小目标行人检测神经网络

下载免费PDF全文

张本康胡滨《计算机工程与应用》2022,58(15):169-183

从视觉场景中可靠地检测小目标行人对象是构建未来人工智能视觉系统的重要基础。由于运动小目标的视感尺寸小且纹理特征模糊,导致现有的传统行人目标检测方法难以应对。针对该问题,基于蝗虫视觉系统的神经结构特性,借助人类大脑内侧颞叶（MTL）情景记忆认知机理,提出一种适用于运动小目标行人检测的人工视觉神经网络（STPDNN）模型。所提出的神经网络包括两部分：突触前和突触后子网络。其中,突触前网络模拟蝗虫视觉系统加工处理视觉信号的神经机理,获得表征目标对象低阶特征的视觉运动线索;突触后网络从低阶视觉信号中提取出行人目标的情景记忆高阶信息,以实现对运动目标的偏好性响应。系统性的实验结果表明,提出的STPDNN可有效检测视觉场景中的运动小目标行人对象。该研究工作涉及生物视神经机理启发的行人目标动态视觉信息加工处理,可为智能视频监控中的行人检测识别与运动行为分析提供新思想、新方法。相似文献

10.

基于可变形掩膜对齐卷积模型的行人再识别

下载免费PDF全文

刘畅邱卫根张立臣《计算机工程与应用》2021,57(5):146-152

行人再识别是计算机视觉领域的一个重要研究方向,在视频监控等非常广阔的领域有极其重要的应用前景。行人再识别研究中遇到的一个重要挑战就是行人图像对齐问题。利用全卷积模型和全局平均池化操作,提出了一种新的可变形掩膜对齐的深度卷积神经网络模型,它不仅可以解决行人图像对齐问题,而且实现了行人图像的多信息融合。该方法在Market-1501和DukeMTMC-reID两大数据集上进行了验证,整体准确率得到了很大提高。相似文献

11.

基于深度学习的人体行为识别算法综述 总被引：10，自引：0，他引：10

朱煜赵江坤王逸宁郑兵兵《自动化学报》2016,42(6):848-857

人体行为识别和深度学习理论是智能视频分析领域的研究热点, 近年来得到了学术界及工程界的广泛重视, 是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础. 近年来, 被广泛关注的深度学习算法已经被成功运用于语音识别、图形识别等各个领域.深度学习理论在静态图像特征提取上取得了卓著成就, 并逐步推广至具有时间序列的视频行为识别研究中. 本文在回顾了基于时空兴趣点等传统行为识别方法的基础上, 对近年来提出的基于不同深度学习框架的人体行为识别新进展进行了逐一介绍和总结分析; 包括卷积神经网络(Convolution neural network, CNN)、独立子空间分析(Independent subspace analysis, ISA)、限制玻尔兹曼机(Restricted Boltzmann machine, RBM)以及递归神经网络(Recurrent neural network, RNN)及其在行为识别中的模型建立, 对模型性能、成果进展及各类方法的优缺点进行了分析和总结. 相似文献

12.

视频群体行为识别综述

吴建超王利民武港山《软件学报》2023,34(2):964-984

群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在共同完成的群体行为.群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中.多人场景视频较为复杂,时间和空间上的信息十分丰富,对模型提取关键信息的能力要求更高.模型只有高效地建模场景中的层次化关系,并为人物群体提取有区分性的时空特征,才能准确地识别出群体行为.由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注.对近几年来群体行为识别问题上的大量研究工作进行了深入分析,总结出了群体行为识别研究所面临的主要挑战,系统地归纳出了6种类型的群体行为识别方法,包含传统非深度学习识别方法以及基于深度学习技术的识别方法,并对未来研究的可能方向进行了展望. 相似文献

13.

城市量化研究中视频人流统计分析 总被引：1，自引：0，他引：1

曹诚卿粼波韩龙玫何小海《计算机系统应用》2018,27(4):88-93

在现代城市规划研究中,聚焦人的信息的深度分析至关重要.采用有效的视频分析技术处理和分析监控视频可以极大地扩充行人信息的基础数据,对城市量化研究具有重大意义.该研究方法通过拍摄一段时期同一街道视频进行相应的处理.采用基于前向传播卷积神经网络模型的深度学习方式检测视频中指定监测区域的行人.为确保行人信息的准确性,故对检测到的行人进行跟踪处理,同时添加跟踪目标丢失判断及相应处理.最后量化行人数量、运动方向、滞留时间以及运动速度等信息数据,进行相应的数据分析.实验结果表明该研究方法能有效的实现量化行人信息数据,为城市定量化研究提供准确有效的数据支撑. 相似文献

14.

基于小样本学习的SAR图像识别

汪航陈晓田晟兆陈端兵《计算机科学》2020,47(5):124-128

深度学习已成为图像识别领域的一个研究热点。与传统图像识别方法不同,深度学习从大量数据中自动学习特征,并且具有强大的自学习能力和高效的特征表达能力。但在小样本条件下,传统的深度学习方法如卷积神经网络难以学习到有效的特征,造成图像识别的准确率较低。因此,提出一种新的小样本条件下的图像识别算法用于解决SAR图像的分类识别。该算法以卷积神经网络为基础,结合自编码器,形成深度卷积自编码网络结构。首先对图像进行预处理,使用2D Gabor滤波增强图像,在此基础上对模型进行训练,最后构建图像分类模型。该算法设计的网络结构能自动学习并提取小样本图像中的有效特征,进而提高识别准确率。在MSTAR数据集的10类目标分类中,选择训练集数据中10%的样本作为新的训练数据,其余数据为验证数据,并且,测试数据在卷积神经网络中的识别准确率为76.38%,而在提出的卷积自编码结构中的识别准确率达到了88.09%。实验结果表明,提出的算法在小样本图像识别中比卷积神经网络模型更加有效。相似文献

15.

结合Attention-ConvLSTM的双流卷积行为识别

揭志浩曾明如周鑫恒何强《小型微型计算机系统》2021,(2):405-408

针对传统方法在通过视频数据进行人体行为识别的过程中,无法准确分析长时间范围的运动信息,不能很好地利用运动信息中的局部特征和其空间关系.提出将基于注意力机制的卷积长短时记忆神经网络(Attention-ConvLSTM)与传统的双流卷积进行结合,实现了对视频数据中运动信息的非线性特征更好的学习,对局部显著特征及其空间关系更好的利用.本文还设计了新的正则交叉熵损失函数,使得扩展之后的神经网络实现更快的收敛.本文的方法在UCF101和HMDB51两个通用人体行为视频数据集上的表现相较于传统的方法有明显的提升. 相似文献

16.

基于时空共现模式的视觉行人再识别EI北大核心CSCD

钱锦浩宋展仁郭春超赖剑煌谢晓华《自动化学报》2022,48(2):408-417

基于视频图像的视觉行人再识别是指利用计算机视觉技术关联非重叠域摄像头网络下的相同行人,在视频安防和商业客流分析中具有重要应用.目前视觉行人再识别技术已经取得了相当不错的进展,但依旧面临很多挑战,比如摄像机的拍摄视角不同、遮挡现象和光照变化等所导致的行人表观变化和匹配不准确问题.为了克服单纯视觉匹配困难问题,本文提出一种结合行人表观特征跟行人时空共现模式的行人再识别方法.所提方法利用目标行人的邻域行人分布信息来辅助行人相似度计算,有效地利用时空上下文信息来加强视觉行人再识别.在行人再识别两个权威公开数据集Market-1501和DukeMTMC-ReID上的实验验证了所提方法的有效性. 相似文献

17.

采用Transformer网络的视频序列表情识别

下载免费PDF全文

陈港张石清赵小明《中国图象图形学报》2022,27(10):3022-3030

目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络（long short-term memory network,LSTM）和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s （Bahcesehir University multimodal）和RML （Ryerson Multimedia Lab）视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。相似文献

18.

面部表情的深度卷积级联森林识别

何宏陈叔达《小型微型计算机系统》2021,(4):805-809

面部表情识别广泛应用于各种研究领域,针对面部表情识别使用深度神经网络方法结构复杂、可解释性差和传统机器学习方法特征提取缺乏多样性、识别率低的问题.提出了一种新的深度卷积级联森林(Deep Convolution Cascade Forest,DCCF)方法用于人脸面部表情识别,该方法通过卷积神经网络深度学习人脸面部显著特征,并采用基于随机森林的级联结构森林逐层学习识别出不同的面部表情特征,提高了人脸表情的识别准确率.DCCF在JAFFE、CK+和Fer2013 3个公开面部表情数据集进行了实验,并对面部表情提取的5种特征和7种分类方法进行了比较分析,结果显示DCCF在对比的算法中人脸表情识别性能最好,3个数据集的准确率分别达到91.4%,98.7%,71.6%. 相似文献

19.

Human action recognition using three orthogonal planes with unsupervised deep convolutional neural network

Abdelbaky Amany Aly Saleh 《Multimedia Tools and Applications》2021,80(13):20019-20043

Deep learning models have attained great success for an extensive range of computer vision applications including image and video classification. However, the complex architecture of the most recently developed networks imposes certain memory and computational resource limitations, especially for human action recognition applications. Unsupervised deep convolutional neural networks such as PCANet can alleviate these limitations and hence significantly reduce the computational complexity of the whole recognition system. In this work, instead of using 3D convolutional neural network architecture to learn temporal features of video actions, the unsupervised convolutional PCANet model is extended into (PCANet-TOP) which effectively learn spatiotemporal features from Three Orthogonal Planes (TOP). For each video sequence, spatial frames (XY) and temporal planes (XT and YT) are utilized to train three different PCANet models. Then, the learned features are fused after reducing their dimensionality using whitening PCA to obtain spatiotemporal feature representation of the action video. Finally, Support Vector Machine (SVM) classifier is applied for action classification process. The proposed method is evaluated on four benchmarks and well-known datasets, namely, Weizmann, KTH, UCF Sports, and YouTube action datasets. The recognition results show that the proposed PCANet-TOP provides discriminative and complementary features using three orthogonal planes and able to achieve promising and comparable results with state-of-the-art methods.

相似文献