期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

马淼李贻斌武宪青高金凤潘海鹏《中国图象图形学报》2020,25(12):2517-2529

目的视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果使用具有挑战性的人体行为识别数据集UCF （University of Central Florida）50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。相似文献

2.

多模态零样本人体动作识别

下载免费PDF全文

吕露露黄毅高君宇杨小汕徐常胜《中国图象图形学报》2021,26(7):1658-1667

目的在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别（zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF）框架。方法本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络（convolutional neural network, CNN）提取心率和加速度特征;分类模块利用所有概念（传感器特征、动作和对象名称）的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。相似文献

3.

面向改进尺度缩放网络的绝缘子识别

下载免费PDF全文

赵文清张海明徐敏夫《中国图象图形学报》2021,26(11):2561-2570

目的在电力系统中，准确地识别绝缘子目标是保障输电线路正常运行的重要前提。针对传统方法无法自动提取绝缘子特征，以及深度学习网络提取绝缘子语义信息不足的问题，提出了一种基于改进多尺度网络的绝缘子识别模型，同时满足自动识别和增强语义信息的要求。方法改进工作主要分为3部分，首先，采用特征融合的方法，增强特征提取网络生成的特征图的语义信息；其次，特征提取后，为了避免经过多次卷积、池化操作，较小尺度绝缘子语义信息损失严重，因此，扩大网络中的小尺度特征图，进一步丰富较小尺度绝缘子的语义信息；最后，为了更好地识别尺度差异较大的绝缘子，改进锚点框的参数。完成改进工作后，通过边框回归得到绝缘子的准确位置信息，最终识别出绝缘子。结果实验数据集由复合、玻璃和陶瓷3种材质的绝缘子构成，共有4 350幅图像。在实验数据集上进行识别，实验结果与3种不同结构的多尺度网络模型相比，模型结构最优，识别准确率为96.28%，与传统的Faster RCNN（faster region convolutional neural network）、改进的Faster RCNN等方法相比，识别准确率提高了1.98%~11.99%不等。结论本文提出的改进模型使绝缘子识别准确率显著提高，为之后的输电线路检测工作夯实基础。相似文献

4.

轻量级注意力约束对齐网络的视频超分重建

下载免费PDF全文

靳雨桐宋慧慧刘青山《中国图象图形学报》2022,27(10):2984-2993

目的深度学习在视频超分辨率重建领域表现出优异的性能,本文提出了一种轻量级注意力约束的可变形对齐网络,旨在用一个模型参数少的网络重建出逼真的高分辨率视频帧。方法本文网络由特征提取模块、注意力约束对齐子网络和动态融合分支3部分组成。1）共享权重的特征提取模块在不增加参数量的前提下充分提取输入帧的多尺度语义信息。2）将提取到的特征送入注意力约束对齐子网络中生成具有精准匹配关系的对齐特征。3）将拼接好的对齐特征作为共享条件输入动态融合分支,融合前向神经网络中参考帧的时域对齐特征和原始低分辨率（low-resolution,LR）帧在不同阶段的空间特征。4）通过上采样重建高分辨率（high-resolution,HR）帧。结果实验在两个基准测试数据集（Vid4（Vimeo-90k）和REDS4（realistic and diverse scenes dataset））上进行了定量评估,与较先进的视频超分辨率网络相比,本文方法在图像质量指标峰值信噪比（peak signal to noise ratio,PSNR）和结构相似性（structural similarity,SSIM）方面获得了更好的结果,进一步提高了超分辨率的细节特征。本文网络在获得相同的PSNR指标的情况下,模型参数减少了近50%。结论通过极轴约束使得注意力对齐网络模型参数量大大减少,并能够充分捕获远距离信息来进行特征对齐,产生高效的时空特征,还通过设计动态融合机制,实现了高质量的重建结果。相似文献

5.

增强二阶网络调制的目标跟踪

下载免费PDF全文

王献海宋慧慧张开华刘青山《中国图象图形学报》2021,26(3):516-526

目的表观模型对视觉目标跟踪的性能起着决定性的作用。基于网络调制的跟踪算法通过构建高效的子网络学习参考帧目标的表观信息,以用于测试帧目标的鲁棒匹配,在多个目标跟踪数据集上表现优异。但是,这类跟踪算法忽视了高阶信息对鲁棒建模物体表观的重要作用,致使在物体表观发生大尺度变化时易产生跟踪漂移。为此本文提出全局上下文信息增强的二阶池化调制子网络,以学习高阶特征提升跟踪器的性能。方法首先,利用卷积神经网络（convolutional neural networks,CNN）提取参考帧和测试帧的特征;然后,对提取的特征采用不同方向的长短时记忆网络（long shot-term memory networks,LSTM）捕获每个像素的全局上下文信息,再经过二阶池化网络提取高阶信息;最后,通过调制机制引导测试帧学习最优交并比预测。同时,为提升跟踪器的稳定性,在线跟踪通过指数加权平均自适应更新物体表观特征。结果实验结果表明,在OTB100（object tracking benchmark）数据集上,本文方法的成功率为67.9%,超越跟踪器ATOM （accurate tracking by overlap maximization）1.5%;在VOT （visual object tracking）2018数据集上平均期望重叠率（expected average overlap,EAO）为0.44,超越ATOM 4%。结论本文通过构建全局上下文信息增强的二阶池化调制子网络来学习高效的表观模型,使跟踪器达到目前领先的性能。相似文献

6.

SSD与时空特征融合的视频目标检测

下载免费PDF全文

尉婉青禹晶柏鳗晏肖创柏《中国图象图形学报》2021,26(3):542-555

目的视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测（single shot multibox detector,SSD）与时空特征融合的视频目标检测模型。方法在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果实验结果表明,本文模型在ImageNet VID （Imagelvet for video object detetion）数据集上的mAP （mean average precision）为72.0%,相对于TCN （temporal convolutional networks）模型、TPN+LSTM （tubelet proposal network and long short term memory network）模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。相似文献

7.

双光流网络指导的视频目标检测

下载免费PDF全文

尉婉青禹晶史薪琪肖创柏《中国图象图形学报》2021,26(10):2473-2484

目的卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果实验结果表明,本文模型的mAP（mean average precision）为76.4%,相比于TCN（temporal convolutional networks）模型、TPN+LSTM（tubelet proposal network and long short term memory network）模型、D（&T loss）模型和FGFA（flow-guided feature aggregation）模型分别提高了28.9%、8.0%、0.6%和0.2%。结论本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。相似文献

8.

多级卷积特征金字塔的细粒度食物图片识别

下载免费PDF全文

梁华刚温晓倩梁丹丹李怀德茹锋《中国图象图形学报》2019,24(6):870-881

目的食物图片具有结构多变、背景干扰大、类间差异小、类内差异大等特点,比普通细粒度图片的识别难度更大。目前在食物图片识别领域,食物图片的识别与分类仍存在精度低、泛化性差等问题。为了提高食物图片的识别与分类精度,充分利用食物图片的全局与局部细节信息,本文提出了一个多级卷积特征金字塔的细粒度食物图片识别模型。方法本文模型从整体到局部逐级提取特征,将干扰较大的背景信息丢弃,仅针对食物目标区域提取特征。模型主要由食物特征提取网络、注意力区域定位网络和特征融合网格3部分组成,并采用3级食物特征提取网络的级联结构来实现特征由全局到局部的转移。此外,针对食物图片尺度变化大的特点,本文模型在每级食物特征提取网络中加入了特征金字塔结构,提高了模型对目标大小的鲁棒性。结果本文模型在目前主流公开的食物图片数据集Food-101、ChineseFoodNet和Food-172上进行实验,分别获得了91.4%、82.8%、90.3%的Top-1正确率,与现有方法相比提高了1%~8%。结论本文提出了一种多级卷积神经网络食物图片识别模型,可以自动定位食物图片区分度较大的区域,融合食物图片的全局与局部特征,实现了食物图片的细粒度识别,有效提高了食物图片的识别精度。实验结果表明,该模型在目前主流食物图片数据集上取得了最好的结果。相似文献

9.

面向智能监控的行为识别

下载免费PDF全文

马钰锡谭励董旭于重重《中国图象图形学报》2019,24(2):282-290

目的为了进一步提高智能监控场景下行为识别的准确率和时间效率,提出了一种基于YOLO（you only look once：unified,real-time object detection）并结合LSTM（long short-term memory）和CNN（convolutional neural network）的人体行为识别算法LC-YOLO（LSTM and CNN based on YOLO）。方法利用YOLO目标检测的实时性,首先对监控视频中的特定行为进行即时检测,获取目标大小、位置等信息后进行深度特征提取;然后,去除图像中无关区域的噪声数据;最后,结合LSTM建模处理时间序列,对监控视频中的行为动作序列做出最终的行为判别。结果在公开行为识别数据集KTH和MSR中的实验表明,各行为平均识别率达到了96.6%,平均识别速度达到215 ms,本文方法在智能监控的行为识别上具有较好效果。结论提出了一种行为识别算法,实验结果表明算法有效提高了行为识别的实时性和准确率,在实时性要求较高和场景复杂的智能监控中有较好的适应性和广泛的应用前景。相似文献

10.

结合双视觉全卷积网络的遥感影像地物提取

下载免费PDF全文

李道纪郭海涛张保明赵传卢俊余东行《中国图象图形学报》2020,25(3):535-545

目的遥感影像地物提取是遥感领域的研究热点。由于背景和地物类型复杂多样,单纯利用传统方法很难对地物类别进行准确区分和判断,因而常常造成误提取和漏提取。目前基于卷积神经网络CNN（convolutional neural network）的方法进行地物提取的效果普遍优于传统方法,但需要大量的时间进行训练,甚至可能出现收敛慢或网络不收敛的情况。为此,基于多视觉信息特征的互补原理,提出了一种双视觉全卷积网络结构。方法该网络利用VGG（visual geometry group）16和AlexNet分别提取局部和全局视觉特征,并经过融合网络对两种特征进行处理,以充分利用其包含的互补信息。同时,将局部特征提取网络作为主网络,减少计算复杂度,将全局特征提取网络作为辅助网络,提高预测置信度,加快收敛,减少训练时间。结果选取公开的建筑物数据集和道路数据集进行实验,并与二分类性能优异的U-Net网络和轻量型Mnih网络进行对比。实验结果表明,本文提出的双视觉全卷积网络的平均收敛时间仅为U-Net网络的15.46%;提取精度与U-Net相当,远高于Mnih;在95%的置信水平上,该网络的置信区间明显优于U-Net。结论本文提出的双视觉全卷积网络,融合了影像中地物的局部细节特征和全局特征,能保持较高的提取精度和置信度,且更易训练和收敛,为后续遥感影像地物提取与神经网络的设计提供了参考方向。相似文献

11.

基于双流网络融合与时空卷积的人体行为识别

秦悦石跃祥《计算技术与自动化》2021,40(2):140-147

针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1％和66.1％的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高. 相似文献

12.

用于骨架行为识别的多维特征嵌合注意力机制

下载免费PDF全文

姜权晏吴小俊徐天阳《中国图象图形学报》2022,27(8):2391-2403

目的在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA)。方法不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息。结果实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2FA与其基线方法2s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果。在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%。同时,消融实验验证了多维特征嵌合机制的有效性。实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果。结论通过与基线方法2s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确。相似文献

13.

面向时空特征融合的GSTIN动作识别网络

李克文张震涛李素杰雷永秀《计算机应用研究》2021,38(8):2479-2484

视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8％和70.6％,这表明GSTIN与其他动作识别网络相比具有较好的识别性能. 相似文献

14.

面向旷场实验视频分类的特征拼接矩阵学习方法

下载免费PDF全文

肖照林杨志林刘欢金海燕《中国图象图形学报》2022,27(3):988-1000

目的旷场实验（open field test,OFT）是行为学与药理实验分析中常用的实验方法。为了对比测试组和参考组被测小鼠的行为特征差异,通常需要耗费大量精力对旷场实验数据进行处理和观测。由于旷场实验数据量大且较依赖观测人员的主观判断,导致对小鼠行为差异观测的精度较低且缺乏量化评价指标。为此,本文提出一种基于卷积神经网络（convolutional neural networks,CNN）的旷场实验视频分类方法,可基于量化特征对两组小鼠的行为差异自动分类。方法从视频空域和时域中提取22维的小鼠运动行为特征,经过量化后生成特征矩阵,进而以矩阵拼接方式构造可学习的行为特征矩阵样本,利用不同结构卷积神经网络对提取的行为特征矩阵样本进行训练和分类,并分析网络结构对分类结果的影响,在实现两组小鼠分类的基础上,对不同维度小鼠行为特征对分类精度的重要性进行评价。结果在真实旷场实验数据集上的实验分析表明,本文算法的分类准确率为99.25%。此外,由实验结果分析发现小鼠的大角度转向频次、停留区域与时间对小鼠分类的重要性高于其他维度特征。结论提出的特征拼接矩阵学习方法能够准确识别两组小鼠旷场实验视频的差异,本文方法的分类准确率明显优于现有人工分析及经典机器学习方法。相似文献

15.

基于3D卷积神经网络的动态手势识别

顾陈楠曾晓勤《计算机与现代化》2019,(11):75

传统的2D卷积神经网络在进行视频识别时容易丢失目标在时间维度上的相关特征信息,导致识别准确率降低。针对该问题,本文采用3D卷积网络作为基本的网络框架,使用3D卷积核进行卷积操作提取视频中的时空特征,同时集成多个3D卷积神经网络模型对动态手势进行识别。为了提高模型的收敛速度和训练的稳定性,运用批量归一化（BN）技术优化网络,使优化后的网络训练时间缩短。实验结果表明,本文方法对于动态手势的识别具有较好的识别结果,在Sheffield Kinect Gesture (SKIG)数据集上识别准确率达到98.06%。与单独使用RGB信息、深度信息以及传统2D CNN相比,手势识别率均有所提高,验证了本文方法的可行性和有效性。相似文献

16.

基于多特征融合的深度视频自然语言描述方法

梁锐朱清新廖淑娇牛新征《计算机应用》2017,37(4):1179-1184

针对计算机对视频进行自动标注和描述准确率不高的问题,提出一种基于多特征融合的深度视频自然语言描述的方法。该方法提取视频帧序列的空间特征、运动特征、视频特征,进行特征的融合,使用融合的特征训练基于长短期记忆（LSTM）的自然语言描述模型。通过不同的特征组合训练多个自然语言描述模型,在测试时再进行后期融合,即先选择一个模型获取当前输入的多个可能的输出,再使用其他模型计算当前输出的概率,对这些输出的概率进行加权求和,取概率最高的作为输出。此方法中的特征融合的方法包括前期融合：特征的拼接、不同特征对齐加权求和;后期融合：不同特征模型输出的概率的加权融合,使用前期融合的特征对已生成的LSTM模型进行微调。在标准测试集MSVD上进行实验,结果表明：融合不同类型的特征方法能够获得更高评测分值的提升;相同类型的特征融合的评测结果不会高于单个特征的分值;使用特征对预训练好的模型进行微调的方法效果较差。其中使用前期融合与后期融合相结合的方法生成的视频自然语言描述得到的METEOR评测分值为0.302,比目前查到的最高值高1.34%,表明该方法可以提升视频自动描述的准确性。相似文献

17.

基于人类演示视频的机器人指令生成框架

莫秀云陈俊洪杨振国刘文印《机器人》2022,44(2):186-194+202

为了提高机器人学习技能的能力,免除人工示教过程,本文基于对无特殊标记的人类演示视频的观察,提出了一种基于序列到序列模式的机器人指令自动生成框架。首先,使用Mask R-CNN（区域卷积神经网络）来缩小操作区域的范围,并采用双流I3D网络（膨胀3D卷积网络）从视频中提取光流特征和RGB特征;其次,引入双向LSTM（长短期记忆）网络从先前提取的特征中获取上下文信息;最后,使用自我注意力机制和全局注意力机制,学习视频帧序列和命令序列的关联性,序列到序列模型最终输出机器人的命令。在扩展后的MPII烹饪活动2数据集和IIT-V2C数据集上进行了大量的实验,与现有的方法进行比较,本文提出的方法在BLEU_4（0.705）和METEOR（0.462）等指标上达到目前最先进性能水平。结果表明,该方法能够从人类演示视频中学习操作任务。此外,本框架成功应用于Baxter机器人。相似文献

18.

RGBD人体行为识别中的自适应特征选择方法

下载免费PDF全文

龚冬颖黄敏张洪博李绍滋《智能系统学报》2017,12(1):1-7

目前在RGBD视频的行为识别中,为了提高识别准确率,许多方法采用多特征融合的方式。通过实验分析发现,行为在特定特征上的分类效果好,但是多特征融合并不能体现个别特征的分类优势,同时融合后的特征维度很高,时空开销大。为了解决这个问题,提出了RGBD人体行为识别中的自适应特征选择方法,通过随机森林和信息熵分析人体关节点判别力,以高判别力的人体关节点的数量作为特征选择的标准。通过该数量阈值的筛选,选择关节点特征或者关节点相对位置作为行为识别特征。实验结果表明,该方法相比于特征融合的算法,行为识别的准确率有了较大提高,超过了大部分算法的识别结果。相似文献

19.

时空特征融合网络的多目标跟踪与分割

下载免费PDF全文

刘雨亭张开华樊佳庆刘青山《中国图象图形学报》2022,27(11):3257-3266

目的多目标跟踪与分割是计算机视觉领域一个重要的研究方向。现有方法多是借鉴多目标跟踪领域先检测然后进行跟踪与分割的思路,这类方法对重要特征信息的关注不足,难以处理目标遮挡等问题。为了解决上述问题,本文提出一种基于时空特征融合的多目标跟踪与分割模型,利用空间三坐标注意力模块和时间压缩自注意力模块选择出显著特征,以此达到优异的多目标跟踪与分割性能。方法本文网络由2D编码器和3D解码器构成,首先将多幅连续帧图像输入到2D编码层,提取出不同分辨率的图像特征,然后从低分辨率的特征开始通过空间三坐标注意力模块得到重要的空间特征,通过时间压缩自注意力模块获得含有关键帧信息的时间特征,再将两者与原始特征融合,然后与较高分辨率的特征共同输入3D卷积层,反复聚合不同层次的特征,以此得到融合多次的既有关键时间信息又有重要空间信息的特征,最后得到跟踪和分割结果。结果实验在YouTube-VIS （YouTube video instance segmentation）和KITTI MOTS （multi-object tracking and segmentation）两个数据集上进行定量评估。在YouTube-VIS数据集中,相比于性能第2的CompFeat模型,本文方法的AP （average precision）值提高了0.2%。在KITTI MOTS数据集中,相比于性能第2的STEm-Seg模型,在汽车类上,本文方法的ID switch指标减少了9;在行人类上,本文方法的sMOTSA （soft multi-object tracking and segmentation accuracy）、MOTSA （multi-object tracking and segmentation accuracy）和MOTSP （multi-object tracking and segmentation precision）分别提高了0.7%、0.6%和0.9%,ID switch指标减少了1。在KITTI MOTS数据集中进行消融实验,验证空间三坐标注意力模块和时间压缩自注意力模块的有效性,消融实验结果表明提出的算法改善了多目标跟踪与分割的效果。结论提出的多目标跟踪与分割模型充分挖掘多帧图像之间的特征信息,使多目标跟踪与分割的结果更加精准。相似文献