首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
目的 视频目标分割是在给定第1帧标注对象掩模条件下,实现对整个视频序列中感兴趣目标的分割。但是由于分割对象尺度的多样性,现有的视频目标分割算法缺乏有效的策略来融合不同尺度的特征信息。因此,本文提出一种特征注意金字塔调制网络模块用于视频目标分割。方法 首先利用视觉调制器网络和空间调制器网络学习分割对象的视觉和空间信息,并以此为先验引导分割模型适应特定对象的外观。然后通过特征注意金字塔模块挖掘全局上下文信息,解决分割对象多尺度的问题。结果 实验表明,在DAVIS 2016数据集上,本文方法在不使用在线微调的情况下,与使用在线微调的最先进方法相比,表现出更具竞争力的结果,J-mean指标达到了78.7%。在使用在线微调后,本文方法的性能在DAVIS 2017数据集上实现了最好的结果,J-mean指标达到了68.8%。结论 特征注意金字塔调制网络的视频目标分割算法在对感兴趣对象分割的同时,针对不同尺度的对象掩模能有效结合上下文信息,减少细节信息的丢失,实现高质量视频对象分割。  相似文献   

2.
吕潇  宋慧慧  樊佳庆 《计算机应用》2022,42(12):3884-3890
为了解决半监督视频目标分割任务中,分割精度与分割速度难以兼顾以及无法对视频中与前景相似的背景目标做出有效区分的问题,提出一种基于深浅层特征融合的半监督视频目标分割算法。首先,利用预先生成的粗糙掩膜对图像特征进行处理,以获取更鲁棒的特征;然后,通过注意力模型提取深层语义信息;最后,将深层语义信息与浅层位置信息进行融合,从而得到更加精确的分割结果。在多个流行的数据集上进行了实验,实验结果表明:在分割运行速度基本不变的情况下,所提算法在DAVIS 2016数据集上的雅卡尔(J)指标相较于学习快速鲁棒目标模型的视频目标分割(FRTM)算法提高了1.8个百分点,综合评价指标为JF得分的均值J&F相较于FRTM提高了2.3个百分点;同时,在DAVIS 2017数据集上,所提算法的J指标比FRTM提升了1.2个百分点,综合评价指标J&F比FRTM提升了1.1个百分点。以上结果充分说明所提算法能够在保持较快分割速度的情况下实现更高的分割精度,并且能够有效区别相似的前景与背景目标,具有较强的鲁棒性。可见所提算法在平衡速度与精度以及有效区分前景背景方面的优越性能。  相似文献   

3.
对视频中的目标进行像素级分割是计算机视觉领域的研究热点,完全没有用户标注的无监督视频分割对分割算法提出了更高的要求。近几年在分割中常使用基于帧间运动信息进行建模的方法,即用光流等运动信息预测目标轮廓,再结合颜色等特征建立模型进行分割。针对这些方法产生的前景背景混淆以及边缘粗糙等问题,本文提出结合全卷积网络的视频目标分割方法。首先通过全卷积网络预测视频序列中显著目标的轮廓,结合光流获得的运动显著性标签进行修正,然后建立时间-空间图模型,运用图割的方法获得最终的预测标签。在SegTrack v2以及DAVIS这2个通用数据集上进行评估,结果表明本文方法较基于帧间运动信息的方法在分割效果上有明显的提高。  相似文献   

4.
针对实时语义分割方法中因忽略其本质所导致的分割精度不高的问题,提出了一种多级上下文引导的轻量化网络。首先,将深度可分离卷积及非对称卷积相结合,设计了基于并行非对称卷积的上下文引导模型(CGPA)以学习局部特征及其周围上下文构成的联合特征;其次,将该模型堆叠于网络来实现特征的多级优化;最后,通过通道注意模型(CAM)筛选出与更高阶段语义一致的浅层特征,从而提高分割效果。实验结果表明,所提网络在Cityscapes数据集上以94.7的帧速率获得了72.4%的平均交并比,并在CamVid数据集上取得显著的性能提升。同当前的其他实时语义分割方法相比,该网络性能更优。  相似文献   

5.
目的 随着移动互联网和人工智能的蓬勃发展,海量的视频数据不断产生,如何对这些视频数据进行处理分析是研究人员面临的一个挑战性问题。视频中的物体由于拍摄角度、快速运动和部分遮挡等原因常常表现得模糊和多样,与普通图像数据集的质量存在不小差距,这使得对视频数据的实例分割难度较大。目前的视频实例分割框架大多依靠图像检测方法直接处理单帧图像,通过关联匹配组成同一目标的掩膜序列,缺少对视频困难场景的特定处理,忽略对视频时序信息的利用。方法 本文设计了一种基于时序特征融合的多任务学习视频实例分割模型。针对普通视频图像质量较差的问题,本模型结合特征金字塔和缩放点积注意力机制,在时间上把其他帧检测到的目标特征加权聚合到当前图像特征上,强化了候选目标的特征响应,抑制背景信息,然后通过融合多尺度特征丰富了图像的空间语义信息。同时,在分割网络模块增加点预测网络,提升了分割准确度,通过多任务学习的方式实现端到端的视频物体同时检测、分割和关联跟踪。结果 在YouTube-VIS验证集上的实验表明,与现有方法比较,本文方法在视频实例分割任务上平均精度均值提高了2%左右。对比实验结果证明提出的时序特征融合模块改善了视频分割的效果。结论 针对当前视频实例分割工作存在的忽略对视频时序上下文信息的利用,缺少对视频困难场景进行处理的问题,本文提出融合时序特征的多任务学习视频实例分割模型,提升对视频中物体的分割效果。  相似文献   

6.
为了解决目标跟踪中的尺度变化、相似性干扰、遮挡等问题,提出一种基于实例分割与毕达哥拉斯模糊决策的目标跟踪算法。在实例分割网络YOLACT++(improved You Only Look At CoefficienTs)的基础上,融合3种不同的匹配方式针对不同场景预测跟踪结果;同时提出一种基于毕达哥拉斯模糊决策的模板更新机制,即根据预测结果的质量作出是否更新目标模板和更换匹配方式的决定。实验结果表明,所提算法能够更准确地跟踪存在尺度变化、相似性干扰、遮挡等问题的视频序列。相较于SiamMask算法,所提算法在DAVIS 2016、DAVIS 2017数据集上的区域相似度分别提高了12.3、15.3个百分点,在VOT2016、VOT2018数据集上的预期平均重叠率(EAO)分别提高了4.2、4.1个百分点,且所提算法的平均跟踪速度为每秒32.00帧,满足实时性要求。  相似文献   

7.
视频异常检测旨在发现视频中的异常事件,异常事件的主体多为人、车等目标,每个目标都具有丰富的时空上下文信息,而现有检测方法大多只关注时间上下文,较少考虑代表检测目标和周围目标之间关系的空间上下文。提出一种融合目标时空上下文的视频异常检测算法。采用特征金字塔网络提取视频帧中的目标以减少背景干扰,同时计算相邻两帧的光流图,通过时空双流网络分别对目标的RGB帧和光流图进行编码,得到目标的外观特征和运动特征。在此基础上,利用视频帧中的多个目标构建空间上下文,对目标外观和运动特征重新编码,并通过时空双流网络重构上述特征,以重构误差作为异常分数对外观异常和运动异常进行联合检测。实验结果表明,该算法在UCSD-ped2和Avenue数据集上帧级AUC分别达到98.5%和86.3%,在UCSD-ped2数据集上使用时空双流网络相对于只用时间流和空间流网络分别提升5.1和0.3个百分点,采用空间上下文编码后进一步提升1个百分点,验证了融合方法的有效性。  相似文献   

8.
大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation, UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先, RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能.  相似文献   

9.
目的 从大量数据中学习时空目标模型对于半监督视频目标分割任务至关重要,现有方法主要依赖第1帧的参考掩膜(通过光流或先前的掩膜进行辅助)估计目标分割掩膜。但由于这些模型在对空间和时域建模方面的局限性,在快速的外观变化或遮挡下很容易失效。因此,提出一种时空部件图卷积网络模型生成鲁棒的时空目标特征。方法 首先,使用孪生编码模型,该模型包括两个分支:一个分支输入历史帧和掩膜捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩膜。其次,构建时空部件图,使用图卷积网络学习时空特征,增强目标的外观和运动模型,并引入通道注意模块,将鲁棒的时空目标模型输出到解码模块。最后,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。结果 在DAVIS(densely annotated video segmentation)-2016和DAVIS-2017两个数据集上与最新的12种方法进行比较,在DAVIS-2016数据集上获得了良好性能,Jacccard相似度平均值(Jaccard similarity-mean,J-M)和F度量平均值(F measure-mean,F-M)得分达到了85.3%,比性能最高的对比方法提高了1.7%;在DAVIS-2017数据集上,J-MF-M得分达到了68.6%,比性能最高的对比方法提高了1.2%。同时,在DAVIS-2016数据集上,进行了网络输入与后处理的对比实验,结果证明本文方法改善了多帧时空特征的效果。结论 本文方法不需要在线微调和后处理,时空部件图模型可缓解因目标外观变化导致的视觉目标漂移问题,同时平滑精细模块增加了目标边缘细节信息,提高了视频目标分割的性能。  相似文献   

10.
目的 针对视觉目标跟踪(video object tracking,VOT)和视频对象分割(video object segmentation,VOS)问题,研究人员提出了多个多任务处理框架,但是该类框架的精确度和鲁棒性较差。针对此问题,本文提出一个融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架。方法 文中提出的架构使用了由空洞深度可分离卷积组成的更加多尺度的空洞空间金字塔池化模块,以及具备帧间信息的帧间掩模传播模块,使得网络对多尺度目标对象分割能力更强,同时具备更好的鲁棒性。结果 本文方法在视觉目标跟踪VOT-2016和VOT-2018数据集上的期望平均重叠率(expected average overlap,EAO)分别达到了0.462和0.408,分别比SiamMask高了0.029和0.028,达到了最先进的结果,并且表现出更好的鲁棒性。在视频对象分割DAVIS(densely annotated video segmentation)-2016和DAVIS-2017数据集上也取得了有竞争力的结果。其中,在多目标对象分割DAVIS-2017数据集上,本文方法比SiamMask有更好的性能表现,区域相似度的杰卡德系数的平均值JM和轮廓精确度的F度量的平均值FM分别达到了56.0和59.0,并且区域和轮廓的衰变值JDFD都比SiamMask中的低,分别为17.9和19.8。同时运行速度为45帧/s,达到了实时的运行速度。结论 文中提出的融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架,充分捕捉了多尺度上下文信息并且利用了视频帧间的信息,使得网络对多尺度目标对象分割能力更强的同时具备更好的鲁棒性。  相似文献   

11.
在半监督的分割任务中,单镜头视频对象分割(OSVOS)方法根据第一帧的对象标记掩模进行引 导,从视频画面中分离出后续帧中的前景对象。虽然取得了令人印象深刻的分割结果,但其不适用于前景对象 外观变化显著或前景对象与背景外观相似的情形。针对这些问题,提出一种用于视频对象分割的仿 U 形网络结 构。将注意力机制加入到此网络的编码器和解码器之间,以便在特征图之间建立关联来产生全局语义信息。同 时,优化损失函数,进一步解决了类别间的不平衡问题,提高了模型的鲁棒性。此外,还将多尺度预测与全连 接条件随机场(FC/Dense CRF)结合,提高了分割结果边缘的平滑度。在具有挑战性的 DAVIS 2016 数据集上进 行了大量实验,此方法与其他最先进方法相比获得了具有竞争力的分割结果。  相似文献   

12.
视频对象分割是指在给定的一段视频序列的各帧图像中,找出属于特定前景对象的所有像素点位置区域.随着硬件平台计算能力的提升,深度学习受到了越来越多的关注,在视频对象分割领域也取得了一定的进展.本文首先介绍了视频对象分割的主要任务,并总结了该任务所面临的挑战.其次,对开放的视频对象分割常用数据集进行了简要概述,并介绍了通用的性能评估标准.接着,综述了视频对象分割的研究现状,详细地分析了当前的各种方法,并将它们划分为三大类:半监督的方法,即给出视频第一帧图像中感兴趣对象的详细人工真值标注,分割出视频剩余图像中的感兴趣对象;无监督的方法,即不给任何人工标注信息,自动识别并分割出视频中的前景对象;交互式的方法,即在分割过程中,通过人工交互式的参与,结合粗略的人工标注先验信息,进行视频对象分割.第三类方法的条件相当于前两者的折中:相对于第一类方法,它虽然需要人工的参与,但只需要少量的标注工作量;相对于第二类方法,它给视频序列中某些帧的图像适当地添加了一些人工标注信息,从而更具针对性.最后,对深度学习在视频对象分割任务中的应用,进行了总结和展望.  相似文献   

13.
Recently, video object segmentation has received great attention in the computer vision community. Most of the existing methods heavily rely on the pixel-wise human annotations, which are expensive and time-consuming to obtain. To tackle this problem, we make an early attempt to achieve video object segmentation with scribble-level supervision, which can alleviate large amounts of human labor for collecting the manual annotation. However, using conventional network architectures and learning objective functions under this scenario cannot work well as the supervision information is highly sparse and incomplete. To address this issue, this paper introduces two novel elements to learn the video object segmentation model. The first one is the scribble attention module, which captures more accurate context information and learns an effective attention map to enhance the contrast between foreground and background. The other one is the scribble-supervised loss, which can optimize the unlabeled pixels and dynamically correct inaccurate segmented areas during the training stage. To evaluate the proposed method, we implement experiments on two video object segmentation benchmark datasets, YouTube-video object segmentation (VOS), and densely annotated video segmentation (DAVIS)-2017. We first generate the scribble annotations from the original per-pixel annotations. Then, we train our model and compare its test performance with the baseline models and other existing works. Extensive experiments demonstrate that the proposed method can work effectively and approach to the methods requiring the dense per-pixel annotations.   相似文献   

14.
提出了一种基于注意力机制的视频分割网络及其全局信息优化训练方法.该方法包含一个改进的视频分割网络,在对视频中的物体进行分割后,利用初步分割的结果作为先验信息对网络优化,再次分割得到最终结果.该分割网络是一种双流卷积网络,以视频图像和光流图像作为输入,分别提取图像的表观信息和运动信息,最终融合得到分割掩膜(Segmentation mask).网络中嵌入了一个新的卷积注意力模块,应用于卷积网络的高层次特征与相邻低层次特征之间,使得高层语义特征可以定位低层特征中的重要区域,提高网络的收敛速度和分割准确度.在初步分割之后,本方法提出利用初步结果作为监督信息对表观网络的权值进行微调,使其辨识前景物体的特征,进一步提高双流网络的分割效果.在公开数据集DAVIS上的实验结果表明,该方法可准确地分割出视频中时空显著的物体,效果优于同类双流分割方法.对注意力模块的对比分析实验表明,该注意力模块可以极大地提高分割网络的效果,较本方法的基准方法(Baseline)有很大的提高.  相似文献   

15.
目的 视频目标分割(video object segmentation,VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量。对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法。方法 对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征。然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸。最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词。对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图。然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果。为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率。结果 实验结果表明,本文方法在视频目标分割数据集DAVIS (densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果,区域相似度与轮廓精度之间的平均值J&F-mean (Jaccard and F-score mean)分别为83.2%和72.3%。结论 本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题,实现高质量的视频目标分割。  相似文献   

16.
丁飞飞  杨文元 《计算机应用》2018,38(10):2782-2787
大部分基于图论的视频分割方法往往先通过分析运动和外观信息获得先验显著性区域,然后用最小化能量模型来进一步分割,这些方法常常忽略对外观信息精细化分析,建立的目标模型对复杂场景的鲁棒性不佳。根据信息熵能够度量样本纯度,信息熵最小化和能量模型最小化具有一致的目标,提出一种信息熵约束下的视频目标分割方法。首先在经典光流法基础上结合点在多边形内部原理获得第一阶段的分割结果;然后以超像素为基本分割单元,获得均匀的运动和表现;最后在能量函数中引入信息熵约束项,构建前景背景像素标记的优化问题,通过最小化能量函数得到更精确的分割结果。在公开数据集上的实验结果表明目标模型中引入信息熵约束项能够有效提高视频目标分割的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号