期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

闫河黄奎霖王潇棠张唯《信息与控制》2023,(5):616-625

针对视觉同时定位与地图构建(SLAM)算法的视觉里程计在动态场景中受动态物体干扰致使帧间特征点误匹配,导致相机位姿估计误差大、定位精度低、鲁棒性差等问题,提出一种结合语义信息的视觉里程计动态特征点剔除方法。采用改进的YOLOv5目标检测网络为视觉里程计提供物体的语义信息,然后结合对极几何约束的运动一致性检测算法确定目标检测边界框中的动态物体,从而实现动态特征点的有效剔除,最后,仅利用静态特征完成位姿估计与定位。在TUM数据集上对比实验结果表明,其绝对轨迹误差(ATE)、平移和旋转相对位姿误差(RPE)的均方根误差(RMSE)值与ORB-SLAM2相比分别降低了97.71%、 95.10%和91.97%,验证了所提出的方法显著降低了动态场景下的位姿估计误差,提高了系统的准确性和鲁棒性。相似文献

2.

融合外观和运动特征的在线目标分割

下载免费PDF全文

张雷李成龙汤进高思晗《中国图象图形学报》2015,20(10):1358-1365

目的视频中的目标分割是计算机视觉领域的一个重要课题,有着极大的研究和应用价值。为此提出一种融合外观和运动特征的在线自动式目标分割方法。方法首先,融合外观和运动特征进行目标点估计,结合上一帧的外观模型估计出当前帧的外观模型。其次,以超像素为节点构建马尔可夫随机场模型,结合外观模型和位置先验把分割问题转化为能量最小化问题,并通过Graph Cut进行优化求解。结果最后,在两个数据集上与5种标准方法进行了对比分析,同时评估了本文方法的组成成分。本文算法在精度上至少比其他的目标分割算法提升了44.8%,且具有较高的分割效率。结论本文通过融合外观与运动特征实现在线的目标分割,取得较好的分割结果,且该方法在复杂场景中也具有较好的鲁棒性。相似文献

3.

基于语义概率预测的动态场景单目视觉SLAM

下载免费PDF全文

潘小鹍刘浩敏方铭王政张涌章国锋《中国图象图形学报》2023,28(7):2151-2166

目的基于视觉的同步定位与建图（visual-based simultaneous localization and mapping,vSLAM）是计算机视觉以及机器人领域中的关键技术,其通过对输入的图像进行处理分析来感知周围的3维环境以及进行自身的定位。现有的SLAM系统大多依赖静态世界假设,在真实环境中的动态物体会严重影响视觉SLAM系统的稳定运行。同时,场景中静止与运动部分往往和其语义有密切关系,因而可以借助场景中的语义信息来提升视觉SLAM系统在动态环境下的稳定性。为此,提出一种新的基于语义概率预测的面向动态场景的单目视觉SLAM算法。方法结合语义分割的结果以及鲁棒性估计算法,通过对分割进行数据关联、状态检测,从概率的角度来表示观测的静止/运动状态,剔除动态物体上的观测对相机位姿估计的干扰,同时借助运动概率及时剔除失效的地图点,使系统在复杂动态的场景中依然能够稳定运行。结果在本文构建的复杂动态场景数据集上,提出的方法在跟踪精度和完整度上都显著优于现有的单目视觉SLAM方法,而且在TUM-RGBD数据集中的多个高动态序列上也取得了更好的结果。此外,本文定性比较了动态场景下的建图质量以及AR（augmented reality）效果。结果表明,本文方法明显优于对比方法。结论本文通过结合语义分割信息以及鲁棒性估计算法,对分割区域进行数据关联以及运动状态检测,以概率的形式表示2D观测的运动状态,同时及时剔除失效地图点,使相机位姿估计的精度以及建图质量有了明显提升,有效提高了单目视觉SLAM在高度动态环境中运行的鲁棒性。相似文献

4.

运动显著性概率图提取及目标检测

下载免费PDF全文

王慧斌陈哲卢苗葛晨曦《中国图象图形学报》2018,23(2):229-238

目的动态场景图像中所存在的静态目标、背景纹理等静态噪声,以及背景运动、相机抖动等动态噪声,极易导致运动目标检测误检或漏检。针对这一问题,本文提出了一种基于运动显著性概率图的目标检测方法。方法该方法首先在时间尺度上构建包含短期运动信息和长期运动信息的构建时间序列组;然后利用TFT（temporal Fourier transform）方法计算显著性值。基于此,得到条件运动显著性概率图。接着在全概率公式指导下得到运动显著性概率图,确定前景候选像素,突出运动目标的显著性,而对背景的显著性进行抑制;最后以此为基础,对像素的空间信息进行建模,进而检测运动目标。结果对提出的方法在3种典型的动态场景中与9种运动目标检测方法进行了性能评价。3种典型的动态场景包括静态噪声场景、动态噪声场景及动静态噪声场景。实验结果表明,在静态噪声场景中,F_score提高到92.91%,准确率提高到96.47%,假正率低至0.02%。在动态噪声场景中,F_score提高至95.52%,准确率提高到95.15%,假正率低至0.002%。而在这两种场景中,召回率指标没有取得最好的性能的原因是,本文所提方法在较好的包络目标区域的同时,在部分情况下易将部分目标区域误判为背景区域的,尤其当目标区域较小时,这种误判的比率更为明显。但是,误判的比率一直维持在较低的水平,且召回率的指标也保持在较高的值,完全能够满足于实际应用的需要,不能抵消整体性能的显著提高。另外,在动静态噪声场景中,4种指标均取得了最优的性能。因此,本文方法能有效地消除静态目标干扰,抑制背景运动和相机抖动等动态噪声,准确地检测出视频序列中的运动目标。结论本文方法可以更好地抑制静态背景噪声和由背景变化（水波荡漾、相机抖动等）引起的动态噪声,在复杂的噪声背景下准确地检测出运动目标,提高了运动目标检测的鲁棒性和普适性。相似文献

5.

动态场景图像序列中运动目标检测新方法 总被引：1，自引：0，他引：1

下载免费PDF全文

郑世友费树岷刘怀龙飞《中国图象图形学报》2007,12(9):1590-1597

在动态场景图像序列中检测运动目标时,如何消除因摄影机运动带来的图像帧间全局运动的影响,以便分割图像中的静止背景和运动物体,是一个必须解决的难题。针对复杂背景下动态场景图像序列的特性,给出了一种新的基于场景图像参考点3D位置恢复的图像背景判别方法和运动目标检测方法。首先,介绍了图像序列的层次化运动模型以及基于它的运动分割方法;然后,利用估计出的投影矩阵计算序列图像中各运动层的参考点3D位置,根据同一景物在不同帧中参考点3D位置恢复值的变化特性,来判别静止背景对应的运动层和运动目标对应的运动层,从而分割出图像中的静止背景和运动目标;最后,给出了动态场景图像序列中运动目标检测的详细算法。实验结果表明,新算法较好地解决了在具有多组帧间全局运动参数的动态场景序列图像中检测运动目标的问题,较大地提高了运动目标跟踪算法的有效性和鲁棒性。相似文献

6.

双光流网络指导的视频目标检测

下载免费PDF全文

尉婉青禹晶史薪琪肖创柏《中国图象图形学报》2021,26(10):2473-2484

目的卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果实验结果表明,本文模型的mAP（mean average precision）为76.4%,相比于TCN（temporal convolutional networks）模型、TPN+LSTM（tubelet proposal network and long short term memory network）模型、D（&T loss）模型和FGFA（flow-guided feature aggregation）模型分别提高了28.9%、8.0%、0.6%和0.2%。结论本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。相似文献

7.

基于鲁棒背景运动补偿的运动目标检测算法*

赖作镁王敬儒张启衡《计算机应用研究》2007,24(3):66-68

提出一种用仿射参数模型来近似场景中摄像机的复杂运动,采用参数化的多分辨率估计方法鲁棒地估计出仿射参数;然后在当前帧与运动补偿后的帧之间求光流场,得到目标轮廓的初始分割;最后通过聚类和搜索填充算法分割出完整的目标.试验结果表明,该运动补偿算法能有效消除摄像机运动引起的背景运动,在摄像机运动情况下得到完整的目标. 相似文献

8.

多尺度分析的运动注意力计算

下载免费PDF全文

刘龙樊波阳《中国图象图形学报》2014,19(1):101-108

目的由于光流估算的缺陷、噪声干扰以及现有运动注意力模型的局限性,导致运动注意力计算结果不能准确反映运动的显著性特征,制约了运动显著图的进一步应用。为提高运动注意力计算的准确性,提出一种基于时—空多尺度分析的运动注意力计算方法。方法该方法根据视觉运动注意力来自于时—空运动反差的注意力形成机理构建运动注意力模型;通过时间尺度滤波去除噪声影响;鉴于视觉观测对尺度的依赖性,通过对视频帧的多尺度分解,在多个空间尺度进行运动注意力的计算,根据宏块像素值的相关系数大小对低尺度、中低尺度和原始尺度的运动注意力计算结果进行融合,得到最终的运动注意力显著图。结果对多个视频测试序列的测试,测试结果表明,本文方法比同类方法更能真实有效地反映出视频场景中的运动显著性特征,大大提高了运动显著图的准确性。结论为有效提高运动注意力计算不准确的问题,提出一种基于时—空多尺度分析的运动注意力计算方法,对于不同复杂视频运动场景,该方法能明显增强运动注意力计算的准确性,为视觉运动注意力的进一步应用奠定了良好基础。相似文献

9.

面向室内动态环境的半直接法RGB-D SLAM算法

高成强张云洲王晓哲邓毅姜浩《机器人》2019,41(3):372-383

为了解决室内动态环境下移动机器人的准确定位问题,提出了一种融合运动检测算法的半直接法RGB-D视觉SLAM(同时定位与地图创建)算法,它由运动检测、相机位姿估计、基于TSDF (truncated signed distance function)模型的稠密地图构建3个步骤组成.首先,通过最小化图像光度误差,利用稀疏图像对齐算法实现对相机位姿的初步估计.然后,使用视觉里程计的位姿估计对图像进行运动补偿,建立基于图像块实时更新的高斯模型,依据方差变化分割出图像中的运动物体,进而剔除投影在图像运动区域的局部地图点,通过最小化重投影误差对相机位姿进行进一步优化,提升相机位姿估计精度.最后,使用相机位姿和RGB-D相机图像信息构建TSDF稠密地图,利用图像运动检测结果和地图体素块的颜色变化,完成地图在动态环境下的实时更新.实验结果表明,在室内动态环境下,本文算法能够有效提高相机位姿估计精度,实现稠密地图的实时更新,在提升系统鲁棒性的同时也提升了环境重构的准确性. 相似文献

10.

基于RGB-D深度相机的室内场景重建 总被引：1，自引：1，他引：0

下载免费PDF全文

梅峰刘京李淳芃王兆其《中国图象图形学报》2015,20(10):1366-1373

目的重建包含真实纹理的彩色场景3维模型是计算机视觉领域重要的研究课题之一,由于室内场景复杂、采样图像序列长且运动无规则,现有的3维重建算法存在重建尺度受限、局部细节重建效果差的等问题。方法以RGBD-SLAM 算法为基础并提出了两方面的改进,一是将深度图中的平面信息加入帧间配准算法,提高了帧间配准算法的鲁棒性与精度;二是在截断符号距离函数(TSDF)体重建过程中,提出了一种指数权重函数,相比普通的权重函数能更好地减少相机深度畸变对重建的影响。结果本文方法在相机姿态估计中带来了比RGBD-SLAM方法更好的结果,平均绝对路径误差减少1.3 cm,能取得到更好的重建效果。结论本文方法有效地提高了相机姿态估计精度,可以应用于室内场景重建中。相似文献

11.

Multiple motion scene reconstruction with uncalibrated cameras

Mei Han Kanade T. 《IEEE transactions on pattern analysis and machine intelligence》2003,25(7):884-894

In this paper, we describe a reconstruction method for multiple motion scenes, which are scenes containing multiple moving objects, from uncalibrated views. Assuming that the objects are moving with constant velocities, the method recovers the scene structure, the trajectories of the moving objects, the camera motion, and the camera intrinsic parameters (except skews) simultaneously. We focus on the case where the cameras have unknown and varying focal lengths while the other intrinsic parameters are known. The number of the moving objects is automatically detected without prior motion segmentation. The method is based on a unified geometrical representation of the static scene and the moving objects. It first performs a projective reconstruction using a bilinear factorization algorithm and, then, converts the projective solution to a Euclidean one by enforcing metric constraints. Experimental results on synthetic and real images are presented. 相似文献

12.

Motion stereo using ego-motion complex logarithmic mapping 总被引：1，自引：0，他引：1

Jain R Bartlett SL O'Brien N 《IEEE transactions on pattern analysis and machine intelligence》1987,(3):356-369

Stereo information can be obtained using a moving camera. If a dynamic scene is acquired using a translating camera and the camera motion parameters are known, then the analysis of the scene may be facilitated by ego-motion complex logarithmic mapping (ECLM). It is shown in this paper that by using the complex logarithmic mapping (CLM) with respect to the focus of expansion, the depth of stationary components can be determined easily in the transformed image sequence. The proposed approach for depth recovery avoids the difficult problems of establishing correspondence and computation of optical flow, by using the ego-motion information. An added advantage of the CLM will be the invariances it offers. We report our experiments with synthetic data to show the sensitivity of the depth recovery, and show results of real scenes to demonstrate the efficacy of the proposed motion stereo in applications such as autonomous navigation. 相似文献

13.

Prior-Free Dependent Motion Segmentation Using Helmholtz-Hodge Decomposition Based Object-Motion Oriented Map

下载免费PDF全文

Cui-Cui Zhang Zhi-Lei Liu 《计算机科学技术学报》2017,32(3):520-535

Motion segmentation in moving camera videos is a very challenging task because of the motion dependence between the camera and moving objects. Camera motion compensation is recognized as an effective approach. However, existing work depends on prior-knowledge on the camera motion and scene structure for model selection. This is not always available in practice. Moreover, the image plane motion suffers from depth variations, which leads to depth-dependent motion segmentation in 3D scenes. To solve these problems, this paper develops a prior-free dependent motion segmentation algorithm by introducing a modified Helmholtz-Hodge decomposition (HHD) based object-motion oriented map (OOM). By decomposing the image motion (optical flow) into a curl-free and a divergence-free component, all kinds of camera-induced image motions can be represented by these two components in an invariant way. HHD identifies the camera-induced image motion as one segment irrespective of depth variations with the help of OOM. To segment object motions from the scene, we deploy a novel spatio-temporal constrained quadtree labeling. Extensive experimental results on benchmarks demonstrate that our method improves the performance of the state-of-the-art by 10%~20% even over challenging scenes with complex background. 相似文献

14.

动态环境下基于增强分割的RGB-D SLAM方法

王浩卢德玖方宝富《机器人》2022,44(4):418-430

目前视觉SLAM（同步定位与地图创建）方法在动态环境下易出现漏剔除动态物体的问题,影响相机位姿估计精度以及地图的可用性。为此,本文提出一种基于增强分割的RGB-D SLAM方法。首先结合实例分割网络与深度图像聚类的结果,判断当前帧是否出现漏分割现象,若出现则根据多帧信息对分割结果进行修补,同时,提取当前帧的Shi-To... 相似文献

15.

基于块划分的HEVC运动目标分割方法

牛志国梁久祯吴秦《计算机工程与应用》2016,52(14):202-208

针对压缩域视频的运动对象分割在复杂背景下分割精度不高的问题,提出一种基于最新压缩编码HEVC的运动分割方法。首先从HEVC压缩码流中提取块划分和相对应的运动矢量信息,并分别在帧内和帧间对运动矢量进行空域和时域的标签分类,然后利用MRF模型对标签场进行运动一致性估计,得到更精确的运动目标,最后输出MRF分割后形成的掩模信息。通过实验证明,该运动分割方法能够达到有效并可靠的分割效果,尤其对于多目标运动的视频分割效果优于其他比较的方法。相似文献

16.

基于地形高程模型的飞行器位姿估计方法

廖威翁璐斌于俊伟田原《计算机应用》2011,31(6):1709-1712

针对无法依靠景象匹配手段进行导航定位和无法有效利用惯导姿态信息的情况,提出了一种基于地形高程模型的飞行器绝对姿态和位置的估计方法。该方法首先利用机载下视摄像系统获取实时立体图像对及利用传感器获得飞行速度信息,通过修改双像运动模型来重建飞行器下方的地形信息;然后利用三维重建结果的刚体约束给出一种匹配机载地形高程模型数据的方法,用于估计飞行器在世界坐标系中的绝对位姿。仿真结果表明：改进的双像运动模型具有更高的精度,更有利于在世界坐标系下进行位姿估计。相似文献

17.

Recovery of ego-motion using region alignment 总被引：2，自引：0，他引：2

Irani M. Rousso B. Peleg S. 《IEEE transactions on pattern analysis and machine intelligence》1997,19(3):268-272

A method for computing the 3D camera motion (the ego-motion) in a static scene is described, where initially a detected 2D motion between two frames is used to align corresponding image regions. We prove that such a 2D registration removes all effects of camera rotation, even for those image regions that remain misaligned. The resulting residual parallax displacement field between the two region-aligned images is an epipolar field centered at the FOE (Focus-of-Expansion). The 3D camera translation is recovered from the epipolar field. The 3D camera rotation is recovered from the computed 3D translation and the detected 2D motion. The decomposition of image motion into a 2D parametric motion and residual epipolar parallax displacements avoids many of the inherent ambiguities and instabilities associated with decomposing the image motion into its rotational and translational components, and hence makes the computation of ego-motion or 3D structure estimation more robust 相似文献

18.

Continuous localization and mapping of a pan–tilt–zoom camera for wide area tracking

Giuseppe Lisanti Iacopo Masi Federico Pernici Alberto Del Bimbo 《Machine Vision and Applications》2016,27(7):1071-1085

Pan–tilt–zoom (PTZ) cameras are well suited for object identification and recognition in far-field scenes. However, the effective use of PTZ cameras is complicated by the fact that a continuous online camera calibration is needed and the absolute pan, tilt and zoom values provided by the camera actuators cannot be used because they are not synchronized with the video stream. So, accurate calibration must be directly extracted from the visual content of the frames. Moreover, the large and abrupt scale changes, the scene background changes due to the camera operation and the need of camera motion compensation make target tracking with these cameras extremely challenging. In this paper, we present a solution that provides continuous online calibration of PTZ cameras which is robust to rapid camera motion, changes of the environment due to varying illumination or moving objects. The approach also scales beyond thousands of scene landmarks extracted with the SURF keypoint detector. The method directly derives the relationship between the position of a target in the ground plane and the corresponding scale and position in the image and allows real-time tracking of multiple targets with high and stable degree of accuracy even at far distances and any zoom level. 相似文献