首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
获取周围环境中的语义信息是语义同时定位与建图(Simultaneous Localization and Mapping,SLAM)的重要任务,然而,采用语义分割或实例分割网络会影响系统的时间性能,采用目标检测方法又会损失一部分精度.因此,文中提出联合深度图聚类与目标检测的像素级分割算法,在保证实时性的前提下,提高当前语义SLAM系统的定位精度.首先,采用均值滤波算法对深度图的无效点进行修复,使深度信息更真实可靠.然后,分别对RGB图像和对应的深度图像进行目标检测和K-means聚类处理,结合两者结果,得出像素级的物体分割结果.最后,利用上述结果剔除周围环境中的动态点,建立完整、不含动态物体的语义地图.在TUM数据集和真实家居场景中分别进行深度图修复、像素级分割、估计相机轨迹与真实相机轨迹对比实验,结果表明,文中算法具有较好的实时性与鲁棒性.  相似文献   

2.
视觉SLAM(Simultaneous Localization And Mapping,同时定位与建图)是移动机器人领域的核心技术,传统视觉SLAM还难以适用于高动态场景并且地图中缺少语义信息。提出一种动态环境语义SLAM方法,用深度学习网络对图像进行目标检测,检测动态目标所在区域,对图像进行特征提取并剔除动态物体所在区域的特征点,利用静态的特征点进行位姿计算,对关键帧进行语义分割,在构建语义地图时滤除动态物体的地图点构建出无动态物体干扰的语义地图。在TUM数据集上进行实验,结果显示该方法在动态环境下可以提升88.3%位姿估计精度,并且可同时构建出无动态物体干扰的语义地图。  相似文献   

3.
针对目前因缺少配对的"缺失-完整"RGB-D数据集而不能直接训练端对端深度图像补全模型的问题,提出基于随机掩码构造对应的缺失-完整数据,结合真实数据集与合成数据集交替训练模型的策略.基于随机掩码生成不同缺失比例的深度图像,并且利用合成数据集构造具有可靠真值的深度图像缺失数据,从而得到具有可靠数据的缺失-完整RGB-D数据集.以此策略为基础,搭建融合对应RGB图像特征的多尺度深度图像补全网络,该网络分别从RGB图像特征提取分支和深度图像特征提取分支提取不同尺度的RGB图像特征和深度图像特征,再经过特征融合分支在不同尺度上对RGB图像特征和深度图像特征进行融合,进而能够充分地学习RGB图像丰富的语义信息和深度图像的信息补全缺失深度.在NYU-Depth V2数据集的实验表明,该方法在不同缺失比例的深度图像补全任务中,阈值精度平均值为0.98,平均相对误差约为0.061,与现有基于神经网络和优化稀疏方程组的方法相比,其在阈值精度上平均提升了0.02,平均相对误差平均下降了0.027.  相似文献   

4.
目的 目前主流物体检测算法需要预先划定默认框,通过对默认框的筛选剔除得到物体框。为了保证足够的召回率,就必须要预设足够密集和多尺度的默认框,这就导致了图像中各个区域被重复检测,造成了极大的计算浪费。提出一种不需要划定默认框,实现完全端到端深度学习语义分割及物体检测的多任务深度学习模型(FCDN),使得检测模型能够在保证精度的同时提高检测速度。方法 首先分析了被检测物体数量不可预知是目前主流物体检测算法需要预先划定默认框的原因,由于目前深度学习物体检测算法都是由图像分类模型拓展而来,被检测数量的无法预知导致无法设置检测模型的输出,为了保证召回率,必须要对足够密集和多尺度的默认框进行分类识别;物体检测任务需要物体的类别信息以实现对不同类物体的识别,也需要物体的边界信息以实现对各个物体的区分、定位;语义分割提取了丰富的物体类别信息,可以根据语义分割图识别物体的种类,同时采用语义分割的思想,设计模块提取图像中物体的边界关键点,结合语义分割图和边界关键点分布图,从而完成物体的识别和定位。结果 为了验证基于语义分割思想的物体检测方法的可行性,训练模型并在VOC(visual object classes)2007 test数据集上进行测试,与目前主流物体检测算法进行性能对比,结果表明,利用新模型可以同时实现语义分割和物体检测任务,在训练样本相同的条件下训练后,其物体检测精度优于经典的物体检测模型;在算法的运行速度上,相比于FCN,减少了8 ms,比较接近于YOLO(you only look once)等快速检测算法。结论 本文提出了一种新的物体检测思路,不再以图像分类为检测基础,不需要对预设的密集且多尺度的默认框进行分类识别;实验结果表明充分利用语义分割提取的丰富信息,根据语义分割图和边界关键点完成物体检测的方法是可行的,该方法避免了对图像的重复检测和计算浪费;同时通过减少语义分割预测的像素点数量来提高检测效率,并通过实验验证简化后的语义分割结果仍足够进行物体检测任务。  相似文献   

5.
目的 目标语义特征提取效果直接影响图像语义分割的精度,传统的单尺度特征提取方法对目标的语义分割精度较低,为此,提出一种基于多尺度特征融合的工件目标语义分割方法,利用卷积神经网络提取目标的多尺度局部特征语义信息,并将不同尺度的语义信息进行像素融合,使神经网络充分捕获图像中的上下文信息,获得更好的特征表示,有效实现工件目标的语义分割。方法 使用常用的多类工件图像定义视觉任务,利用残差网络模块获得目标的单尺度语义特征图,再结合本文提出的多尺度特征提取方式获得不同尺度的局部特征语义信息,通过信息融合获得目标分割图。使用上述方法经多次迭代训练后得到与视觉任务相关的工件目标分割模型,并对训练权重与超参数进行保存。结果 将本文方法和传统的单尺度特征提取方法做定性和定量的测试实验,结果表明,获得的分割网络模型对测试集中的目标都具有较精确的分割能力,与单尺度特征提取方法相比,本文方法的平均交并比mIOU(mean intersection over union)指标在验证集上训练精度提高了4.52%,在测试集上分割精度提高了4.84%。当测试样本中包含的目标种类较少且目标边缘清晰时,本文方法能够得到更精准的分割结果。结论 本文提出的语义分割方法,通过多尺度特征融合的方式增强了神经网络模型对目标特征的提取能力,使训练得到的分割网络模型比传统的单尺度特征提取方式在测试集上具有更优秀的性能,从而验证了所提出方法的有效性。  相似文献   

6.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性.  相似文献   

7.
深度学习的发展加快了图像语义分割的研究。目前,最有效的图像语义分割研究方法大部分都是 基于全卷积神经网络(FCNN),尽管现有的语义分割方法能有效地对图像进行整体分割,但对于图像中的重叠遮 挡物体不能清晰地识别出边缘信息,也不能有效地融合图像高低层的特征信息。针对以上问题,在采用 FCNN 来 解决图像语义分割问题的基础上,利用超像素分割对物体边缘的特殊优势作为辅助优化,对粗糙分割结果进行优 化。同时在 FCNN 中利用空洞卷积设计了一个联合局部跨阶段的多尺度特征融合模块,其能有效地利用图像的空 间信息。此外还在网络的上采样模块中加入跳跃连接结构,用来增强网络的学习能力,在训练过程中采用 2 个损 失函数来保证网络稳定收敛和提升网络的性能,图像语义分割网络在公开的数据集 PASCAL VOC 2012 上进行训 练测试。实验结果表明,该改进算法在像素精度和分割准确率方面均有提升,且具有较强的鲁棒性。  相似文献   

8.
随着深度学习的发展,语义分割任务中许多复杂的问题得以解决,为图像理解奠定了坚实的基础.本文算法突出表现在两个方面,其一是利用反卷积网络,对卷积网络中不同深度的卷积层提取到的多尺度特征进行融合,之后再次通过反卷积操作对融合后的特征图进行上采样,将其放大到原图像的大小,最后对每个像素进行语义类别的预测.其二为了提升本文网络结构的性能,提出一种新的数据处理方式,批次中心化算法.经过实验验证,本文算法在SIFT-Flow数据集上语义分割的平均准确率达到45.2%,几何分割的准确率达到96.8%,在PASCAL VOC2012数据集上语义分割的平均准确率达到73.5%.  相似文献   

9.
高分辨率遥感图像有丰富的空间特征, 针对遥感土地覆盖方法中模型复杂, 边界模糊和多尺度分割等问题, 提出了一种基于边界与多尺度信息的轻量化语义分割网络. 首先, 使用轻量化的MobileNetV3分类器, 采用深度可分离卷积来减少计算量. 其次, 使用自顶向下和自底向上的特征金字塔结构来进行多尺度分割. 接着, 设计了一个边界增强模块, 为分割任务提供丰富的边界细节信息. 然后, 设计了一个特征融合模块, 融合边界与多尺度语义特征. 最后, 使用交叉熵损失函数和Dice损失函数来处理样本不平衡的问题. 在 WHDLD数据集的平均交并比达到了59.64%, 总体精度达到了87.68%. 在DeepGlobe数据集的平均交并比达到了70.42%, 总体精度达到了88.81%. 实验结果表明, 该模型能快速有效地实现遥感图像土地覆盖分类.  相似文献   

10.
深度神经网络图像语义分割方法综述   总被引:1,自引:0,他引:1  
图像语义分割是计算机视觉领域近年来的热点研究课题,随着深度学习技术的兴起,图像语义分割与深度学习技术进行融合发展,取得了显著的进步,在无人驾驶、智能安防、智能机器人、人机交互等真实场景中应用广泛。首先对应用于图像语义分割的几种深度神经网络模型进行简单介绍,接着详细阐述了现有主流的基于深度神经网络的图像语义分割方法,依据实现技术的区别对图像语义分割方法进行分类,并对每类方法中代表性算法的技术特点、优势和不足进行分析与总结。之后归纳了图像语义分割常用的大规模公共数据集和性能评价指标,并在此基础上对经典的语义分割方法的实验结果进行了对比,最后对语义分割领域未来可行的研究方向进行展望。  相似文献   

11.
目前图像语义分割算法中可能会出现分割图像的不连续与细尺度目标丢失的缺陷,故提出可变形卷积融合增强图像的语义分割算法。算法集HRNet网络框架、Xception Module以及可变形的卷积于一体,用轻量级Xception Module优化HRNet原先存在的Bottleneck模块,同时在网络的第一阶段串联融合可变形卷积,通过建立轻量级融合加强网络从而增强针对细尺度目标特征物的辨识精度,从而使得该轻量级融合增强网络在粗尺度目标物被分割时取得相对多的细尺度目标的语义特征信息,进一步缓解语义分割图像的不连续与细尺度的目标丢失。使用Cityscapes数据集,实验结果可以说明,优化后的算法对于细尺度目标分割精度得到了显著的增强,同时解决了图像语义分割导致的分割不连续的问题。然后进行实验使用的是公开数据集PASCAL VOC 2012,实验进一步的验证了优化算法的鲁棒性以及泛化能力。  相似文献   

12.
讨论立体图对的图像分割问题,提出一种基于深度和颜色信息的图像物体分割算法。该算法首先利用基于聚类的Mean-shift分割算法对目标图像进行适度的过分割,同时借助双目立体视觉算法获取立体图对的稠密深度图,并依据深度不连续性从过分割结果中选取用于继续进行“精致”分割的种子点集,接着对未分配种子标签的区域用图割算法分配标签,并对彼此之间没有深度不连续边界但具有不同标签的相邻区域进行融合。相比于传统图像分割算法,该算法可有效克服过分割和欠分割问题,获取具有一定语义的图像分割结果。相关的对比实验结果验证了该算法的有效性。  相似文献   

13.
现有的图像修复算法经常会有伪影、语义不准等问题出现,对于缺失较大、分辨率较高的图像,修复效果有限.为此,文中提出基于并行对抗与多条件融合的二阶图像修复网络.首先,利用改进的深度残差网络对缺失图像进行生成式像素填充,并利用第一阶对抗网络补全边缘.然后,提取填充图颜色特征,融合补全边缘图,将融合图作为第二阶对抗网络的条件标签.最后,通过带上下文注意力模块的第二阶网络得到修复结果.在多个数据集上的实验表明,文中算法可获得较逼真的修复效果.  相似文献   

14.
针对室内复杂场景中, 图像语义分割存在的特征损失和双模态有效融合等问题, 提出了一种基于编码器-解码器架构的融合注意力机制的轻量级语义分割网络. 首先采用两个残差网络作为主干网络分别对RGB和深度图像进行特征提取, 并在编码器中引入极化自注意力机制, 然后设计引入双模态融合模块在不同阶段对RGB特征和深度特征进行有效融合, 接着引入并行聚合金字塔池化以获取区域之间的依赖性. 最后, 采用3个不同尺寸的解码器将前面的多尺度特征图进行跳跃连接并融合解码, 使分割结果含有更多的细节纹理. 将本文提出的网络模型在NYUDv2数据集上进行训练和测试, 并与一些较先进RGB-D语义分割网络对比, 实验证明本文网络具有较好分割性能.  相似文献   

15.
场景理解是智能自主机器人领域的一个重要研究方向,而图像分割是场景理解的基础.但是,不完备的训练数据集,以及真实环境中的罕见情形,会导致在图像分割时存在先验知识不完备的情况,进而影响图像分割的效果.因此,提出在彩色深度(RGB–D)图像上使用抽象的支撑语义关系来解决多样的物体形态所面对的先验知识不完备问题.在先验知识不完备情况下,针对自底向上的图像分割过程中被过度分割出的物体块,首先对物体块间的支撑语义关系进行建模并计算其支撑概率,然后构造能够度量场景总体稳定性的能量函数,最后通过Swendsen-Wang割(SWC)随机图分割算法最小化该能量函数的值,将物体块间的支撑概率转化为强支撑语义关系并完成物体块合并,实现先验知识不完备情况下的图像分割.实验结果证明,结合支撑语义关系的图像分割能够在先验知识不完备的情况下,将同一物体被过度分割的部分重新合并起来,从而提升了图像分割的准确性.  相似文献   

16.
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是 计算机视觉与媒体领域中热门的研究课题。当前,大多数 RIS 方法基于单尺度文本/图像模态信息的融合,以 感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构 上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计 多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的 融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了 多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS 模型在 RefCOCO, RefCOCO+和 RefCOCOg 3 个公开数据集的 oIoU 指标上均达到了前沿性能;针对文本指代不同尺度实例的分 割,MMPN-RIS 模型有着较好的表现。  相似文献   

17.
目的 传统图像修复方法缺乏对图像高级语义的理解,只能应对结构纹理简单的小面积受损。现有的端到端深度学习图像修复方法在大量训练图像的支持下克服了上述局限性,但由于这些方法试图在约束不足的情况下恢复整个目标,修复的图像往往存在边界模糊和结构扭曲问题。对此,本文提出一种语义分割结构与边缘结构联合指导的深度学习图像修复方法。方法 该方法将图像修复任务分解为语义分割重建、边缘重建和内容补全3个阶段。首先重建缺失区域的语义分割结构,然后利用重建的语义分割结构指导缺失区域边缘结构的重建,最后利用重建的语义分割结构与边缘结构联合指导图像缺失区域内容的补全。结果 在CelebAMask-HQ(celebfaces attributes mask high quality)人脸数据集和Cityscapes城市景观数据集上,将本文方法与其他先进的图像修复方法进行对比实验。在掩膜比例为50%60%的情况下,与性能第2的方法相比,本文方法在Celebamask-HQ数据集上的平均绝对误差降低了4.5%,峰值信噪比提高了1.6%,结构相似性提高了1.7%;在Cityscapes数据集上平均绝对误差降低了4.2%,峰值信噪比提高了1.5%,结构相似性提高了1.9%。结果表明,本文方法在平均绝对误差、峰值信噪比和结构相似性3个指标上均优于对比方法,且生成的图像边界清晰,视觉上更加合理。结论 本文提出的3阶段图像修复方法在语义分割结构与边缘结构的联合指导下,有效减少了结构重建错误。当修复涉及大面积缺失时,该方法比现有方法具有更高的修复质量。  相似文献   

18.
海量视频数据推动了基于数据驱动的单目图像深度估计研究.针对现有方法存在不同对象深度分配层次感不够的问题,在相似场景具有相似深度的假设前提下,提出一种基于语义级分割和深度迁移的单目图像2D转3D的方法.首先使用分割迁移模型将输入图像的像素进行语义级分类;然后通过语义级分类结果对场景匹配进行约束;再次利用SIFT流建立输入图像和匹配图像间像素级对应关系,并由此将匹配图像的深度迁移到输入图像上;最后通过语义级分割约束的最优化深度融合模型为不同对象区域分配深度值.Make3D测试数据的实验结果表明,该方法估计的深度质量比现有深度迁移方法更高,与最优化融合深度迁移算法相比,平均对数误差和平均相对误差分别降低0.03和0.02个点.  相似文献   

19.
针对现有图像修复方法在面对大尺度缺失时生成部分易产生伪影、不符合原始图像语义等问题,提出了一种基于上下文特征的渐进式图像修复方法。首先,使用ResNet18网络对破损图像进行粗略填充。然后,将其输入具有双分支结构的细化网络:上下文特征聚合模块通过多尺度语义特征获取现存图像内部最有利于修复图像的区域;注意转移网络学习缺失区域与剩余背景区域的联系,将其以更高分辨率对缺失区域进行填充,引入CBAM(convolutional block attention module)模块作为网络注意力机制。定义全局和局部判别网络实现生成图像与背景语义一致性并计算得到对抗损失,将L1损失与结构相似性损失相结合作为网络重建损失,再将其与对抗损失相结合作为损失函数。在Place2数据集上进行实验,平均峰值信噪比和平均结构相似性分别为27.83 dB和93.19%;与四种图像修复方法进行比较:主观感受上该方法较其他方法生成的修复图像更加清晰自然,与背景语义高度相符;客观指标上选用四种常用评价指标进行比较,在更符合人眼视觉的结构相似性上该方法分别提升11.48%、6.23%、3.24%、2....  相似文献   

20.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号