期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于注意力感知和语义感知的RGB-D室内图像语义分割算法 总被引：1，自引：0，他引：1

段立娟孙启超乔元华陈军成崔国勤《计算机学报》2021,44(2):275-291

近年来,全卷积神经网络有效提升了语义分割任务的准确率.然而,由于室内环境的复杂性,室内场景语义分割仍然是一个具有挑战性的问题.随着深度传感器的出现,人们开始考虑利用深度信息提升语义分割效果.以往的研究大多简单地使用等权值的拼接或求和操作来融合RGB特征和深度特征,未能充分利用RGB特征与深度特征之间的互补信息.本文提出一种基于注意力感知和语义感知的网络模型ASNet(Attention-aware and Semantic-aware Network).通过引入注意力感知多模态融合模块和语义感知多模态融合模块,有效地融合多层次的RGB特征和深度特征.其中,在注意力感知多模态融合模块中,本文设计了一种跨模态注意力机制,RGB特征和深度特征利用互补信息相互指导和优化,从而提取富含空间位置信息的特征表示.另外,语义感知多模态融合模块通过整合语义相关的RGB特征通道和深度特征通道,建模多模态特征之间的语义依赖关系,提取更精确的语义特征表示.本文将这两个多模态融合模块整合到一个带有跳跃连接的双分支编码-解码网络模型中.同时,网络在训练时采用深层监督策略,在多个解码层上进行监督学习.在公开数据集上的实验结果表明,本文算法优于现有的RGB-D图像语义分割算法,在平均精度和平均交并比上分别比近期算法提高了1.9%和1.2%. 相似文献

2.

基于特征调节器和双路径引导的RGB-D室内语义分割

张帅雷景生靳伍银俞云祥杨胜英《计算机应用研究》2024,41(5)

针对室内场景图像语义分割结果不精确、显著图粗糙的问题,提出一种基于多模态特征优化提取和双路径引导解码的网络架构（feature regulator and dual-path guidance,FG-Net）。具体来说,设计的特征调节器对每个阶段的多模态特征依次进行噪声过滤、重加权表示、差异性互补和交互融合,通过强化RGB和深度特征聚合,优化特征提取过程中的多模态特征表示。然后,在解码阶段引入特征交互融合后丰富的跨模态线索,进一步发挥多模态特征的优势。结合双路径协同引导结构,在解码阶段融合多尺度、多层次的特征信息,从而输出更细致的显著图。实验在公开数据集NYUD-v2和SUN RGB-D上进行,在主要评价指标mIoU上达到48.5 %,优于其他先进算法。结果表明,该算法实现了更精细的室内场景图像语义分割,表现出了较好的泛化性和鲁棒性。相似文献

3.

RGB-D双模态特征融合语义分割

罗盆琳方艳红李鑫李雪《计算机工程与应用》2023,(7):222-231

针对复杂室内场景中，现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题，提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构，首先搭建双模态特征融合结构（AMBF）来合理分配编码支路各阶段特征的位置与通道信息，然后设计双注意感知的上下文（DA-context）模块以合并上下文信息，最后通过解码器将多尺度特征图进行跨层融合，以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v2(NYUDV2)两个公开数据集上的测试结果表明，相较于残差编解码（RedNet）、注意力互补网络（ACNet）、高效场景分析网络（ESANet）等目前较先进的RGB-D语义分割网络，在同等硬件条件下，该网络具有更好的分割性能，平均交并比（MIoU）分别达到了47.9%和50.0%。相似文献

4.

深度学习多模态图像语义分割前沿进展

下载免费PDF全文

赵什陆张强《中国图象图形学报》2023,28(11):3320-3341

图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像（即通过基于不同成像机理的传感器获取的图像）间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外（red-green-bluethermal,RGB-T）图像语义分割算法和可见光—深度（red-green-blue-depth,RGB-D）图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet（multi-spectral fusion network）数据集上,GMNet （graded-feature multilabel-learning network）和MFFENet （multiscale feature fusion and enhancement network）分别取得了最优的类平均交并比（mean intersection-over-union per class,mIoU）（57.3%）和类平均精度（mean accuracy per class,mAcc）（74.3%）值。在PST900（PENN subterranean thermal 900）数据集上,GMNet仍然取得了最优的mIoU（84.12%）值,而EGFNet取得了最优的mAcc（94.02%）值。对于RGB-D图像语义分割,在NYUD v2（New York University depth dataset v2）数据集上,GLPNet（global-local propagation network）的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD（scene understanding-RGB-D）数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。相似文献

5.

基于注意力机制和金字塔融合的RGB-D室内场景语义分割

余娜刘彦魏雄炬万源《计算机应用》2022,42(3):844-853

针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题,提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet,并为其设计了两个新模块:注意力机制融合模块与金字塔融合模块.其中,注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重,充分利用两种特征的互补性,使网络... 相似文献

6.

多尺度融合增强的图像语义分割算法

下载免费PDF全文

田启川孟颖《计算机工程与应用》2021,57(2):177-185

针对现有的图像语义分割算法存在小尺度目标丢失和分割不连续的问题,提出多尺度融合增强的图像语义分割算法,该算法在DeeplabV3+网络模型的基础上,通过构建多尺度特征提取和融合增强网络提高了对小目标特征的描述能力,使网络在分割大目标的同时也能获得小目标的特征信息,从而解决了语义分割时小尺度目标丢失和分割不连续的问题。在Cityscapes数据集上实验的结果表明,改进后的算法明显提升了小目标分割精度,解决了分割不连续的问题。最后在公开数据集PASCAL VOC 2012上进一步验证了改进算法的泛化性。相似文献

7.

显著性引导及不确定性监督的深度编解码网络

王雪李占山陈海鹏《软件学报》2022,33(9):3165-3179

基于U-Net的编码-解码网络及其变体网络在医学图像语义分割任务中取得了卓越的分割性能.然而,网络在特征提取过程中丢失了部分空间细节信息,影响了分割精度.另一方面,在多模态的医学图像语义分割任务中,这些模型的泛化能力和鲁棒性不理想.针对以上问题,本文提出一种显著性引导及不确定性监督的深度卷积编解码网络,以解决多模态医学图像语义分割问题.该算法将初始生成的显著图和不确定概率图作为监督信息来优化语义分割网络的参数.首先,通过显著性检测网络生成显著图,初步定位图像中的目标区域;然后,根据显著图计算不确定分类的像素点集合,生成不确定概率图;最后,将显著图和不确定概率图与原图像一同送入多尺度特征融合网络,引导网络关注目标区域特征的学习,同时增强网络对不确定分类区域和复杂边界的表征能力,以提升网络的分割性能.实验结果表明,本文算法能够捕获更多的语义信息,在多模态医学图像语义分割任务中优于其他的语义分割算法,并具有较好的泛化能力和鲁棒性. 相似文献

8.

基于一对多关系的多模态虚假新闻检测

袁玥刘永彬欧阳纯萍田纹龙方文泷《中文信息学报》2023,(9):131-139

面向多模态的虚假新闻检测工作大部分是利用文本和图片之间的一对一关系,将文本特征和图片特征进行简单融合,忽略了帖子内多张图片内容的有效特征,对帖子间的语义关联建模不足。为了克服现有方法的局限性,该文提出了一种基于文图一对多关系的多模态虚假新闻检测模型。利用跨模态注意力网络筛选多张图片的有效特征,通过多模态对比学习网络动态调整帖子间高层次的语义特征关联,增强融合图文特征的联合表示。在新浪微博数据集上的实验结果表明,该模型能充分利用文图一对多关系的有效信息和帖子之间的语义特征关系,比基线模型准确率提升了3.15%。相似文献

9.

基于可变形卷积技术的街景图像语义分割算法

岳明齐张迎春吴立杰秦晓海《计算机仿真》2024,(3):219-226+259

目前图像语义分割算法中可能会出现分割图像的不连续与细尺度目标丢失的缺陷,故提出可变形卷积融合增强图像的语义分割算法。算法集HRNet网络框架、Xception Module以及可变形的卷积于一体,用轻量级Xception Module优化HRNet原先存在的Bottleneck模块,同时在网络的第一阶段串联融合可变形卷积,通过建立轻量级融合加强网络从而增强针对细尺度目标特征物的辨识精度,从而使得该轻量级融合增强网络在粗尺度目标物被分割时取得相对多的细尺度目标的语义特征信息,进一步缓解语义分割图像的不连续与细尺度的目标丢失。使用Cityscapes数据集,实验结果可以说明,优化后的算法对于细尺度目标分割精度得到了显著的增强,同时解决了图像语义分割导致的分割不连续的问题。然后进行实验使用的是公开数据集PASCAL VOC 2012,实验进一步的验证了优化算法的鲁棒性以及泛化能力。相似文献

10.

基于视觉和文本的多模态文档图像目标检测

李玉腾史操许灿辉程远志《计算机应用研究》2023,40(5)

由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。相似文献

11.

基于深度学习的多模态生物特征融合模型

下载免费PDF全文

李卓容唐云祁《计算机工程与应用》2023,(7):180-189

面对公安实战中获取的低质量生物特征数据,单模态生物特征识别技术的精度并不理想,现有的多模态融合算法存在融合层次单一、泛化性不强等问题,深度神经网络的发展为其提供了有效的解决途径。构建基于深度神经网络的多模态生物特征融合模型,将像素层、特征层、分数层等不同层次的融合方法统一到融合模型中,在像素层采用空间、通道和强度融合三种策略;在特征层通过反向传播整体优化模态专用分支与联合表示层,构建模态之间一阶依赖关系;在分数层使用基于Rank1评价和基于模态评价两种方法完成匹配分数融合。模拟实战数据构建虚拟同源多模态数据集进行模型验证。实验结果表明,多模态像素层融合方法提升效果有限,难以增强数据的区分度;多模态特征层融合方法相比单模态算法提升2.2个百分点;分数层融合方法相比单模态算法提升3.5个百分点,最佳检索精度可达99.6%。基于深度学习方法提出的多模态生物特征融合模型极大地提高了模型的泛化性和检索精度。相似文献

12.

动态环境下基于延迟语义的RGB-D SLAM算法

王浩周申超方宝富《模式识别与人工智能》2023,(10):953-966

目前,将分割网络与SLAM(Simultaneous Localization and Mapping)结合已成为解决视觉SLAM不能应用于动态环境的主流方案之一,但是SLAM系统受到分割网络处理速度的限制,无法保证实时运行.为此,文中提出基于延迟语义的RGB-D SLAM算法.首先,并行运行跟踪线程与分割线程,为了得到最新的延迟语义信息,采取跨帧分割的策略处理图像,跟踪线程根据延迟语义信息实时生成当前帧的语义信息.然后,结合成功跟踪计数(STC)与极线约束,筛选当前帧动态点的集合,并确定环境中先验动态物体的真实运动状态.若确定该物体在移动,继续将物体区域细分为矩形网格,以网格为最小单位剔除动态特征点.最后,利用静态特征点追踪相机位姿并构建环境地图.在TUM RGB-D动态场景数据集及真实场景上的实验表明文中算法在大部分数据集上表现较优,由此验证算法的有效性. 相似文献

13.

结合边缘检测的语义分割算法

王囡侯志强赵梦琦余旺盛马素刚《计算机工程》2021,47(7):257-265

针对语义分割中目标边缘模糊与分割不准确的问题,提出一种结合边缘检测的语义分割网络。整个网络由边缘检测网络和语义分割网络并行组成。利用边缘检测网络与语义分割网络分别提取图像的边缘特征和初步的语义分割特征,通过特征融合模块将边缘特征和语义分割特征进行融合,得到最终的语义分割结果。在CamVid数据集和Cityscapes数据集上的实验结果表明,与SegNet算法相比,该算法平均交并比分别提升了1.5和1.8个百分点,验证了所提算法的有效性。相似文献

14.

特征融合的装修案例跨模态检索方法

亢洁刘威《智能系统学报》2024,(2):429-437

目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。相似文献

15.

条带池化注意力的实时语义分割算法

吕佳孙亚南许鹏程《计算机辅助设计与图形学学报》2023,(9):1395-1404

针对目前面向注意力机制语义分割算法不能兼顾分割精度与实时性,以及难以满足在现实场景中应用的问题,提出一种基于条带池化注意力的实时语义分割算法.首先采用轻量级骨干网络提取特征信息,结合不同网络层语义差异构建特征融合模块获得不同尺度的上下文信息以提升分割精度;然后利用基于注意力的条带注意力模块(SAM)提高远距离信息被弱化的注意力,并在SAM中加入水平方向的条带池化以降低编码全局上下文的运算量.实验结果表明,所提算法能够得到较高分割精度且满足实时性要求;在Cityscapes测试集上平均交并比为70.6%,分割速度达到了92帧/s;在CamVid测试集上平均交并比为66.4%,分割速度达到了196帧/s. 相似文献

16.

集成RGB-D语义分割网络的室内语义地图构建

宋鑫张荣芬刘宇红《计算机应用研究》2022,39(11)

针对传统视觉SLAM准确度低、实时性差、缺乏语义的问题,提出一种全新的RGB-D语义分割网络,利用室内场景中受光照等条件影响较小的深度信息来提高分割的准确性,并且设计了轻量级多尺度残差模块（MRAM）和空间金字塔池化模块（ASPP）来轻量化分割网络、提高分割的精度。首先输入的图像序列进入ORB-SLAM2网络进行关键帧筛选,之后关键帧送入语义分割网络得到二维语义标签,再将二维语义信息映射到三维点云空间,最后使用贝叶斯算法更新三维地图得到全局一致的三维点云语义地图。实验采用NYUv2数据集验证语义分割网络性能,采用TUM数据集构建点云语义地图,结果表明,提出的语义分割网络性能和速度优于现有的模型,且此语义分割网络与视觉SLAM相结合可以满足高精度、实时的稠密三维语义点云地图构建要求。相似文献

17.

一种改进的室内场景语义分割网络

下载免费PDF全文

贺照蒙孔广黔吴云《计算机工程与应用》2021,57(16):197-202

针对目前室内场景语义分割网络无法很好融合图像的RGB信息和深度信息的问题,提出一种改进的室内场景语义分割网络。为使网络能够有选择性地融合图像的深度特征和RGB特征,引入注意力机制的思想,设计了特征融合模块。该模块能够根据深度特征图和RGB特征图的特点,学习性地调整网络参数,更有效地对深度特征和RGB特征进行融合;同时使用多尺度联合训练,加速网络收敛,提高分割准确率。通过在SUNRGB-D和NYUDV2数据集上验证,相比于包含深度敏感全连接条件随机场的RGB-D全卷积神经网络（DFCN-DCRF）、深度感知卷积神经网络（Depth-aware CNN）、多路径精炼网络（RefineNet）等目前主流的语义分割网络,所提网络具有更高的分割精度,平均交并比（mIoU）分别达到46.6%和48.0%。相似文献

18.

多源特征自适应融合网络的高分遥感影像语义分割

下载免费PDF全文

张文凯刘文杰孙显许光銮付琨《中国图象图形学报》2022,27(8):2516-2526

目的在高分辨率遥感影像语义分割任务中,仅利用可见光图像很难区分光谱特征相似的区域(如草坪和树、道路和建筑物),高程信息的引入可以显著改善分类结果。然而,可见光图像与高程数据的特征分布差异较大,简单的级联或相加的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳。因此如何有效地融合多模态特征成为遥感语义分割的关键问题。针对这一问题,本文提出了一个多源特征自适应融合模型。方法通过像素的目标类别以及上下文信息动态融合模态特征,减弱融合噪声影响,有效利用多模态数据的互补信息。该模型主要包含3个部分：双编码器负责提取光谱和高程模态的特征;模态自适应融合模块协同处理多模态特征,依据像素的目标类别以及上下文信息动态地利用高程信息强化光谱特征,使得网络可以针对特定的对象类别或者特定的空间位置来选择特定模态网络的特征信息;全局上下文聚合模块,从空间和通道角度进行全局上下文建模以获得更丰富的特征表示。结果对实验结果进行定性、定量相结合的评价。定性结果中,本文算法获取的分割结果更加精细化。定量结果中,在ISPRS (International Society for Photogrammetry and Remote Sensing) Vaihingen和GID (Gaofen Image Dataset)数据集上对本文模型进行评估,分别达到了90.77%、82.1%的总体精度。与DeepLab V3+、PSPNet (pyramid scene parsing network)等算法相比,本文算法明显更优。结论实验结果表明,本文提出的多源特征自适应融合网络可以有效地进行模态特征融合,更加高效地建模全局上下文关系,可以广泛应用于遥感领域。相似文献

19.

基于多模态互补特征学习的遥感影像语义分割

下载免费PDF全文

王兴武雷涛王营博耿新哲张月《智能系统学报》2022,17(6):1123-1133

在遥感影像语义分割任务中,数字表面模型可以为光谱数据生成对应的几何表示,能够有效提升语义分割的精度。然而,大部分现有工作仅简单地将光谱特征和高程特征在不同的阶段相加或合并,忽略了多模态数据之间的相关性与互补性,导致网络对某些复杂地物无法准确分割。本文基于互补特征学习的多模态数据语义分割网络进行研究。该网络采用多核最大均值距离作为互补约束,提取两种模态特征之间的相似特征与互补特征。在解码之前互相借用互补特征,增强网络共享特征的能力。在国际摄影测量及遥感探测学会 (international society for photogrammetry and remote sensing, ISPRS)的Potsdam与Vaihingen公开数据集上验证所提出的网络,证明了该网络可以实现更高的分割精度。相似文献

20.

融合图注意力的摄影测量点云语义分割研究

徐俊杜宣萱宋俊锋陆佳炜程振波肖刚《小型微型计算机系统》2022,(7):1464-1470

随着无人机倾斜摄影测量技术的发展,通过密集影像匹配可以快速获得类比激光扫描数据精度的大规模室外点云,但是这些点云存在着不规则、遮挡严重、数据量庞大的特点,同时因为缺乏对象信息无法深入进行语义分析.针对上述问题,本文提出一种融合图注意力的摄影测量点云语义分割方法.首先构建了一种新的图卷积模块,在网络的每一层动态的更新点云局部邻域图,将跨层点描述与上下文特征结合起来并逐层汇聚点云空间潜在语义信息;然后在每个网络层引入通道注意力机制使网络能够自适应学习通道间的权重,并由此建立基于一种新的图注意模块的点云语义分割网络,实现复杂点云的细粒度语义分割.通过在两个公开的室外点云基准数据集上的实验结果表明,该方法能够显著提升网络对局部拓扑特征信息的学习能力,且对复杂场景点云语义分割具有良好的泛化能力. 相似文献