首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
高伟  吴顺 《计算机工程》2022,48(10):245
老照片由于长时间的磨损或保存不当,会出现照片的划痕损伤。随着深度学习在图像重建中的应用,基于深度学习方法能够在纹理修复的基础上获取图像的语义信息并预测语义内容,使老照片修复的整体效果更加符合客观事实,但利用深度学习进行老照片划痕修复缺乏学习所需数据集。提出一种基于半监督学习的老照片划痕自动修复的方法,创建划痕合成数据集SynOld用于网络训练,同时搜集真实的划痕老照片用于训练和测试,将合成数据集和真实老照片加入网络学习,两者共享网络参数,并通过鉴别器来区分网络生成图像与真实图像。对于合成数据集有监督的分支采用均方差损失、感知损失和对抗损失约束训练,对于真实老照片无监督的分支采用总变差损失控制训练。实验结果表明,相比于多尺度特征注意力网络的监督学习方法,该方法在合成数据集SynOld和真实老照片上都具有较好的修复效果。  相似文献   

2.
针对图像检索方法中二阶注意力模块使用全局特征之间的联系所生成的特征存在大量冗余信息,以及集成机制中各分支不能充分训练的问题,提出一种基于多注意力集成的图像检索方法。该方法利用在图像分类任务中表现良好的独立自注意力模块捕捉局部特征之间的联系,生成质量更高的特征以用于图像检索。该方法提出一个多注意力集成框架,在各注意力分支中分别利用独立自注意力模块产生相应的高效图像特征,并通过有效结合产生最终的图像特征。多注意力集成框架利用最终图像特征的排序损失、各注意力分支之间的差异损失及各分支的图像分类损失对模型进行联合训练,使各分支能得到充分训练。在CUB200-2011及CARS196图像检索数据集上的实验表明,所提方法可以有效提高检索精度。  相似文献   

3.
针对人群图像中尺度变化大及现有密度估计网络泛化性能差的问题,提出一种基于视觉注意力机制的人群密度估计方法。该网络模型基于VGG-16网络,由空间注意力模块(Spatial Attention Module, SAM)、全局注意力模块(Global Attention Module, GAM)及融合模块(Fusion Module, FM)等几个模块组成,通过在网络不同层级中引入注意力机制来选择性地增强网络的功能,提高多尺度级联的有效性。设计一个弱监督学习来扩展提出的密度估计网络,使人群密度估计模型可以适应不同的场景和数据集。实验结果表明,该方法对不同尺度、不同场景下的人群密度图像都有很好的适用性和准确性,算法性能也优于现有的人群密度估计算法。  相似文献   

4.
金字塔场景解析网络存在图像细节信息随着网络深度加深而丢失的问题,导致小目标与物体边缘语义分割效果不佳、像素类别预测不够准确。提出一种基于改进自注意力机制的金字塔场景解析网络方法,将自注意力机制的通道注意力模块与空间注意力模块分别加入到金字塔场景解析网络的主干网络和加强特征提取网络中,使网络中的两个子网络能够分别从通道和空间两个方面提取图像中更重要的特征细节信息。针对现有的图像降维算法无法更好地提高自注意力机制计算效率的问题,在分析“词汇”顺序对自注意力机制计算结果影响的基础上,利用希尔伯特曲线遍历设计新的图像降维算法,并将该算法加入到空间自注意力模块中,以提高其计算能力。仿真实验结果表明,该方法在PASCAL VOC 2012和息肉分割数据集上的精度均有提高,小目标与物体边缘分割更加精细,其中在VOC 2012训练集中平均交并比与平均像素精度分别达到75.48%、85.07%,较基准算法分别提升了0.68、1.35个百分点。  相似文献   

5.
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。  相似文献   

6.
主流的基于全监督的深度学习分割模型在丰富的标记数据上训练时可以取得良好的效果,但医疗图像领域的图像分割存在标注成本高、分割目标种类多的问题,且往往缺少足够的标注数据。提出一个模型,通过融合自监督从数据中提取标签,利用超像素表征图像特性,进行小样本标注条件下的图像分割。引入多注意力机制使得模型更多关注图像的空间特征,位置注意模块和通道注意模块致力于单一图像内部的多尺度特征融合,而外部注意力模块显著突出了不同样本间的联系。在CHAOS健康腹部器官数据集上进行实验,1-shot极端情况下DSC达0.76,相较baseline分割结果提升3%左右。通过调整N-way-K-shot任务数来探讨小样本学习的意义,在7-shot设置下DSC有显著提升,与基于全监督的深度学习分割效果的差距在可接受范围内。  相似文献   

7.
目的 弱光照条件下成像存在信噪比低、运动模糊等问题,这对光流估计带来了极大挑战。与现有“先增强—再估计”的光流估计方法不同,为了避免在弱光图像增强阶段损失场景的运动信息,提出一种隐特征监督的弱光光流估计孪生网络学习方法。方法 首先,该方法采用权重共享的孪生网络提取可映射的弱光光流和正常光照光流特征;进而,计算弱光邻帧图像的K近邻相关性卷表,以解决计算4D全对相关性卷表的高时空复杂度问题;在全局运动聚合模块中引入针对二维运动特征的注意力机制,以降低弱光条件下强噪声、运动模糊及低对比度对光流估计的不利影响。最后,提出隐特征监督的光流估计模块,采用正常光照光流特征监督弱光照光流特征的学习,实现高精度的光流估计。结果 与3种最新光流估计方法的对比实验表明,在正常光照条件下,本文方法取得了与现有最佳光流估计方法相近的性能。在FCDN(flying chairs dark noise)数据集上,本文方法光流估计性能最优,相较于次优方法端点误差精度提升了0.16;在多亮度光流估计(various brightness optical flow,VBOF)数据集上,本文方法端点误差精度提升了0.08。...  相似文献   

8.
GSNet使用抓取度区分杂乱场景的可抓取区域, 显著地提高了杂乱场景中机器人抓取位姿检测准确性, 但是GSNet仅使用一个固定大小的圆柱体来确定抓取位姿参数, 而忽略了不同大小尺度的特征对抓取位姿估计的影响. 针对这一问题, 本文提出了一个多尺度圆柱体注意力特征融合模块(Ms-CAFF), 包含注意力融合模块和门控单元两个核心模块, 替代了GSNet中原始的特征提取方法, 使用注意力机制有效地融合4个不同大小圆柱体空间内部的几何特征, 从而增强了网络对不同尺度几何特征的感知能力. 在大规模杂乱场景抓取位姿检测数据集GraspNet-1Billion的实验结果表明, 在引入模块后将网络生成抓取位姿的精度最多提高了10.30%和6.65%. 同时本文将网络应用于实际实验, 验证了方法在真实场景当中的有效性.  相似文献   

9.
大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation, UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先, RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能.  相似文献   

10.
雾天是影响高速公路交通安全的重要因素。研究从监控图像进行高速公路雾天能见度的自动识别方法可以为交通管理部门的智能管理和决策提供技术支持。根据大气散射模型分析出与雾浓度相关的多个物理因素,提出了综合这些物理因素的多通路融合识别网络。该网络使用三个通路联合学习深度视觉特征、传输矩阵特征和场景深度特征,并设计注意力融合模块来自适应地融合这三类特征以进行能见度等级识别。同时构建了一个合成数据集和一个真实的高速公路场景数据集,用于网络参数学习和性能评估。实景数据集中的图像是从中国多条高速公路的监控视频中收集的。在这两个数据集上的实验表明,所提方法可以适应不同的监控拍摄场景,能够比现有方法更准确地识别能见度等级,有效提升了识别精度。  相似文献   

11.
王迪  潘金山  唐金辉 《软件学报》2023,34(6):2942-2958
现存的图像去噪算法在处理加性高斯白噪声上已经取得令人满意的效果,然而其在未知噪声强度的真实噪声图像上泛化性能较差.鉴于深度卷积神经网络极大地促进了图像盲去噪技术的发展,针对真实噪声图像提出一种基于自监督约束的双尺度真实图像盲去噪算法.首先,所提算法借助小尺度网络分支得到的初步去噪结果为大尺度分支的图像去噪提供额外的有用信息,以帮助后者实现良好的去噪效果.其次,用于去噪的网络模型由噪声估计子网络和图像非盲去噪子网络构成,其中噪声估计子网络用于预测输入图像的噪声强度,非盲去噪子网络则在所预测的噪声强度指导下进行图像去噪.鉴于真实噪声图像通常缺少对应的清晰图像作为标签,提出了一种基于全变分先验的边缘保持自监督约束和一个基于图像背景一致性的背景自监督约束,前者可通过调节平滑参数将网络泛化到不同的真实噪声数据集上并取得良好的无监督去噪效果,后者则可借助多尺度高斯模糊图像之间的差异信息辅助双尺度网络完成去噪.此外,还提出一种新颖的结构相似性注意力机制,用于引导网络关注图像中微小的结构细节,以便复原出纹理细节更加清晰的真实去噪图像.相关实验结果表明在SIDD,DND和Nam这3个真实基准数据集上,所提的基于自监督的双尺度盲去噪算法无论在视觉效果上还是在量化指标上均优于多种有监督图像去噪方法,且泛化性能也得到了较为明显的提升.  相似文献   

12.
现有基于学习的单幅透射图像恢复方法常需要大量成对的标签数据来训练模型,因缺乏成对图像集的监督约束,致使透射图像恢复效果欠佳,限制了其实用性.提出了一种基于自监督学习的单幅透射图像恢复方法,利用循环一致性生成对抗网络的循环结构和约束转移学习能力实现非成对图像的模型训练,通过设计自学习模块,从大规模的无监督数据中挖掘自身的监督信息对网络进行训练,以此形成有效的从浅层到深层的特征提取,提高透射图像正面内容的纹理、边缘等细节信息恢复质量,实现单幅图像的透射去除.实验结果表明,该方法在合成图像数据集、公共图像数据集以及真实图像数据集上都取得了较好的透射图像恢复结果.  相似文献   

13.
针对虚拟到真实驾驶场景翻译中成对的数据样本缺乏以及前后帧不一致等问题,提出一种基于生成对抗网络的视频翻译模型。为解决数据样本缺乏问题,模型采取“双网络”架构,将语义分割场景作为中间过渡分别构建前、后端网络。在前端网络中,采用卷积和反卷积框架,并利用光流网络提取前后帧的动态信息,实现从虚拟场景到语义分割场景的连续的视频翻译;在后端网络中,采用条件生成对抗网络框架,设计生成器、图像判别器和视频判别器,并结合光流网络,实现从语义分割场景到真实场景的连续的视频翻译。实验利用从自动驾驶模拟器采集的数据与公开数据集进行训练和测试,在多种驾驶场景中能够实现虚拟到真实场景的翻译,翻译效果明显好于对比算法。结果表明,所提模型能够有效解决前后帧不连续和动态目标模糊的问题,使翻译的视频更为流畅,并且能适应多种复杂的驾驶场景。  相似文献   

14.
提出了一种基于功用性图的目标推抓技能自监督学习方法。首先,给出了杂乱环境下面向目标推抓任务的机器人技能自监督学习问题描述,将工作空间中机器人推抓操作的决策过程定义为一个全新的马尔可夫决策过程(MDP),分别训练视觉机制模块与动作机制模块。其次,在视觉机制模块中融合自适应参数与分组拆分注意力模块设计了特征提取网络RGSA-Net,可由输入网络的原始状态图像生成功用性图,为目标推抓操作提供良好的前提。然后,在动作机制模块中搭建了基于演员-评论家(actor-critic)框架的深度强化学习自监督训练框架DQAC,机器人根据功用性图执行动作后利用该框架进行动作评判,更好地实现了推、抓之间的协同。最后,进行了实验对比与分析,验证了本文方法的有效性。  相似文献   

15.
余娜  刘彦  魏雄炬  万源 《计算机应用》2022,42(3):844-853
针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题,提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet,并为其设计了两个新模块:注意力机制融合模块与金字塔融合模块.其中,注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重,充分利用两种特征的互补性,使网络...  相似文献   

16.
We developed a variational Bayesian learning framework for the infinite generalized Dirichlet mixture model (i.e. a weighted mixture of Dirichlet process priors based on the generalized inverted Dirichlet distribution) that has proven its capability to model complex multidimensional data. We also integrate a “feature selection” approach to highlight the features that are most informative in order to construct an appropriate model in terms of clustering accuracy. Experiments on synthetic data as well as real data generated from visual scenes and handwritten digits datasets illustrate and validate the proposed approach.  相似文献   

17.
基于深度学习的视觉里程计方法(deep visual odometry,DVO)通过神经网络直接估计单目图像的深度和相邻图像之间的相机运动,在保证精度的同时大大提高了运行速度。但这是基于灰度不变假设,作为一个很强的假设,灰度不变假设在现实场景中往往难以满足。为此,提出一种基于图像对齐(image alignment,IA)的直接视觉里程计方法AUDVO(aligned U-CNN deep VO),通过不确定性估计网络(uncertainty CNN,U-CNN)引入正则项进行约束,使得估计的结果更具鲁棒性。为了处理大面积纹理缺失区域上因估计不准确带来的空洞,在设计深度估计模块时通过嵌入超分辨率网络进行上采样。在公开的KITTI数据集上的实验证明了AUDVO在深度和相机位姿估计上的有效性。  相似文献   

18.
目的 基于清晰图像训练的深度神经网络检测模型因为成像差异导致的域偏移问题使其难以直接泛化到水下场景。为了有效解决清晰图像和水下图像的特征偏移问题,提出一种即插即用的特征增强模块(feature de-drifting module Unet,FDM-Unet)。方法 首先提出一种基于成像模型的水下图像合成方法,从真实水下图像中估计色偏颜色和亮度,从清晰图像估计得到场景深度信息,根据改进的光照散射模型将清晰图像合成为具有真实感的水下图像。然后,借鉴U-Net结构,设计了一个轻量的特征增强模块FDM-Unet。在清晰图像和对应的合成水下图像对上,采用常见的清晰图像上预训练的检测器,提取它们对应的浅层特征,将水下图像对应的退化浅层特征输入FDM-Unet进行增强,并将增强之后的特征与清晰图像对应的特征计算均方误差(mean-square error,MSE)损失,从而监督FDM-Unet进行训练。最后,将训练好的FDM-Unet直接插入上述预训练的检测器的浅层位置,不需要对网络进行重新训练或微调,即可以直接处理水下图像目标检测。结果 实验结果表明,FDM-Unet在PASCAL VOC 2007(pattern analysis,statistical modeling and computational learning visual object classes 2007)合成水下图像测试集上,针对YOLO v3(you only look once v3)和SSD (single shot multibox detector)预训练检测器,检测精度mAP (mean average precision)分别提高了8.58%和7.71%;在真实水下数据集URPC19(underwater robot professional contest 19)上,使用不同比例的数据进行微调,相比YOLO v3和SSD,mAP分别提高了4.4%~10.6%和3.9%~10.7%。结论 本文提出的特征增强模块FDM-Unet以增加极小的参数量和计算量为代价,不仅能直接提升预训练检测器在合成水下图像的检测精度,也能在提升在真实水下图像上微调后的检测精度。  相似文献   

19.
Vessel segmentation plays a crucial role in the diagnosis of many diseases, as well as assisting surgery.With the development of deep learning, many segmentation methods have been proposed, and the results have become more and more accurate. However, most of these methods are based on supervised learning, which require a large amount of labeled data as training data. To overcome this shortcoming, unsupervised and self-supervisedmethods have also received increasing attention. In this paper, we generate a synthetic training datasets through L-system, and utilize adversarial learning to narrow the distribution difference between the generated data and the real data to obtain the ultimate network. Our method achieves state-of-the-art (SOTA) results on X-ray angiography artery disease (XCAD) by a large margin of nearly 10.4%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号