首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 859 毫秒
1.
本文提出了一种场景文本检测方法,用于应对复杂自然场景中文本检测的挑战。该方法采用了双重注意力和多尺度特征融合的策略,通过双重注意力融合机制增强了文本特征通道之间的关联性,提升了整体检测性能。在考虑到深层特征图上下采样可能引发的语义信息损失的基础上,提出了空洞卷积多尺度特征融合金字塔(dilated convolution multi-scale feature fusion pyramid structure, MFPN),它采用双融合机制来增强语义特征,有助于加强语义特征,克服尺度变化的影响。针对不同密度信息融合引发的语义冲突和多尺度特征表达受限问题,创新性地引入了多尺度特征融合模块(multi-scale feature fusion module, MFFM)。此外,针对容易被冲突信息掩盖的小文本问题,引入了特征细化模块(feature refinement module, FRM)。实验表明,本文的方法对复杂场景中文本检测有效,其F值在CTW1500、ICDAR2015和Total-Text 3个数据集上分别达到了85.6%、87.1%和86.3%。  相似文献   

2.
卷积神经网络在高级计算机视觉任务中展现出强 大的特征学习能力,已经在图像语义 分割任务 中取得了显著的效果。然而,如何有效地利用多尺度的特征信息一直是个难点。本文提出一 种有效 融合多尺度特征的图像语义分割方法。该方法包含4个基础模块,分别为特征融合模块(feature fusion module,FFM)、空 间信息 模块(spatial information module,SIM)、全局池化模块(global pooling module,GPM)和边界细化模块(boundary refinement module,BRM)。FFM采用了注意力机制和残差结构,以提高 融合多 尺度特征的效率,SIM由卷积和平均池化组成,为模型提供额外的空间细节信息以 辅助定 位对象的边缘信息,GPM提取图像的全局信息,能够显著提高模型的性能,BRM以残差结构为核心,对特征图进行边界细化。本文在全卷积神经网络中添加4个基础模块, 从而有 效地利用多尺度的特征信息。在PASCAL VOC 2012数据集上的实验结 果表明该方法相比全卷积神 经网络的平均交并比提高了8.7%,在同一框架下与其他方法的对比结 果也验证了其性能的有效性。  相似文献   

3.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

4.
针对传统编解码结构的医学图像分割网络存在特征信息利用率低、泛化能力不足等问题,该文提出了一种结合编解码模式的多尺度语义感知注意力网络(multi-scale semantic perceptual attention network,MSPA-Net) 。首先,该网络在解码路径加入双路径多信息域注意力模块(dual-channel multi-information domain attention module,DMDA) ,提高特征信息的提取能力;其次,网络在级联处加入空洞卷积模块(dense atrous convolution module,DAC) ,扩大卷积感受野;最后,借鉴特征融合思想,设计了可调节多尺度特征融合模块 (adjustable multi-scale feature fusion,AMFF) 和双路自学习循环连接模块(dual self-learning recycle connection module,DCM) ,提升网络的泛化性和鲁棒性。为验证网络的有效性,在CVC-ClinicDB、ETIS-LaribPolypDB、COVID-19 CHEST X-RAY、Kaggle_3m、ISIC2017和Fluorescent Neuronal Cells等数据 集上进行验证,实验结果表明,相似系数分别达到了94.96%、92.40%、99.02%、90.55%、92.32%和75.32%。因此,新的分割网络展现了良好的泛化能力,总体性能优于现有网络,能够较好实现通用医学图像的有效分割。  相似文献   

5.
针对红外图像分辨率低、背景复杂、目标细节特征缺失等问题,提出了一种基于YOLOv5s的改进实时红外小目标检测模型Infrared-YOLOv5s。在特征提取阶段,采用SPD-Conv进行下采样,将特征图切分为特征子图并按通道拼接,避免了多尺度特征提取过程中下采样导致的特征丢失情况,设计了一种基于空洞卷积的改进空间金字塔池化模块,通过对具有不同感受野的特征进行融合来提高特征提取能力;在特征融合阶段,引入由深到浅的注意力模块,将深层特征语义特征嵌入到浅层空间特征中,增强浅层特征的表达能力;在预测阶段,裁减了网络中针对大目标检测的特征提取层、融合层及预测层,降低模型大小的同时提高了实时性。首先通过消融实验验证了提出各模块的有效性,实验结果表明,改进模型在SIRST数据集上平均精度均值达到了95.4%,较原始YOLOv5s提高了2.3%,且模型大小降低了72.9%,仅为4.5 M,在Nvidia Xavier上推理速度达到28 f/s,利于实际的部署和应用。在Infrared-PV数据集上的迁移实验进一步验证了改进算法的有效性。提出的改进模型在提高红外图像小目标检测性能的同时,能够满足实时性要...  相似文献   

6.
熊炜  孙鹏  赵迪  刘粤 《光电子.激光》2023,34(11):1158-1167
自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。  相似文献   

7.
针对DeepLabv3+网络在进行城市街景图像分割任务时,没有充分利用到网络中多层级特征信息,导致分割结果存在大目标有孔洞、边缘目标分割不够精细等不足;并且考虑到城市街景数据具有天然的空间位置特殊性,本文提出在DeepLabv3+网络的基础上引入高度有效驱动注意力机制(height-driven efficient attention model,HEAM)与多层级特征融合模块(multi-stage feature fusion model,MFFM),将HEAM嵌入特征提取网络与空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)结构中,使其对目标关注更多垂直方向上的空间位置信息;MFFM通过融合多层特征图,在网络中形成多条融合支路依次连接到网络解码端,采用逐次上采样提高解码时像素上的连续性。将改进的网络通过CamVid城市街景数据集验证测试,实验结果表明,该网络能有效改善DeepLabv3+的不足,并且合理运用了数据集的位置先验性,增强了分割效果,在CamVid测试集上平均交并比(mean intersection over union,MIoU)达到了68.2%。  相似文献   

8.
在自然场景文本检测领域,现有的深度学习网络仍存在文本误检、漏检、定位不准确的情况.针对这一问题,本文设计出一种基于大感受野特征网络(Large Receptive Field Feature Network,LFN)的文本检测算法.首先选取速度和准确度更好的轻量级主干网络ShuffleNet V2,并加入细粒度特征融合模块以获取更多隐藏的文本特征信息;再通过分析不同尺度的特征图感受野不同,并对比不同尺度的特征图进行归一化后得到的特征图尺寸对结果的影响,构造了双融合特征提取模块,对输入图像提取多尺度特征以减少文本特征丢失,增大感受野;最后为处理正负样本失衡的问题,在可微二值化模块中引入Dice Loss,增加文本定位的准确度.在ICDAR2015和CTW1500数据集上的实验表明,该网络无论是在性能还是速度上对文本检测效果都有显著提升.其中在ICDAR2015数据集上F1为86.1%,较性能最优的PSENet网络提升了0.4%,速度达到了50 fps,较速度最快的DBNet网络提升了约1.92倍,在CTW1500数据集上F1为83.2%,较PSENet网络提升了1%,速度达到了35 fp...  相似文献   

9.
针对自然街景文本角度倾斜、形状弯曲、长度不定等特点,提出一种基于注意力机制的自然街景文本检测方法,通过利用注意力机制的优势,对主干网络提取的特征进行加权融合,从而提升整体网络的检测性能.首先,针对特征金字塔(FPN)横向连接中特征信息丢失的问题,引入注意力融合模块AFFM(Attention Feature Fusion Module),通过计算高维和低维特征的融合权重,来改进原FPN中简单直接相加的特征融合方式,从而减少FPN特征融合过程中文本信息丢失,增强网络的特征提取能力.其次,针对不同尺度特征图中的文本特征,引入一个子空间注意力模块SAM(Subspace Attention Module),通过将多尺度融合特征图按通道划分为数个子空间特征图,分别学习每个子空间中的文本特征权重,使得融合后的特征图包含更多不同尺度的文本特征,从而增强融合特征图对文本实例的表征能力,进而提升网络的检测效果.在公开数据集Total-Text上对模型进行评估,实验结果表明,该算法与目前快速高效的DBNet相比,准确率、召回率和F值分别提高了0.5%、0.4%和0.4%.  相似文献   

10.
针对现有算法对不同来源特征之间的交互选择关注度欠缺以及对跨模态特征提取不充分的问题,提出了一种基于提取双选紧密特征的RGB-D显著性检测网络。首先,为了筛选出能够同时增强RGB图像显著区域和深度图像显著区域的特征,引入双向选择模块(bi-directional selection module, BSM);为了解决跨模态特征提取不充分,导致算法计算冗余且精度低的问题,引入紧密提取模块(dense extraction module, DEM);最后,通过特征聚合模块(feature aggregation module, FAM)对密集特征进行级联融合,并将循环残差优化模块(recurrent residual refinement aggregation module, RAM)配合深度监督实现粗显著图的持续优化,最终得到精确的显著图。在4个广泛使用的数据集上进行的综合实验表明,本文提出的算法在4个关键指标方面优于7种现有方法。  相似文献   

11.
甲烷是现代化工业生产和社会生活的重要能源之一,实现其有效探测与分割对于及时发现甲烷泄漏事故并识别其扩散范围具有重要意义。针对红外成像条件下甲烷气体图像的轮廓模糊、泄漏的甲烷气体与背景对比度较低、形状易受大气流动因素影响等问题,本文提出一种融合注意力分支特征的红外图像分割网络(Attention Branch Feature Network,ABFNet)实现甲烷气体泄漏探测。首先,为增强模型对红外甲烷气体图像的特征提取能力,设计分支特征融合模块将残差模块1和残差模块2的输出特征与残差模块3以逐像素相加的方法融合,获取红外甲烷气体图像丰富细致的特征表达以提高模型识别精度。其次,为进一步加快模型的推理速度,将标准瓶颈单元中的3×3卷积替换为深度可分离卷积,大幅度减少参数量达到实时检测甲烷气体泄漏。最后,将scSE注意力机制嵌入到分支特征融合模块,更多地关注扩散区域边缘和中心语义信息以克服红外甲烷气体轮廓模糊对比度低等问题提高模型的泛化能力。实验结果表明,本文提出的ABFNet模型AP50@95、AP50、AP60定量分割精度分别达到38.23%、89.63%和75.33%,相比于原始YOL...  相似文献   

12.
现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低.为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型.首先,该文构造特征提取器对输入图像提取多尺度特征图.其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化.之后,该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本.其中前者可以保证不同的文本实例之间具有区分性,而后者能有效地指导网络优化.最后,为了提升文本检测的速度,该文提出一个快速且有效的后处理算法来生成文本边界框.实验结果表明:在相关数据集上,该文所提出的方法均实现了最好的效果,且比目前最好的方法在F-measure指标上最多提升了1.0%,并且可以实现将近实时的速度,充分证明了该方法的有效性和高效性.  相似文献   

13.
崔卓栋  陈玮  尹钟 《电子科技》2023,36(4):44-51
佩戴安全帽是保证工人施工安全的重要方式之一。现有的安全帽检测器的检测精度与速度都有待提高,这使得这些检测器难以大规模应用于实际的生产活动中。针对这些问题,文中推出了基于EfficientDet的安全帽检测器,并在此基础上从特征融合的角度对其进行了改进。该模型通过使用特征补充的方式减少了特征融合过程中的信息损失,并利用改进的特征金字塔及自适应空间融合模块提升了融合的效率,最终达到提升性能的目的。实验表明,文中改进的模型在安全帽佩戴数据集上的精确率达到83.03%,相较于未改进的模型有所提升,且模型大小没有明显增加。该模型在PASCAL VOC 2007上的精确率则达到了82.76%。  相似文献   

14.
针对复杂道路场景下行人检测精度与速度难以提升的问题,提出一种融合多尺度信息和跨维特征引导的轻量级行人检测算法。首先以高性能检测器YOLOX为基础框架,构建多尺度轻量卷积并嵌入主干网络中,以获取多尺度特征信息。然后设计了一种端到端的轻量特征引导注意力模块,采用跨维通道加权的方式将空间信息与通道信息融合,引导模型关注行人的可视区域。最后为减少模型在轻量化过程中特征信息的损失,使用增大感受野的深度可分离卷积构建特征融合网络。实验结果表明,相比于其他主流检测算法,所提算法在KITTI数据集上达到了71.03%的检测精度和80 FPS的检测速度,在背景复杂、密集遮挡、尺度不一等场景中都具有较好的鲁棒性和实时性。  相似文献   

15.
Depth maps have been proven profitable to provide supplements for salient object detection in recent years. However, most RGB-D salient object detection approaches ignore that there are usually low-quality depth maps, which will inevitably result in unsatisfactory results. In this paper, we propose a depth cue enhancement and guidance network (DEGNet) for RGB-D salient object detection by exploring the depth quality enhancement and utilizing the depth cue guidance to generate predictions with highlighted objects and suppressed backgrounds. Specifically, a depth cue enhancement module is designed to generate high-quality depth maps by enhancing the contrast between the foreground and the background. Then considering the different characteristics of unimodal RGB and depth features, we use different feature enhancement strategies to strengthen the representation capability of side-output unimodal features. Moreover, we propose a depth-guided feature fusion module to excavate depth cues provided by the depth stream to guide the fusion of multi-modal features by fully making use of different modal properties, thus generating discriminative cross-modal features. Besides, we aggregate cross-modal features at different levels to obtain the final prediction by adopting a pyramid feature shrinking structure. Experimental results on six benchmark datasets demonstrate that the proposed network DEGNet outperforms 17 state-of-the-art methods.  相似文献   

16.
深度学习在室内人员检测领域应用广泛,但是传统的卷积神经网络复杂度大且需要高算力GPU的支持,很难实现在嵌入式设备上的部署。针对上述问题,该文提出一种基于改进YOLOv4-tiny的轻量化室内人员目标检测算法。首先,设计一种改进的Ghost卷积特征提取模块,有效减少了模型的复杂度;同时,该文通过采用带有通道混洗机制的深度可分离卷积进一步减少网络参数;其次,该文构建了一种多尺度空洞卷积模块以获得更多具有判别性的特征信息,并结合改进的空洞空间金字塔池化结构和具有位置信息的注意力机制进行有效的特征融合,在提升准确率的同时提高推理速度。在多个数据集和多种硬件平台上的实验表明,该文算法在精度、速度、模型参数和体积等方面优于原YOLOv4-tiny网络,更适合部署于资源有限的嵌入式设备。  相似文献   

17.
针对铣床碎屑形状不规则导致图像分割中碎屑轮廓不清晰、分割精度低的问题,本文提出一种改进的DeepLabV3+铣床碎屑分割算法。首先在DeepLabV3+的Xcepetion模块中嵌入通道与空间注意力机制(convolutional block attention module, CBAM)模型,优化通道的权重和位置信息,加强碎屑图像区域的特征学习;其次将DeepLabV3+的空洞空间卷积池化金字塔(atrous spatial pyramid pooling, ASPP)模块改为密集连接(dense conolutional network, DenseNet)方式,增大碎屑图像特征点的感受野,提升铣床碎屑图像特征的复用效率;最后在解码过程中采用多尺度自适应特征融合方法,聚合多尺度特征作为解码器的输入特征,提高碎屑图像分割的精度与鲁棒性。实验结果表明,本文算法优于其他分割算法,改进后算法相比DeepLabV3+,像素准确率提高0.026,平均交并比(mean intersection over union,MIOU)提高0.020,F1值提高了0.013。  相似文献   

18.
针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了 一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干 网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大 小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果 表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算 法对弯曲文本的检测效果良好,具有一定的 应用价值。  相似文献   

19.
针对不同模态MR脑肿瘤图像呈现的肿瘤状态差异以及卷积神经网络(convolutional neural networks, CNNs)提取特征局限性的问题,提出了一种基于多模态融合的MR脑肿瘤图像分割方法。分割模型以U-net网络为原型,创新一种多模态图像融合方式以加强特征提取能力,同时引入通道交叉注意力机制(channel cross transformer, CCT)代替U-net中的跳跃连接结构,进一步弥补深浅层次的特征差距与空间依赖性,有效融合多尺度特征,加强对肿瘤的分割能力。实验在BraTS数据集上进行了多目标分割结果验证,通过定量分析对比前沿网络分割结果,表明该方法确有良好的分割性能,其分割出三种肿瘤区域的Dice系数分别达到80%、74%、71%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号