首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
通过肉眼识别鱼类疫病依赖于诊断人员的经验,疫病数据存在类间差距较小与识别效率低等细粒度问题。由于Transformer缺乏卷积神经网络(CNN)的归纳偏差,需要大量的数据进行训练;CNN对全局特征提取不足,泛化性能较差等问题限制模型的分类精度。基于特征图对所有像素的全局交互建立算法模型,提出一种基于CNN与Vision Transformer相结合的鱼类疫病识别模型(CViT-FDRM)。首先,搭建鱼类疫病的数据库FishData01;其次,利用CNN提取鱼类图像细粒度特征,采用Transformer模型自注意力机制获取图像全局信息进行并行训练;然后,采用组归一化层将样本通道分组求均值与标准差;最后,采用404张鱼类疫病图像进行测试,CViT-FDRM达到97.02%的识别准确率。在细粒度图像开源数据库Oxford Flowers上的实验结果表明,CViT-FDRM的分类精度优于主流的细粒度图像分类算法,可达95.42%,提高4.84个百分点。CViT-FDRM在细粒度图像识别方面可达到较好的效果。  相似文献   

2.
细粒度图像分类的目标是区分同一个常见类下的不同子类,由于数据集往往存在较大的类内差异和较大的类间相似性,细粒度图像分类相比于传统图像分类具有更大的挑战性。以往工作中,基于组件的方法和基于注意力的方法致力于挖掘图像中的判别力区域,而忽视了用来区分易混淆类别的微弱差异。为了解决以上问题,本文提出了一个基于多视角融合的细粒度图像分类方法,包含两个分支,其中一个分支基于特征图挖掘图像的局部特征,另一个分支则学习图像的全局特征。同时引入一种嵌入损失,与传统多分类交叉熵损失函数结合增强特征的判别性,进而提升模型的分类性能。所提方法仅使用图像级标签,在CUB-200-2011,Stanford Cars和FGVC Aircraft这三个基准数据集上的分类准确率分别达到了88.3%,94.3%和92.4%,实验结果表明所提方法相比其它细粒度图像分类方法具有一定的优越性。   相似文献   

3.
为解决高分辨率遥感图像所具有的类内差异大而类间差异小的特性导致的图像难分类问题,提出一种基于深度学习中卷积神经网络与Transformer优点的混合结构。对卷积层提取的特征信息使用两个带有空间位置信息的注意力机制,分别沿水平方向和垂直方向对每个通道进行特征聚集,以减少遥感场景特征的冗余映射,使网络能够提取更多与任务目标相关的信息。然后利用Transformer编码器结构对捕获的特征图进行编码操作,赋予特征图中感兴趣区域较大的权重。实验结果表明,与现有的基于深度学习的遥感图像分类方法相比,所提方法既降低了模型参数量,又提升了分类准确率,在遥感图像分类数据集AID、NWPU-RESISC45及VGoogle上均达到了最高的平均分类准确率,分别为98.95%、96.00%和95.01%。  相似文献   

4.
在医疗图像分割领域中,以臂丛神经(Brachial Plexus, BP)超声图像为例的部分超声图像中存在对比度低、边缘模糊和噪声多等问题,使得对目标区域的准确分割十分困难。为此,基于TransUnet网络框架将Transformer模块引入U-Net网络编码端,利用其自注意力机制更好地捕捉图像中的全局特征,提高模型的特征提取能力;同时将空洞卷积应用到网络的跳跃连接来增大感受野,降低特征图中的噪声影响,为解码端提供更显著的特征。实验表明,与传统的U-Net、SegNet以及基于Transformer的MedT(Medical Transformer)相比,设计的网络模型具有更高的Dice系数和IoU值,Dice系数较前三者最高提升了13.2%。  相似文献   

5.
由于自然条件下拍摄的花卉图像背景复杂,而且其存在类内差异性大和类间相似性高的问题,现有主流方法仅依靠卷积模块提取花卉的局部特征难以实现准确的细粒度分类。针对上述问题,本文提出了1种高精度、轻量化的花卉分类方法(ConvTrans-ResMLP),通过结合Transformer模块和残差MLP(multi-layer perceptron)模块实现对花卉图像的全局特征提取,并在Transformer模块中加入卷积计算使得模型仍保留提取局部特征的能力;同时,为了进一步将花卉分类模型部署到边缘设备中,本研究基于知识蒸馏技术实现对模型的压缩与优化。实验结果表明,本文所提出的方法在Oxford 17、Oxford 102和自制的Flowers 32数据集上的准确率分别达98.62%、97.61%和98.40%;知识蒸馏后本文的轻量化模型的大小约为原来的1/18,而准确率仅下降2%左右。因此,本研究能较好地提升边缘设备下花卉细粒度分类的效率,对促进花卉培育的自动化发展具有切实意义。  相似文献   

6.
针对卷积神经网络处理图像分类任务时提取特征不充分以及提取到的特征不区分贡献度的问题,提出了一种融合张量合成注意力的改进ResNet-101 (RTSA Net-101)网络模型。首先,利用ResNet-101骨干网络提取图像特征,并在残差网络卷积结构后嵌入张量合成注意力模块,对获取的特征进行三张量积计算,得到注意力特征矩阵;然后,使用Softmax函数对注意力特征矩阵进行归一化,从而为特征分配权重,以区分特征的贡献度;最后,将得到的权重和对应的键值加权求和,获取最终图像完整特征,以提升模型的图像分类精度。在自然图像数据集CIFAR-10、CIFAR-100和街牌号数据集SVHN上进行了对比实验,模型分类准确率分别为96.12%、81.60%、96.67%,图像平均测试运行时间分别为0.0258 s、0.0260 s、0.0262 s。实验结果表明:相比于其他7种先进图像分类模型,RTSA Net-101模型可以获得更高的分类准确率和更短的测试运行时间,且能够有效地增强网络的特征学习能力,具有一定的创新性、高效性。  相似文献   

7.
针对普通卷积神经网络在遥感图像分割中小目标识别度不高、分割精度低的问题,提出了一种结合特征图切分模块和注意力机制模块的遥感影像分割网络AFSM-Net。首先在编码阶段引入特征图切分模块,对每个切分的特征图进行放大,通过参数共享的方式进行特征提取;然后,将提取的特征与网络原输出图像进行融合;最后,在网络模型中引入注意力机制模块,使其更关注图像中有效的特征信息,忽略无关的背景信息,从而提高模型对小目标物体的特征提取能力。实验结果表明,所提方法的平均交并比达到86.42%,相比于DeepLabV3+模型提升了3.94个百分点。所提方法充分考虑图像分割中小目标的关注度,提升了遥感图像的分割精度。  相似文献   

8.
为进一步提高花卉分类的准确率,在对双线性卷积神经网络、RepVGG及注意力机制进行研究的基础上,提出一种基于双线性RepVGG注意力机制的网络模型。首先利用RepVGG网络替换原始的特征提取网络VGG,以提高对花卉主要特征的提取能力;然后在两个RepVGG网络中分别引入通道注意力及空间注意力机制,并利用两个RepVGG网络外积后生成的高维双线性特征,来提取花卉的细粒度特征;最后通过结构重参数化,将RepVGG的各层转换为单路结构,以提高模型推理的速度。实验结果表明,在增强的Oxford-102数据集上,新模型与原始模型及常见模型相比,其推理速度及分类准确率均有较大的提升,与未引入注意力前相比,分类准确率也有一定的提升。  相似文献   

9.
目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。  相似文献   

10.
为改善基层医疗机构儿童肺炎诊疗水平,提高基层医生分析临床医学影像的效率和质量,提出了一种基于Vision Transformer(ViT)的小儿肺炎辅助诊断模型。首先利用ResUNet对儿童胸片进行肺区域分割,将左右肺区域从胸片中分割出来以降低其他组织对肺炎诊断的干扰。然后,将分割后的图像输入改进的混合ViT模型进行诊断,该模型使用传统卷积神经网络的特征映射作为Transformer的输入,并在卷积神经网络中引入自注意力机制,增强卷积以加强其获取全局相关性的能力。最后,对卷积神经网络的骨干网络和Transformer模型进行端到端的训练,使模型能够达到良好的图像分类结果。在Chest X-Ray Images肺炎标准数据集上进行了实验,实验结果表明,所提模型的肺炎识别准确率、精确率和召回率分别达到97.27%、97.69%和98.60%。即该模型具有较好的可行性,可使基层儿童肺炎的临床诊断准确率得到很大提升。  相似文献   

11.
近年来,随着空间感知技术的不断发展,对多源遥感图像的融合处理需求也逐渐增多,如何有效地提取多源图像中的互补信息以完成特定任务成为当前的研究热点。针对多源遥感图像融合语义分割任务中,多源图像的信息冗余和全局特征提取难题,本文提出一种将多光谱图像(Multispectral image, MS)、全色图像(Panchromatic image, PAN)和合成孔径雷达 (Synthetic Aperture Radar, SAR)图像融合的基于Transformer的多源遥感图像语义分割模型Transformer U-Net (TU-Net)。该模型使用通道交换网络(Channel-Exchanging-Network, CEN)对融合支路中的多源遥感特征图进行通道交换,以获得更好的信息互补性,减少数据冗余。同时在特征图拼接后通过带注意力机制的Transformer模块对融合特征图进行全局上下文建模,提取多源遥感图像的全局特征,并以端到端的方式分割多源图像。在MSAW数据集上的训练和验证结果表明,相比目前的多源融合语义分割算法,在F1值和Dice系数上分别提高了3.31%~11.47%和4.87%~8.55%,对建筑物的分割效果提升明显。   相似文献   

12.
细粒度图像识别研究的内容是大类下的子类别识别问题,其关键是找到图像中的关键区域并从中提取有效特征.针对现有方法在定位关键区域时无法兼顾准确性和计算量的问题,提出了一种引入高效通道注意力模块的多分支网络.首先,在递归注意力卷积神经网络的基础上引入通道注意力定位图像中目标的位置.然后,用深度超参数化卷积替换传统卷积操作,增加了网络可学习的参数.最后,用改进的注意力部件模块切割出多个图像关键区域部件,以捕捉丰富的局部信息.实验结果表明,本方法在弱监督情况下的识别效果较好,在两个常用细粒度数据集Stanford Cars、Food-101上的识别准确率分别为95.4%和90.6%.  相似文献   

13.
由于浅层卷积神经网络(convolutional neural network,CNN)模型感受野的限制,无法捕获远距离特征,在高光谱图像 (hyperspectral image,HSI) 分类问题中无法充分利用图像空间-光谱信息,很难获得较高精度的分类结果。针对上述问题,本文提出了一种基于卷积神经网络与注意力机制的模型(model based on convolutional neural network and attention mechanism,CNNAM),该模型利用CA (coordinate attention)对图像通道数据进行位置编码,并利用以自注意力机制为核心架构的Transformer模块对其进行远距离特征提取以解决CNN感受野的限制问题。CNNAM在Indian Pines和Salinas两个数据集上得到的总体分类精度分别为97.63%和99.34%,对比于其他模型,本文提出的模型表现出更好的分类性能。另外,本文以是否结合CA为参考进行了消融实验,并证明了CA在CNNAM中发挥重要作用。实验证明将传统CNN与注意力机制相结合可以在HSI分类问题中获得更高的分类精度。  相似文献   

14.
为实现肺癌病理图像的准确分类,提出一种基于双重注意力和动态ReLU的残差网络DrANeT,在网络模型中嵌入CBAM双重注意力机制,提高网络提取有用特种图的能力;使用动态ReLU替换网络中所使用的普通ReLU,可以根据不同特征图自动调整参数,提高模型性能。实验结果表明,该网络模型在肺良性图像、肺腺癌图像和肺鳞状细胞癌图像准确率分别达到100.00%、99.96%、99.96%,整个数据集准确率达到99.96%。因此,表明本实验所改进的网络模型可以有效地提高肺癌病理图像分类的准确率。  相似文献   

15.
CT图像肺结节大小、形状和纹理的多样性,导致肺结节的良恶性诊断十分困难。在三维卷积神经网络的基础上,提出了一种基于多深度残差注意力机制的网络(MDRA-net),用于良恶性肺结节分类。MDRA-net通过在残差分支上使用特征融合及迭代分层融合的方法,提升了网络对结节位置特征及全局特征的感知能力;此外,结合注意力机制,引入projection and excitation模块,利用空间和通道信息进行校准,进一步提升了网络提取特征的能力。在LUNA16数据集上的实验结果表明,MDRA-net分类模型的肺结节检测准确率达96.52%,灵敏度和特异性分别为93.01%和97.77%,较现有的基于深度学习的肺结节良恶性分类模型有较大提升。  相似文献   

16.
针对在低信噪比(SNR)条件下,低截获概率雷达信号调制方式识别准确率低的问题,提出一种基于Transformer和卷积神经网络(CNN)的雷达信号识别方法。首先,引入Swin Transformer模型并在模型前端设计CNN特征提取层构建了CNN+Swin Transformer网络(CSTN),然后利用时频分析获取雷达信号的时频特征,对图像进行预处理后输入CSTN模型进行训练,由网络的底部到顶部不断提取图像更丰富的语义信息,最后通过Softmax分类器对六类不同调制方式信号进行分类识别。仿真实验表明:在SNR为-18 dB时,该方法对六类典型雷达信号的平均识别率达到了94.26%,证明了所提方法的可行性。  相似文献   

17.
针对交通场景语义分割算法中存在的易融入周围背景的纤细条状目标分割不连续、模型参数量大等问题,提出一种融合多尺度深度卷积的轻量级Transformer交通场景语义分割算法。首先,基于深度卷积构建多尺度条形特征提取模块,在不同尺度下增强对纤细条状目标特征的表示能力。其次,在浅层网络中利用卷积归纳偏置特性设计空间细节辅助模块,以弥补深层空间细节信息的丢失来优化目标边缘分割。最后,提出基于Transformer-CNN框架的非对称编解码网络,编码器结合Transformer与CNN减少细节信息丢失并降低模型参数量;而解码器采用轻量级的多级特征融合设计来进一步建模全局上下文。所提算法在Cityscapes和Cam Vid交通场景公开数据集上分别取得的平均交并比为78.63%和81.06%,能够在交通场景语义分割中实现分割精度和模型大小之间的权衡,具备良好的应用前景。  相似文献   

18.
图像描述的任务是根据输入图像自动生成描述该图像的语句,属于计算机视觉与自然语言处理的交叉领域.针对传统注意力机制提取特征能力不足、模型复杂且训练困难等问题,本文提出了一种改进注意力机制的图像描述模型.在传统注意力机制的基础上引入高效通道注意模块,在提升特征提取效果的同时降低模型复杂度,在保证性能的同时提高模型效率,更好...  相似文献   

19.
针对现有图像去模糊算法提取特征多样性不足,细节恢复能力有限的问题,提出双路残差图像去模糊模型DTCM。首先,设计了双路残差连接网络,以增加特征信息的丰富度;其次,引入Swin Transformer作为集成推理模块,用于突出主要特征、减少信息冗余,并在此基础上与卷积神经网络相结合,提出改进的SWT-C层,增强模型捕获长期依赖关系的能力;最后,引入金字塔卷积神经网络重建图像。实验结果表明,所提模型在多种运动模糊场景下均取得了较好的恢复结果。  相似文献   

20.
提出了两种基于主成分分析与局部二值模式的高光谱图像分类算法。利用主成分分析去除高光谱图像的谱间冗余信息,对降维后的图像利用局部二值模式进行空间纹理特征分析,采用稀疏表示分类和支持向量机分别对提取的特征进行分类。其通过将主成分分析与局部二值模式相结合对高光谱图像进行特征提取,保证了高光谱图像的谱间冗余的有效去除,同时保护了高光谱图像的空间局部邻域信息,因此,此类算法不但能充分挖掘高光谱图像的谱间-空间特征,在较大程度上提高分类精度和Kappa系数,而且在高斯噪声环境中和小样本情况下也具有良好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号