首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
目的 在细粒度视觉识别中,难点是对处于相同层级的大类,区分其具有微小差异的子类,为实现准确的分类精度,通常要求具有专业知识,所以细粒度图像分类为计算机视觉的研究提出更高的要求。为了方便普通人在不具备专业知识和专业技能的情况下能够区分物种细粒度类别,进而提出一种基于深度区域网络的卷积神经网络结构。方法 该结构基于深度区域网络,首先,进行深度特征提取任务,使用VGG16层网络和残差101层网络两种结构作为特征提取网络,用于提取深层共享特征,产生特征映射。其次,使用区域建议网络结构,在特征映射上进行卷积,产生目标区域;同时使用兴趣区域(RoI)池化层对特征映射进行最大值池化,实现网络共享。之后将池化后的目标区域输入到区域卷积网络中进行细粒度类别预测和目标边界回归,最终输出网络预测类别及回归边框点坐标。同时还进行了局部遮挡实验,检测局部遮挡部位对于分类正确性的影响,分析局部信息对于鸟类分类的影响情况。结果 该模型针对CUB_200_2011鸟类数据库进行实验,该数据库包含200种细粒度鸟类类别,11 788幅鸟类图片。经过训练及测试,实现VGG16+R-CNN (RPN)和Res101+R-CNN (RPN)两种结构验证正确率分别为90.88%和91.72%,两种结构Top-5验证正确率都超过98%。本文模拟现实环境遮挡情况进行鸟类局部特征遮挡实验,检测分类效果。结论 基于深度区域网络的卷积神经网络模型,提高了细粒度鸟类图像的分类性能,在细粒度鸟类图像的分类上,具有分类精度高、泛化能力好和鲁棒性强的优势,实验发现头部信息对于细粒度鸟类分类识别非常重要。  相似文献   

2.
目的 细粒度车型识别旨在通过任意角度及场景下的车辆外观图像识别出其生产厂家、品牌型号、年款等信息,在智慧交通、安防等领域具有重要意义。针对该问题,目前主流方法已由手工特征提取向卷积神经网络为代表的深度学习方法过渡。但该类方法仍存在弊端,首先是识别时须指定车辆的具体位置,其次是无法充分利用细粒度目标识别其视觉差异主要集中在关键的目标局部的特点。为解决这些问题,提出基于区域建议网络的细粒度识别方法,并成功应用于车型识别。方法 区域建议网络是一种全卷积神经网络,该方法首先通过卷积神经网络提取图像深层卷积特征,然后在卷积特征上滑窗产生区域候选,之后将区域候选的特征经分类层及回归层得到其为目标的概率及目标的位置,最后将这些区域候选通过目标检测网络获取其具体类别及目标的精确位置,并通过非极大值抑制算法得到最终识别结果。结果 该方法在斯坦福BMW-10数据集的识别准确率为76.38%,在斯坦福Cars-196数据集识别准确率为91.48%,不仅大幅领先于传统手工特征方法,也取得了与目前最优的方法相当的识别性能。该方法同时在真实自然场景中取得了优异的识别效果。结论 区域建议网络不仅为目标检测提供了目标的具体位置,而且提供了具有区分度的局部区域,为细粒度目标识别提供了一种新的思路。该方法克服了传统目标识别对于目标位置的依赖,并且能够实现一图多车等复杂场景下的车型细粒度识别,具有更好的鲁棒性及实用性。  相似文献   

3.
目的 细粒度图像分类是指对一个大类别进行更细致的子类划分,如区分鸟的种类、车的品牌款式、狗的品种等。针对细粒度图像分类中的无关信息太多和背景干扰问题,本文利用深度卷积网络构建了细粒度图像聚焦—识别的联合学习框架,通过去除背景、突出待识别目标、自动定位有区分度的区域,从而提高细粒度图像分类识别率。方法 首先基于Yolov2(youonly look once v2)的网络快速检测出目标物体,消除背景干扰和无关信息对分类结果的影响,实现聚焦判别性区域,之后将检测到的物体(即Yolov2的输出)输入双线性卷积神经网络进行训练和分类。此网络框架可以实现端到端的训练,且只依赖于类别标注信息,而无需借助其他的人工标注信息。结果 在细粒度图像库CUB-200-2011、Cars196和Aircrafts100上进行实验验证,本文模型的分类精度分别达到84.5%、92%和88.4%,与同类型分类算法得到的最高分类精度相比,准确度分别提升了0.4%、0.7%和3.9%,比使用两个相同D(dence)-Net网络的方法分别高出0.5%、1.4%和4.5%。结论 使用聚焦—识别深度学习框架提取有区分度的区域对细粒度图像分类有积极作用,能够滤除大部分对细粒度图像分类没有贡献的区域,使得网络能够学习到更多有利于细粒度图像分类的特征,从而降低背景干扰对分类结果的影响,提高模型的识别率。  相似文献   

4.
有效识别各种鸟类目标具有重要的生态环境保护意义。针对不同种类鸟类之间差别细微、识别难度大等问题,提出一种基于语义信息跨层特征融合的细粒度鸟类识别模型。该模型由区域定位网络、特征提取网络和一种跨层特征融合网络(Cross-layer Feature Fusion Network,CFF-Net)组成。区域定位网络在没有局部语义标注的情况下,自动定位出局部有效信息区域;特征提取网络提取局部区域图像特征和全局图像特征;CFF-Net对多个局部和全局特征进行融合,提高最终分类性能。结果表明,该方法在Caltech-UCSD Birds200-2011(CUB200-2011)鸟类公共数据集上,取得了87.8%的分类准确率,高于目前主流的细粒度鸟类识别算法,表现出优异的分类性能。  相似文献   

5.
目的 三维点云分类作为一项关键任务,在计算机视觉、机器人和自动驾驶等领域有着广泛的应用场景。现有的三维点云分类网络在使用边卷积进行局部特征提取时通常存在输入特征差异性小,空间结构信息提取、融合不充分等问题。针对上述问题,设计了一种结合空间结构卷积和注意力机制的点云分类网络。方法 首先,提出一种空间结构卷积,在边卷积的基础上引入邻接点之间的相对位置信息来降低输入特征相似性,而后从结构和位置两个角度分别进行特征编码,实现更具多样性的局部几何结构捕获。其次,设计了全局特征编码模块,从坐标信息中提炼全局特征信息,同时在网络中融合了注意力机制,用于关联局部和全局特征表示,有效保留了全局特征信息,实现全局特征的适应性调整。最后,将局部几何结构信息和全局位置信息进行有效的融合,获得更具代表性和差异性的特征表征。结果 设计实验在公开数据集ModelNet40上对提出的网络模型的性能进行评估,点云分类总体准确率和平均准确率分别达到93.0%和89.7%,具备良好的分类性能和预测效率。实验结果表明,空间结构卷积的使用有效增加了输入特征的多样性,位置和结构的单独编码有效提高了局部特征的表达能力。同时,提出的注意力加权方式在保留全局特征前提下实现了局部特征和全局特征的关联。结论 提出的网络有较强的细粒度特征提取能力,具有良好的分类性能。  相似文献   

6.
目的 合成孔径雷达图像目标识别可以有效提高合成孔径雷达数据的利用效率。针对合成孔径雷达图像目标识别滤波处理耗时长、识别精度不高的问题,本文提出一种卷积神经网络模型应用于合成孔径雷达图像目标识别。方法 首先,针对合成孔径雷达图像特点设计特征提取部分的网络结构;其次,代价函数中引入L2范数提高模型的抗噪性能和泛化性;再次,全连接层使用Dropout减小网络的运算量并提高泛化性;最后研究了滤波对于网络模型的收敛速度和准确率的影响。结果 实验使用美国运动和静止目标获取与识别数据库,10类目标识别的实验结果表明改进后的卷积神经网络整体识别率(包含变体)由93.76%提升至98.10%。通过设置4组对比实验说明网络结构的改进和优化的有效性。卷积神经网络噪声抑制实验验证了卷积神经网络的特征提取过程对于SAR图像相干斑噪声有抑制作用,可以省去耗时的滤波处理。结论 本文提出的卷积神经网络模型提高了网络的准确率、泛化性,无需耗时的滤波处理,是一种合成孔径雷达图像目标识别的有效方法。  相似文献   

7.
目的 螺栓是确保输电线路安全牢靠的基石,螺栓缺销、松动和锈蚀等缺陷是造成输电线路损坏甚至重大事故的重要原因之一。本文针对螺栓缺陷存在视觉不可分的问题,提出了一种改进NTS-Net(navigator-teacher-scrutinizer network)的螺栓属性多标签分类方法。方法 为了增强模型对不规则轮廓的处理能力,采用可变形卷积的ResNet-50网络作为特征提取网络从原图中提取全局特征。利用NTS-Net学习得到图像信息量最大的判别性局部区域。为了考虑不同局部特征对不同属性标签的不同影响,在局部特征与全局特征融合时引入通道注意力机制,提取特征的通道权重,获取关键通道特征以改善多标签分类效果。结果 实验结果表明,本文在螺栓多属性分类数据集上的平均分类精确率为84.5%,比采用传统的多标签分类精确率提升了10%~20%。结论 本文通过可变形卷积提升网络的特征提取能力以及引入通道注意力机制实现了对NTS-Net提供的局部特征的高效利用,为解决螺栓多属性分类中存在的问题提供了一种新的思路。  相似文献   

8.
目的 表情是人机交互过程中重要的信息传递方式,因此表情识别具有重要的研究意义。针对目前表情识别方法存在背景干扰大、网络模型参数复杂、泛化性差等问题,本文提出了一种结合改进卷积神经网络(convolutional neural network,CNN)与通道加权的轻量级表情识别方法。方法 首先,采用标准卷积和深度可分离卷积组合神经网络结构,再利用全局平均池化层作为输出层,简化网络的复杂程度,有效降低网络参数;其次,网络引入SE(squeeze-and-excitation)模块进行通道加权,通过在不同卷积层后设置不同的压缩率增强表情特征提取能力,提升网络模型精度;最后,用softmax分类函数实现各类表情的准确分类。结果 本文网络参数量为6 108 519,相较于识别性能较好的Xception神经网络参数减少了63%,并且通过对网络模型的实时性测试,平均识别速度可达128 帧/s。在5个公开的表情数据集上验证网络模型对7种表情的识别效果,与7种卷积神经网络方法相比,在FER2013 (Facial Expression Recognition 2013)、CK+ (the extended Cohn-Kanade) 和JAFFE (Japanses Female Facial Expression) 3个表情数据集的识别精确度提高了5.72%、0.51%和0.28%,在RAF-DB (Real-world Affective Faces Database)、AffectNet这两个in-the-wild表情数据库的识别精确度分别提高了2.04%和0.68%。结论 本文提出的轻量级表情识别方法在不同通道具有不同的加权能力,获取更多表情关键特征信息,提高了模型的泛化性。实验结果表明,本文方法在简化网络的复杂程度、减少计算量的同时能够准确识别人脸表情,能够有效提升网络的识别能力。  相似文献   

9.
目的 针对用于SAR (synthetic aperture radar) 目标识别的深度卷积神经网络模型结构的优化设计难题,在分析卷积核宽度对分类性能影响基础上,设计了一种适用于SAR目标识别的深度卷积神经网络结构。方法 首先基于二维随机卷积特征和具有单个隐层的神经网络模型-超限学习机分析了卷积核宽度对SAR图像目标分类性能的影响;然后,基于上述分析结果,在实现空间特征提取的卷积层中采用多个具有不同宽度的卷积核提取目标的多尺度局部特征,设计了一种适用于SAR图像目标识别的深度模型结构;最后,在对MSTAR (moving and stationary target acquisition and recognition) 数据集中的训练样本进行样本扩充基础上,设定了深度模型训练的超参数,进行了深度模型参数训练与分类性能验证。结果 实验结果表明,对于具有较强相干斑噪声的SAR图像而言,采用宽度更大的卷积核能够提取目标的局部特征,提出的模型因能从输入图像提取目标的多尺度局部特征,对于10类目标的分类结果(包含非变形目标和变形目标两种情况)接近或优于已知文献的最优分类结果,目标总体分类精度分别达到了98.39%和97.69%,验证了提出模型结构的有效性。结论 对于SAR图像目标识别,由于与可见光图像具有不同的成像机理,应采用更大的卷积核来提取目标的空间特征用于分类,通过对深度模型进行优化设计能够提高SAR图像目标识别的精度。  相似文献   

10.
目的 遥感影像地物提取是遥感领域的研究热点。由于背景和地物类型复杂多样,单纯利用传统方法很难对地物类别进行准确区分和判断,因而常常造成误提取和漏提取。目前基于卷积神经网络CNN(convolutional neural network)的方法进行地物提取的效果普遍优于传统方法,但需要大量的时间进行训练,甚至可能出现收敛慢或网络不收敛的情况。为此,基于多视觉信息特征的互补原理,提出了一种双视觉全卷积网络结构。方法 该网络利用VGG(visual geometry group)16和AlexNet分别提取局部和全局视觉特征,并经过融合网络对两种特征进行处理,以充分利用其包含的互补信息。同时,将局部特征提取网络作为主网络,减少计算复杂度,将全局特征提取网络作为辅助网络,提高预测置信度,加快收敛,减少训练时间。结果 选取公开的建筑物数据集和道路数据集进行实验,并与二分类性能优异的U-Net网络和轻量型Mnih网络进行对比。实验结果表明,本文提出的双视觉全卷积网络的平均收敛时间仅为U-Net网络的15.46%;提取精度与U-Net相当,远高于Mnih;在95%的置信水平上,该网络的置信区间明显优于U-Net。结论 本文提出的双视觉全卷积网络,融合了影像中地物的局部细节特征和全局特征,能保持较高的提取精度和置信度,且更易训练和收敛,为后续遥感影像地物提取与神经网络的设计提供了参考方向。  相似文献   

11.
刘宇昕  闵巍庆  蒋树强  芮勇 《软件学报》2022,33(11):4379-4395
近年来,食品图像识别由于在健康饮食管理、无人餐厅等领域的广泛应用而受到了越来越多的关注.不同于其他物体识别任务,食品图像属于细粒度图像,具有较高的类内差异性和类间相似性,而且食品图像没有固定的语义模式和空间布局,这些特点使得食品图像识别更具挑战性.为此,提出了一种用于食品图像识别的多尺度拼图重构网络(multi-scale jigsaw and reconstruction network,MJR-Net).MJR-Net由拼图重构模块、特征金字塔模块和通道注意力模块这3部分组成.拼图重构模块使用破坏重构学习方法将原始图像进行破坏和重构,以提取局部的判别性细节特征;特征金字塔模块可以融合不同尺寸的中层特征,以捕获多尺度的局部判别性特征;通道注意力模块对不同特征通道的重要程度进行建模,以增强判别性的视觉模式,减弱噪声干扰.此外,还使用A-softmax和Focal损失,分别从增大类间差异和修正分类样本的角度优化网络.MJR-Net在ETH Food-101,Vireo Food-172和ISIA Food-500这3个食品数据集上进行实验,分别取得了90.82%,91.37%和64.95%的识别准确率.实验结果表明,与其他食品图像识别方法相比,MJR-Net表现出较大的竞争力,并在Vireo Food-172和ISIA Food-500上取得了最优识别性能.全面的消融实验和可视化分析证明了该方法的有效性.  相似文献   

12.
针对现有的人体行为识别算法不能充分利用网络多层次时空信息的问题,提出了一种基于三维残差稠密网络的人体行为识别算法。首先,所提算法使用三维残差稠密块作为网络的基础模块,模块通过稠密连接的卷积层提取人体行为的层级特征;其次,经过局部特征聚合自适应方法来学习人体行为的局部稠密特征;然后,应用残差连接模块来促进特征信息流动以及减轻训练的难度;最后,通过级联多个三维残差稠密块实现网络多层局部特征提取,并使用全局特征聚合自适应方法学习所有网络层的特征用以实现人体行为识别。设计的网络算法在结构上增强了对网络多层次时空特征的提取,充分利用局部和全局特征聚合学习到更具辨识力的特征,增强了模型的表达能力。在基准数据集KTH和UCF-101上的大量实验结果表明,所提算法的识别率(top-1精度)分别达到了93.52%和57.35%,与三维卷积神经网络(C3D)算法相比分别提升了3.93和13.91个百分点。所提算法框架有较好的鲁棒性和迁移学习能力,能够有效地处理多种视频行为识别任务。  相似文献   

13.
近年来基于深度学习的人脸表情识别技术已取得很大进展,但对于表情特征的多尺度提取,以及在不受约束的现实场景中进行面部表情识别仍然是具有挑战性的工作。为解决此问题,提出一种金字塔卷积神经网络与注意力机制结合的表情识别方法。对于初始的一张人脸表情图像,将其按照区域采样裁剪成多张子图像,将原图像和子图像输入到金字塔卷积神经网络进行多尺度特征提取,将提取到的特征图输入到全局注意力模块,给每一张图像分配一个权重,从而得到有重要特征信息的图像,将子图像和原始图像的特征进行加权求和,得到新的含有注意力信息的全局特征,最终进行表情识别分类。在CK+、RAF-DB、AffectNet三个公开表情数据集上分别取得了98.46%、87.34%、60.45%的准确率,提高了表情的识别精度。  相似文献   

14.
王林  李聪会 《计算机工程》2021,47(2):314-320
行人属性识别易受视角、尺度和光照等非理想自然条件变化的影响,且某些细粒度属性识别难度较大。为此,提出一种多级注意力跳跃连接网络MLASC-Net。在网络中间层,利用敏感注意力模块在通道及空间维度上对原特征向量进行筛选加权,设计多级跳跃连接结构来融合所提取的显著性特征。在网络顶层,改进多尺度金字塔池化以融合局部特征和全局特征。在网络输出层,结合验证损失算法自适应更新损失层,加速模型的收敛并提高精度。在PETA和RAP数据集上的实验结果表明,MLASC-Net的识别准确率相较原基准网络分别提高约4.62和6.54个百分点,其在识别效果和模型收敛速度上有明显优势,同时在非理想自然条件下具有良好的泛化能力,可有效提高网络对细粒度属性的鲁棒性。  相似文献   

15.
目的 单幅图像超分辨率重建的深度学习算法中,大多数网络都采用了单一尺度的卷积核来提取特征(如3×3的卷积核),往往忽略了不同卷积核尺寸带来的不同大小感受域的问题,而不同大小的感受域会使网络注意到不同程度的特征,因此只采用单一尺度的卷积核会使网络忽略了不同特征图之间的宏观联系。针对上述问题,本文提出了多层次感知残差卷积网络(multi-level perception residual convolutional network,MLP-Net,用于单幅图像超分辨率重建)。方法 通过特征提取模块提取图像低频特征作为输入。输入部分由密集连接的多个多层次感知模块组成,其中多层次感知模块分为浅层多层次特征提取和深层多层次特征提取,以确保网络既能注意到图像的低级特征,又能注意到高级特征,同时也能保证特征之间的宏观联系。结果 实验结果采用客观评价的峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)两个指标,将本文算法其他超分辨率算法进行了对比。最终结果表明本文算法在4个基准测试集上(Set5、Set14、Urban100和BSD100(Berkeley Segmentation Dataset))放大2倍的平均峰值信噪比分别为37.851 1 dB,33.933 8 dB,32.219 1 dB,32.148 9 dB,均高于其他几种算法的结果。结论 本文提出的卷积网络采用多尺度卷积充分提取分层特征中的不同层次特征,同时利用低分辨率图像本身的结构信息完成重建,并取得不错的重建效果。  相似文献   

16.
目的 车型识别在智能交通、智慧安防、自动驾驶等领域具有十分重要的应用前景。而车型识别中,带标签车型数据的数量是影响车型识别的重要因素。本文以"增强数据"为核心,结合PGGAN(progressive growing of GANs)和Attention机制,提出一种基于对抗网络生成数据再分类的网络模型AT-PGGAN(attention-progressive growing of GANs),采用模型生成带标签车型图像的数量,从而提高车型识别准确率。方法 该模型由生成网络和分类网络组成,利用生成网络对训练数据进行增强扩充,利用注意力机制和标签重嵌入方法对生成网络进行优化使其生成图像细节更加完善,提出标签重标定的方法重新确定生成图像的标签数据,并对生成图像进行相应的筛选。使用扩充的图像加上原有数据集的图像作为输入训练分类网络。结果 本文模型能够很好地扩充已有的车辆图像,在公开数据集StanfordCars上,其识别准确率相比未使用AT-PGGAN模型进行数据扩充的分类网络均有1%以上的提升,在CompCars上与其他网络进行对比,本文方法在同等条件下最高准确率达到96.6%,高于对比方法。实验结果表明该方法能有效提高车辆精细识别的准确率。结论 将生成对抗网络用于对数据的扩充增强,生成图像能够很好地模拟原图像数据,对原图像数据具有正则的作用,图像数据可以使图像的细粒度识别准确率获得一定的提升,具有较大的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号