首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
小目标检测是目标检测任务中的难点问题之一,低分辨率的小目标存在可视化信息少、小目标占比小、在图像中分布不均匀等问题。为了应对这些挑战,提出了一种基于注意力机制改进的RetinaNet算法。首先对原始RetinaNet算法的特征提取模块ResNet-FPN进行改进,使网络能够更全面地提取目标特征信息;其次在FPN模块的P3层和P4层添加注意力机制,设计了精度更高的目标检测器ResNet-FPN*-Attention-RetinaNet。实验结果表明,相比于原始的RetinaNet网络,提出的ResNet-FPN*-Attention-RetinaNet网络在VOC2007测试集上的平均精度提升了0.55%;在制作的交通目标数据集上平均精度提升了2.3%,针对小目标的AP提高了4.52%。实验证明了所提出的ResNet-FPN*-Attention-RetinaNet网络比RetinaNet更加准确,更加适用于小目标检测任务。  相似文献   

2.
人体关键点检测在智能视频监控、人机交互等领域具有重要应用。多数基于深度学习的人体关键点检测算法仅聚焦于增加多尺度特征或加深网络模型深度,忽略了在获取低分辨率特征图过程中因重复下采样操作而造成的信息丢失。针对该问题,提出一种高分辨率的人体关键点检测网络CASANet,以实现二维图像人体姿态估计。使用HRNet作为骨干网络,引入坐标注意力模块在1/16分辨率特征图分支上捕获位置信息和通道信息,利用自注意力模块在1/32分辨率特征图分支上捕获位置信息和通道信息的内部相关性,通过这2个模块克服网络在获取低分辨率特征图过程中的信息丢失问题。在MS COCOVAL 2017数据集上进行实验,结果表明, CASANet网络可以在参数量和计算量有少量提升的情况下获得更高的检测准确度,有效提升通道信息和位置信息的提取效果,相较基线方法,CASANet的AP值提高2.4个百分点。  相似文献   

3.
罗琪彬  蔡强 《图学学报》2019,40(6):1056
传统运动模糊盲去除方法需先预测模糊图像的模糊核,再复原清晰图像。而实际 环境中的复杂的模糊核使此方法不能在视觉上很好地减小实际图像和复原后图像的差异,且直 接将现流行的生成对抗模型应用在图像模糊盲去除任务中会有严重的模式崩塌现象。因此,围 绕去模糊任务的特点提出了一种端到端的生成对抗网络模型--双框架生成对抗网络。该方案 不需要预测模糊核,直接实现图片运动模糊的盲去除。双框架生成对抗网络在原有 CycleGan 基础上将其网络结构和损失函数均作出了改进,提高了运动图像盲去除的精度,并且在样本有 限情况下大幅度增强了网络的稳定性。实验采用最小均方差优化网络训练,最后通过生成网络 和判别网络对抗训练获得清晰图像。在 ILSVRC2015 VID 数据集上的实验结果表明,该方法复原 质量更高,且复原结果在后续目标检测任务中达到了更优的效果。  相似文献   

4.
目的 拍摄运动物体时,图像易出现运动模糊,这将影响计算机视觉任务的完成。为提升运动图像去模糊的质量,提出了基于深度特征融合注意力的双尺度去运动模糊网络。方法 首先,设计了双尺度网络,在网络结构上设计高低尺度通路,在低尺度上增加对模糊区域的注意力,在高尺度上提升网络的高频细节恢复能力,增强了模型去模糊效果。其次,设计了深度特征融合注意力模块,通过融合全尺度特征、构建通道注意力,将编码的全尺度特征与解码的同级特征进行拼接融合,进一步增强了网络的去模糊性能和细节恢复能力。最后,在双尺度的基础上,引入多尺度损失,使模型更加关注高频细节的恢复。结果 在3个数据集上,与12种去模糊方法进行了对比实验。在GoPro数据集上得到了最优结果,相比SRN (scale-recurrent network)方法,平均峰值信噪比提升了2.29 dB,能够恢复出更多的细节信息。在Kohler数据集上,得到了最高的峰值信噪比(29.91 dB)。在Lai数据集上,视觉上有最好的去模糊效果。结论 实验结果表明,本文方法可以有效去除运动模糊并恢复细节。  相似文献   

5.
针对ResNet和DLA(deep layer aggregation)为主干网络的CenterNet算法特征提取能力不充分、热力图与目标真实边界框吻合度不高、关键点损失函数未充分考虑预测值对难易样本训练比重的影响等不足,提出一种改进多尺度卷积结构与高斯核的E-CenterNet算法。引入轻量型EfficientNetV2-S作为主干网络,并结合基于金字塔分割注意力网络的多尺度卷积结构对其进行改进,提高特征提取能力;对高斯核进行改进,使CenterNet产生的热力图由固定的圆形改进为随边界框宽高变化的椭圆形,增强算法对边界框宽高差异大的目标的检测能力;提出一种基于关键点预测值的关键点损失函数,提高算法对难样本的训练比例。在Pascal VOC数据集上的实验结果表明:E-CenterNet算法的mAP达到83.3%,比原始算法提升了2.6个百分点,检测性能优于CenterNet算法。  相似文献   

6.
龚浩田  张萌 《计算机科学》2021,48(8):106-110
针对基于关键点的目标检测参数量大、检测框误匹配的问题,提出一种轻量级的基于关键点检测的无锚框目标检测算法.首先将输入图片输入优化过的特征提取算法,通过级联角池化与中心池化,输出3个关键点的热力图与它们的嵌入向量;然后通过嵌入向量匹配热力图并画出检测框.文中的创新点在于将SqueezeNet中的轻量级模块firemodule适配至CenterNet,并用深度可分离卷积代替主干网的常规卷积,同时,针对CenterNet的检测框误匹配问题优化了算法输出形式与训练时的损失函数.实验结果表明,改良后的算法使得原有的CenterNet算法模型尺寸缩小为原来的1/7,同时检测精度与速度较YOLOv3,CornerNet-Lite等相同量级的算法仍有所提高.  相似文献   

7.
针对模糊目标检测,提出一个基于生成对抗网络去模糊网络模块(Deblur)与YOLO(You Only Look Once)实时检测算法的检测网络(BL-YOLOv3).该网络采用生成对抗网络的盲目运动去模糊图像(DeblurGAN)增强的方法对图像进行预处理,保留图像中超高质量的纹理信息并生成接近于真实场景的清晰图像.同时对YOLOv3网络进行裁剪压缩,优化对模糊目标的检测.实验结果表明,该方法有效地提升了模糊目标检测精度,在输入尺寸为416×416时检测速度可达42帧/s,mAP准确率达到了75.48%,在实际汽车防碰撞预警实时视频测试中取得较好的效果.  相似文献   

8.
三维人体目标检测在智能安防、机器人、自动驾驶等领域具有重要的应用价值。目前基于雷达与图像数据融合的三维人体目标检测方法主要采用两阶段网络结构,分别完成目标概率较高的候选边界框的选取以及对目标候选框进行分类和边界框回归。目标候选边界框的预先选取使两阶段网络结构的检测准确率和定位精度得到提高,但相对复杂的网络结构导致运算速度受到限制,难以满足实时性要求较高的应用场景。针对以上问题,研究了一种基于改进型RetinaNet的三维人体目标实时检测方法,将主干网络与特征金字塔网络结合用于雷达点云和图像特征的提取,并将两者融合的特征锚框输入到功能网络从而输出三维边界框和目标类别信息。该方法采用单阶段网络结构直接回归目标的类别概率和位置坐标值,并且通过引入聚焦损失函数解决单阶段网络训练过程中存在的正负样本不平衡问题。在KITTI数据集上进行的实验表明,本文方法在三维人体目标检测的平均精度和耗时方面均优于对比算法,可有效实现目标检测的准确性和实时性之间的平衡。  相似文献   

9.
迷彩伪装技术能有效降低目标的视觉显著度,对迷彩目标检测任务造成巨大的挑战。在RetinaNet检测框架的基础上,针对迷彩目标特性嵌入了空间注意力和通道注意力模块,并基于定位置信得分构建了新的预测框过滤算法,有效实现了对迷彩伪装人员的检测。在扩展后的伪装人员数据集上的实验表明,该模型将检测精度提升了8.7个百分点,达到了93.1%。  相似文献   

10.
针对当前运动图像去模糊网络忽略了运动模糊图像的非均匀性,不能有效地恢复图像的高频细节及去除伪影等问题,在对抗网络基础上提出一种基于自适应残差的运动图像去模糊方法.在生成网络中构造由形变卷积模块和通道注意力模块组成的自适应残差模块.其中,形变卷积模块学习运动模糊图像特征的形变量,可以根据图像的形变信息动态调整卷积核的形状和大小,提高网络适应图像形变的能力.通道注意力模块对所提取的形变特征进行通道调整,获取更多的图像高频特征,增强恢复后图像的纹理细节.在公开的GOPRO数据集上进行实验,实验结果表明,该算法的峰值信噪比(PSNR)有较大的提升,能够重建出纹理细节丰富的高质量图像.  相似文献   

11.
目的 卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法 本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果 实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论 本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

12.
目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果 实验结果表明,本文模型在ImageNet VID (Imagelvet for video object detetion)数据集上的mAP (mean average precision)为72.0%,相对于TCN (temporal convolutional networks)模型、TPN+LSTM (tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

13.
针对通用目标检测算法在检测小目标时检测精度低的问题,提出一种基于多尺度感受野融合的小目标检测算法S-RetinaNet。该算法采用残差神经网络(residual neural network,ResNet)提取出图像的特征,利用递归特征金字塔网络(recursive feature pyramid network,RFPN)对特征进行融合,通过多尺度感受野融合模块(multiscale receptive field fusion,MRFF)分别处理RFPN的三个输出,提升对小目标的检测能力。实验表明,相比改进前的RetinaNet算法,S-RetinaNet算法在PASCAL VOC数据集上的均值平均精度(mean average precision,mAP)和MS COCO数据集上的平均精度(average precision,AP)分别提高了2.3和1.6个百分点,其中小目标检测精度(average precision small,APS)更为显著,提升了2.7个百分点。  相似文献   

14.
隧道发生火灾存在着检测难、救援难的问题,实时的火灾监测对于及时发现火情是至关重要的。传统基于视频图像的火灾检测方法,检测依赖单幅图像,无法提取多幅图像的时空信息,检测精度低,不能有效检测隧道火灾。因此,提出了隧道火灾帧差网络。帧差网络使用3D卷积核构建网络结构,提取视频中火灾的时间上下文信息;将帧差网络衔接至YOLOv5主干网络形成隧道火灾帧差检测网络,可以检测单幅图像及两幅图像,从而充分利用视频动态信息;使用CIoU函数优化网络的边界框损失,并融合分类损失与置信度损失,使网络能够快速收敛。实验结果表明,该网络在隧道火灾数据集上的平均精度高达91.03%,检测速度达到了63.7帧/s,具有较强的鲁棒性。通过选取最优分析策略设计隧道火灾检测应用方法,该方法在隧道场景中的漏检率和误检率分别为2.52%和2.03%,可以满足隧道火灾检测的准确性和实时性需求。  相似文献   

15.
针对合成孔径雷达图像目标在背景复杂、场景较大、干扰杂波较多情况下检测困难的问题,设计一种层数较少的卷积神经网络,在完备数据集验证其特征提取效果后,作为基础特征提取网络使用。在训练数据集中补充复杂的大场景下目标训练样本。同时设计一种多层次卷积特征融合网络,增强对大场景下小目标的检测能力。通过对候选区域网络和目标检测网络近似联合训练后,得到一个完整的可用于不同的复杂大场景下SAR图像目标检测的模型。实验结果表明,该方法在SAR图像目标检测方面具有较好的效果,在测试数据集中具有0.86的AP值。  相似文献   

16.
目的 为了进一步提高智能监控场景下行为识别的准确率和时间效率,提出了一种基于YOLO(you only look once:unified,real-time object detection)并结合LSTM(long short-term memory)和CNN(convolutional neural network)的人体行为识别算法LC-YOLO(LSTM and CNN based on YOLO)。方法 利用YOLO目标检测的实时性,首先对监控视频中的特定行为进行即时检测,获取目标大小、位置等信息后进行深度特征提取;然后,去除图像中无关区域的噪声数据;最后,结合LSTM建模处理时间序列,对监控视频中的行为动作序列做出最终的行为判别。结果 在公开行为识别数据集KTH和MSR中的实验表明,各行为平均识别率达到了96.6%,平均识别速度达到215 ms,本文方法在智能监控的行为识别上具有较好效果。结论 提出了一种行为识别算法,实验结果表明算法有效提高了行为识别的实时性和准确率,在实时性要求较高和场景复杂的智能监控中有较好的适应性和广泛的应用前景。  相似文献   

17.
针对战机对地侦查视频图像中地面旋转运动背景下运动目标检测高虚警、低实时性的问题,提出了一种基于改进光流法的旋转运动背景下对地运动目标实时检测算法。首先提取图像的特征点,在特征点处计算光流运动矢量,并通过光流矢量场估算背景运动矢量。根据战机飞行高度自适应计算目标像素尺寸,网格化分块待检测图像;然后将各个特征点光流矢量与背景运动矢量相比较,获得备选目标特征点。最后统计分块备选目标特征点密度,判断目标位置区域。对2组实验视频中央360像素×432像素区域进行目标检测实验,结果表明该算法能够准确地检测出地面运动目标,虚警率低。平均每帧检测耗时分别为29.460 ms和31.505 ms,满足战机对地运动目标检测的实时性。  相似文献   

18.
不同型号手机的主板图像具有多分辨率的成像模式,使缺陷元件是多尺度的。常规缺陷检测方法主要有图像融合方法和提取统计模型的方法,但这些方法的鲁棒性仍需要提高。针对该问题,提出了一种自动检测网络模型,即RetinaNet目标检测器。首先使用特征金字塔网络(FPN)提取缺陷元件的多尺度特征分类和位置,然后引入MobileNetV2以压缩和加速RetinaNet模型,最后使用焦点损失解决类不平衡和难以检测样本对损失贡献程度的问题。实验结果表明, RetinaNet能有效地检测不同尺度的缺陷元件,具有很高的检测精度;与其他目标检测器相比,RetinaNet实现了超过95%的平均精度(mAP)。这些结果表明了本文所提模型的有效性。  相似文献   

19.
移动端计算力不足和存储有限导致车辆信息检测模型精度不高、速度较慢。针对这一问题,提出一种基于RetinaNet改进的车辆信息检测算法。首先,开发新的车辆信息检测框架,将特征金字塔网络(FPN)模块的深层特征信息融合进浅层特征层,以MobileNet V3为基础特征提取网络;其次,引入目标检测任务的直接评价指标GIoU指导定位任务;最后,使用维度聚类算法找出Anchor的较好尺寸并匹配到相对应的特征层。与原始RetinaNet目标检测算法的对比实验表明,所提算法在车辆信息检测数据集上的精度有10.2个百分点的提升。以MobileNet V3为基础网络时平均准确率均值(mAP)可达97.2%且在ARM v7设备上单帧前向推断用时可达100 ms。实验结果表明,所提方法能够有效提高移动端车辆信息检测算法性能。  相似文献   

20.
为解决现有视频流隐藏信息检测中,人工检测特征设计难度不断加大的问题,提出一种基于卷积神经网络的视频流隐藏信息检测方法。在神经网络中构建残差学习单元,避免深层次卷积神经网络在训练时的梯度消失,利用深层神经网络自动从数据中挖掘检测特征,在此基础上引入量化截断操作,增加检测模型多样性,提升检测性能。使用FFmpeg与x264编码标准CIF序列生成的视频进行实验,实验结果表明,该方法相比现有方法具有更高的检测准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号