首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。  相似文献   

2.
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。  相似文献   

3.
巩凯强  张春梅  曾光华 《计算机应用》2020,40(11):3146-3151
针对卷积神经网络(CNN)拥有巨大的参数量及计算量,限制了其在嵌入式系统等资源受限设备上应用的问题,提出了基于统计量的网络剪枝结合张量分解的神经网络压缩方法,其核心思想是以均值和方差作为评判权值贡献度的依据。首先,以Lenet5为剪枝模型,网络各卷积层的均值和方差分布以聚类方式分离出提取特征较弱的滤波器,而使用保留的滤波器重构下一层卷积层;然后,将剪枝方法结合张量分解对更快的区域卷积神经网络(Faster RCNN)进行压缩,低维卷积层采取剪枝方法,而高维卷积层被分解为三个级联卷积层;最后,将压缩后的模型进行微调,使其在训练集上重新达到收敛状态。在PASCAL VOC测试集上的实验结果表明,所提方法降低了Faster RCNN模型54%的存储空间而精确率仅下降了0.58%,同时在树莓派4B系统上达到1.4倍的前向计算加速,有助于深度CNN模型在资源受限的嵌入式设备上的部署。  相似文献   

4.
巩凯强  张春梅  曾光华 《计算机应用》2005,40(11):3146-3151
针对卷积神经网络(CNN)拥有巨大的参数量及计算量,限制了其在嵌入式系统等资源受限设备上应用的问题,提出了基于统计量的网络剪枝结合张量分解的神经网络压缩方法,其核心思想是以均值和方差作为评判权值贡献度的依据。首先,以Lenet5为剪枝模型,网络各卷积层的均值和方差分布以聚类方式分离出提取特征较弱的滤波器,而使用保留的滤波器重构下一层卷积层;然后,将剪枝方法结合张量分解对更快的区域卷积神经网络(Faster RCNN)进行压缩,低维卷积层采取剪枝方法,而高维卷积层被分解为三个级联卷积层;最后,将压缩后的模型进行微调,使其在训练集上重新达到收敛状态。在PASCAL VOC测试集上的实验结果表明,所提方法降低了Faster RCNN模型54%的存储空间而精确率仅下降了0.58%,同时在树莓派4B系统上达到1.4倍的前向计算加速,有助于深度CNN模型在资源受限的嵌入式设备上的部署。  相似文献   

5.
蒲亮  石毅 《自动化与仪表》2023,(2):15-18+24
随着深度神经网络在人工智能领域的广泛应用,其模型参数也越来越庞大,神经网络剪枝就是用于在资源有限设备上部署深度神经网络。该文通过新的优化策略-加速近端梯度(APG)、轻量级网络设计、非结构化剪枝和神经网络结构搜索(NAS)等手段相结合,实现对目标分类和目标检测等常见卷积神经网络模型的压缩剪枝,实验表明压缩剪枝后模型准确率不变,参数量下降91.1%,计算量下降84.0%。最后将压缩剪枝后模型的推断过程在嵌入式架构中实现,为深度学习在边缘端设备平台上的实现奠定了基础。  相似文献   

6.
高精度物体检测网络急剧增加的参数和计算量使得它们很难在车辆和无人机等端侧设备上直接部署使用。针对这一问题,从网络压缩和计算加速两方面入手,提出了一种面向残差网络的新型压缩方案来实现YOLOv3的压缩,并通过ZYNQ平台对这一压缩后的网络进行加速。首先,提出了包括网络裁剪和网络量化两方面的网络压缩算法。网络裁剪方面,给出了针对残差结构的裁剪策略来将网络剪枝分为通道剪枝和残差链剪枝两个粒度,解决了通道剪枝无法应对残差连接的局限性,进一步降低了模型的参数量;网络量化方面,实现了一种基于相对熵的模拟量化方法,以通道为单位对参数进行量化,在线统计模型的参数分布与参数量化造成的信息损失,从而辅助选择最优量化策略来减少量化过程的精度损失。然后,在ZYNQ平台上设计并改进了8比特的卷积加速模块,从而优化了片上缓存结构并结合Winograd算法实现了压缩后YOLOv3的加速。实验结果表明,所提压缩算法较YOLOv3 tiny能够进一步降低模型尺寸,但检测精度提升了7个百分点;同时ZYNQ平台上的硬件加速方法获得了比其他平台更高的能耗比,从而推进了YOLOv3以及其他残差网络在ZYNQ端侧的实际部署。  相似文献   

7.
基于卷积神经网络的U-net模型广泛应用于胰腺分割任务,但该类方法对硬件计算能力要求过高,制约了其临床应用。为解决该问题,提出一个基于模型压缩与重构U-net的端到端框架(comprehension prune-reconstructed U-net network,CPRUN),以完成实时胰腺图像分割任务。通过通道剪枝技术实现了对卷积神经网络模型的压缩,利用重构U-net保障胰腺的分割精度。实验结果表明,使用CPRUN模型能够在保持分割精度的前提下有效减少模型参数量,其模型压缩程度与分割精度均优于同类算法。  相似文献   

8.
卷积神经网络(CNN)在计算和存储上存在大量开销,为了使CNN能够在算力和存储能力较弱的嵌入式等端设备上进行部署和运行,提出一种基于中间图特征提取的卷积核双标准剪枝方法。在卷积层后插入中间图互信息特征提取框架,分析卷积核的特征提取能力,结合批量归一化层的缩放因子对卷积核的综合重要性进行评估,获取更为稀疏的CNN模型。针对全连接层存在大量冗余节点的问题,提出一种基于节点相似度与K-means++聚类的全连接层剪枝方法,聚类相似度较高的节点,并对剪枝后的连接层权重进行融合,在一定程度上弥补因剪枝所造成的精度损失。在CIFAR10和CIFAR100数据集上的实验结果表明,使用该剪枝方法对ResNet56网络进行剪枝,在损失0.19%分类精度的情况下能够剪掉48.2%的参数量以及46.7%的浮点运算量,对于VGG16网络,能够剪掉94.5%的参数量以及64.4%的浮点运算量,分类精度仅下降0.01%。与VCNNP、PF等剪枝方法相比,所提剪枝方法能够在保持模型准确率几乎不变的情况下,对CNN的参数量和计算量进行更大比例的裁剪。  相似文献   

9.
尽管卷积神经网络(CNN)在计算机视觉、语音识别等领域取得了惊人的成绩,但过高的存储代价以及计算复杂度,严重制约了深度学习在嵌入式移动设备上的部署。因此,卷积神经网络的压缩和加速就变得尤为重要,当前常见的压缩方法有低秩近似、参数量化、剪枝与稀疏约束、二值网络等。本文详细介绍卷积神经网络的几种压缩方法并评估当前方法的特点与未来发展趋势。  相似文献   

10.
为解决在嵌入式设备上实时、高精度检测司机安全驾驶监督的问题,本文基于目标检测中经典的深度学习神经网络YOLOv3-tiny,运用通道剪枝技术成功在目标检测任务中实现了模型压缩,在精度不变的情况下减少了改进后神经网络的计算总量和参数总数.并基于NVIDIA的推理框架TensorRT进行了模型层级融合和半精度加速,部署加速后的模型.实验结果表明,加速模型的推理速度约为原模型的2倍,参数体积缩小一半,精度无损失,实现了高精度下实时检测的目的.  相似文献   

11.
随着深度学习的发展,神经网络模型的体积越来越大,伴随而来的是参数量与计算量的增多,但实际安全帽检测环境下需要把网络模型部署在算力有限的移动端或嵌入式设备中,而这些设备无法支持复杂的计算量。针对这个问题,提出了一种适合部署在移动设备的轻量级目标检测网络HourGlass-YOLO(HG-YOLO)。以YOLOv5为基础模型,基于Inverted Resblock结构重构了新的主干特征提取网络HourGlass;并使用通道剪枝技术,对BatchNormalization(BN)层进行稀疏训练,将权值较小的通道进行删减,在保证精度的情况下,减少模型的参数;融合卷积层和BN层来加快在CPU上的推理速度。实验结果表明HG-YOLO在保证精度的情况下,将YOLOv5模型的体积压缩87%、浮点数减少86%、参数量降低89%,相比SSD在检测速度上快了8.2倍,更适合实际工业场景中的部署。  相似文献   

12.
李小红  王晓霞 《计算机仿真》2021,38(3):83-86,91
针对现有图像篡改检测方法应用场景单一,检测率不佳的问题,提出了一种适用于移动设备端的篡改检测方法.该方法基于CNN模型实现,考虑到CNN网络层与参数的复杂性过高,设计了剪枝压缩策略.通过激活值与信息熵的融合,有效评判CNN加权的重要程度,裁掉重要程度不高的加权.在其基础上结合逐层裁剪,根据精度和剪枝效果进行反馈调整,控制剪枝压缩的均衡性.针对剪枝压缩CNN设计了相应的卷积层、pooling池化层和调节层,分别从层和篡改方式的角度进行分析优化,并根据图像块相关度确定篡改位置.通过数据集仿真分析,验证了剪枝压缩策略在控制精度损失的同时,对CNN模型采取合理压缩,有效降低了复杂度和处理开销,适于部署在移动设备端;同时整体方法对于图像篡改检测表现出良好的准确性和全面性,能够对篡改区域及其边缘进行准确定位.  相似文献   

13.
宋冰冰  张浩  吴子锋  刘俊晖  梁宇  周维 《软件学报》2021,32(11):3468-3481
近年来,卷积神经网络(CNN)展现了强大的性能,被广泛应用到了众多领域.由于CNN参数数量庞大,且存储和计算能力需求高,其难以部署在资源受限设备上.因此,对CNN的压缩和加速成为一个迫切需要解决的问题.随着自动化机器学习(AutoML)的研究与发展,AutoML对神经网络发展产生了深远的影响.受此启发,提出了基于参数估计和基于遗传算法的两种自动化加速卷积神经网络算法.该算法能够在给定精度损失范围内自动计算出最优的CNN加速模型,有效地解决了张量分解中,人工选择秩带来的误差问题,能够有效地提升CNN的压缩和加速效果.通过在MNIST和CIFAR-10数据集上的严格测试,与原网络相比,在MNIST数据集上准确率稍微下降了0.35%,模型的运行时间获得了4.1倍的大幅提升;在CIFAR-10数据集上,准确率稍微下降了5.13%,模型的运行时间获得了0.8倍的大幅提升.  相似文献   

14.
卷积神经网络在计算机视觉等多个领域应用广泛,然而其模型参数量众多、计算开销庞大,导致许多边缘设备无法满足其存储与计算资源要求。针对其边缘部署困难,提出使用迁移学习策略改进基于BN层缩放因子通道剪枝方法的稀疏化过程。本文对比不同层级迁移方案对稀疏化效果与通道剪枝选取容限的影响;并基于网络结构搜索观点设计实验,探究其精度保持极限与迭代结构的收敛性。实验结果表明,对比原模型,采用迁移学习的通道剪枝算法,在精度损失不超过0.10的前提下,参数量减少89.1%,模型存储大小压缩89.3%;对比原剪枝方法,将剪枝阈值从0.85提升到0.97,进一步减少参数42.6%。实验证明,引入迁移策略更易实现充分的稀疏化,提高通道剪枝阈值选取容限,实现更高压缩率;并在迭代剪枝的网络结构搜索过程中,提供更高效的搜索起点,利于快速迭代趋近至搜索空间的一个网络结构局部最优解。  相似文献   

15.
深度神经网络(deep neural network,DNN)在各个领域获得了巨大成功,由于其需要高额的计算和储存成本,难以直接将它们部署到资源受限的移动设备端。针对这个问题,对网络中的全局滤波器重要性评估进行了研究,提出滤波器弹性的通道剪枝压缩方法以轻量化神经网络的规模。该方法先设置层间局部动态阈值改进L1正则化(L1 lasso)稀疏训练中剪枝过度的不足;然后将其输出乘以通道缩放因子替换普通的卷积层模块,利用滤波器的弹性大小定义全局滤波器的重要性,其数值由泰勒公式估计得出并排序,同时设计新的滤波器迭代剪枝框架,以平衡剪枝性能和剪枝速度的矛盾;最后利用改进的L1正则化训练和全局滤波器重要性程度进行复合通道剪枝。在CIFAR-10上使用所提方法对VGG-16进行实验,减少了80.2%的浮点运算次数(FLOPs)和97.0%的参数量,而没有明显的准确性损失,表明了方法的有效性,能大规模地压缩神经网络,可部署于资源受限的终端设备。  相似文献   

16.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

17.
针对卷积神经网络(CNN)模型现有剪枝策略各尽不同和效果一般的情况,提出了基于激活-熵的分层迭代剪枝(AE-LIP)策略,保证模型精度在可控范围内的同时缩减模型的参数量。首先,结合神经元激活值和信息熵,构建基于激活-熵的权重评判准则,计算权值重要性得分;然后,逐层剪枝,根据重要性得分对权值排序,并结合各层剪枝数量筛选出待剪枝权重并将其设置为0;最后,微调模型,重复上述过程,直至迭代结束。实验结果表明,采用基于激活-熵的分层迭代剪枝策略:AlexNet模型压缩了87.5%;相应的准确率下降了2.12个百分点,比采用基于幅度的权重剪枝策略提高了1.54个百分点,比采用基于相关性的权重剪枝策略提高0.91个百分点。VGG-16模型压缩了84.1%;相应的准确率下降了2.62个百分点,比采用上述两个对比策略分别提高了0.62个百分点和0.27个百分点。说明所提策略在保证模型精确度下有效缩减了CNN模型的大小,有助于CNN模型在存储受限的移动设备上的部署。  相似文献   

18.
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。  相似文献   

19.
针对现有卷积神经网络(CNN)模型计算效率低、内存带宽浪费大等问题,提出了一种基于现场可编程门阵列(FPGA)优化压缩策略。对预先训练好的CNN模型进行分层剪枝,采用基于新型的遗传算法进行信道剪枝,同时设计了两步逼近适应度函数,进一步提高了遗传过程的效率。此外,通过对剪枝CNN模型进行数据量化,使得卷积层和全连接层的权值根据各自的数据结构以完全不同的方式存储,从而减少了存储开销。实验结果表明,在输入4 000个训练图像进行压缩过程中,该方法所耗压缩时间仅为15.9 s。  相似文献   

20.
现有卷积神经网络模型剪枝方法仅依靠自身参数信息难以准确评估参数重要性,容易造成参数误剪且影响网络模型整体性能。提出一种改进的卷积神经网络模型剪枝方法,通过对卷积神经网络模型进行稀疏正则化训练,得到参数较稀疏的深度卷积神经网络模型,并结合卷积层和BN层的稀疏性进行结构化剪枝去除冗余滤波器。在CIFAR-10、CIFAR-100和SVHN数据集上的实验结果表明,该方法能有效压缩网络模型规模并降低计算复杂度,尤其在SVHN数据集上,压缩后的VGG-16网络模型在参数量和浮点运算量分别减少97.3%和91.2%的情况下,图像分类准确率仅损失了0.57个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号