首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。  相似文献   

2.
针对目标检测网络参数量冗余、模型复杂、推理速度缓慢以及难以部署在资源受限的嵌入式设备等问题,提出一种融合剪枝与量化的目标检测网络压缩方法。首先对目标检测网络模型进行稀疏化训练得到缩放因子,并根据缩放因子的分布计算卷积层中通道重要性的占比,根据缩放因子计算动态阈值将对网络模型贡献小的卷积层剪除。然后通过均匀映射的方式将32位浮点型数据量化成8位整型数据,减少网络计算量的同时压缩网络模型的大小。最后采用YOLO系列目标检测网络对行人与车辆数据集、Hands数据集和VOC2012数据集进行压缩方法验证。实验表明,目标检测网络经过动态阈值剪枝和均匀映射量化后在精度损失4%的前提下,将网络模型从234?MB压缩至10?MB以内,检测速度提升5倍,有效解决了部署应用难的问题。  相似文献   

3.
申云飞  申飞  李芳  张俊 《计算机应用》2023,(9):2836-2844
随着人工智能(AI)技术的蓬勃发展,深度神经网络(DNN)模型被大规模应用到各类移动端与边缘端。然而,边缘端算力低、内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,这增加了模型的部署难度,也限制了模型的推广应用。因此,基于张量虚拟机(TVM)提出一种DNN加速与部署方法,从而实现卷积神经网络(CNN)模型在现场可编程门阵列(FPGA)上的加速,并在分心驾驶分类应用场景下验证了所提方法的可行性。通过计算图优化方法减小了模型的访存和计算开销,通过模型量化方法减小了模型尺寸,通过计算图打包方法将卷积计算卸载到FPGA上执行以提高模型推理速度。与微处理器(MPU)相比,所提方法可使ResNet50和ResNet18在MPU+FPGA上的推理时间分别减少88.63%和77.53%;而在AUC(American University in Cairo)数据集上,相较于MPU,两个模型在MPU+FPGA上的top1推理精度仅下降了0.26和0.16个百分点。可见,所提方法可以降低不同模型在FPGA上的部署难度。  相似文献   

4.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器...  相似文献   

5.
近年来,随着神经网络模型越来越复杂,针对卷积神经网络推理计算所需内存空间过大,限制其在嵌入式设备上部署的问题,提出一种动态多精度定点数据量化硬件结构,使用定点数代替训练后推理过程中的浮点数执行卷积运算。结果表明,采用16位动态定点量化和并行卷积运算硬件架构,与静态量化策略相比,数据准确率高达97.96%,硬件单元的面积仅为13 740门,且内存占用量和带宽需求减半。相比Cortex M4使用浮点数据做卷积运算,该硬件加速单元性能提升了90%以上。  相似文献   

6.
基于嵌入式平台的复杂背景目标跟踪技术在智能视频监控设备、无人机跟踪等领域有重要作用.卷积神经网络在跟踪问题上有准确率高、鲁棒性强的优点,但基于卷积特征的算法计算复杂度高,受嵌入式平台面积和功耗的限制,实时性难以满足嵌入式平台应用场景的需求.针对基于卷积特征的跟踪算法计算复杂度高、存储参数量大的难题,率先提出一种利用FPGA实现基于卷积神经网络的复杂背景目标跟踪硬件加速架构.该方法通过利用KL相对熵对目标跟踪算法Siamese-FC进行定点量化,设计了基于通道并行的卷积层加速架构.实验结果表明,定点量化后跟踪算法相比于原算法的平均精度损失不超过4.57%,FPGA部署后前向推理耗时仅为CPU的16.15%,功耗仅为CPU的13.7%.  相似文献   

7.
针对目前传统神经网络内存需求大,运算量大,在移动端或嵌入式设备上运行困难等问题,提出了一种融合了小波包变换的轻量级卷积神经网络模型,用于癫痫脑电信号识别的研究。根据癫痫脑电信号的特性,首先采用小波包变换将脑电信号分成三个频段,然后运用改进的一维MobileNet训练、分类。同时引入超参数宽度因子α,通过改变宽度因子的大小以调整模型的深度。实验结果表明,当一维MobileNet模型的宽度因子α选取为0.75时,最终准确率达到100%,其模型的计算量和参数量分别为56.1M和1.24M。与现有的癫痫EEG信号识别方法比较,此模型在准确率、参数量、计算量方面均有不错的表现。  相似文献   

8.
针对高性能人脸检测模型参数量大、计算复杂度高,难以在嵌入式设备进行边缘部署的问题,对RetinaFace模型进行轻量化改进,提出一种轻量级人脸检测算法。采用MobileNetV2_0.5×作为特征提取骨干,应用轻量的PANLite对多尺度特征进行双向融合,增强特征表征能力。采用RFBLite实现特征增强,在增大特征感受野的同时合并上下文信息。使用滤波器剪枝算法对训练后的模型进行剪枝处理,再次训练微调网络参数后部署到嵌入式端Nvidia Jetson Nano进行模型推理。实验结果表明,该轻量级模型能够以较少的参数量和较低的计算复杂度实现较高的人脸检测性能,且能在嵌入式平台上进行实时推理。  相似文献   

9.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

10.
为了解决复杂的动态环境下,计算机端动态气体分析模型参数多,训练缓慢等问题,提出了一种新的适用于复杂环境下的轻量级卷积神经网络架构,将模型部署到EAIDK-310智能板上,可以实现嵌入式端高效率的混合动态气体分析.与GasNet模型相比,提出模型的训练参数量减少约一半,训练模型消耗时间减少4倍,预测时间减少16倍,而预测准确度相当;与Improved LeNet5相比,分类性能明显较好,准确率达到了0.978,且输入数据长度更短,更适用于快速检测.将模型部署在嵌入式端后,利用样本数据对模型的有效性进行验证,实验结果表明,可以准确识别气体类别,每个样本的识别时间均在13ms以下;浓度预测误差在6×10-6以下,每个样本的平均识别时间在1ms以下.此模型可以实现在嵌入式端高准确,高效率的动态气体分析.  相似文献   

11.
随着深度学习的发展,神经网络模型的体积越来越大,伴随而来的是参数量与计算量的增多,但实际安全帽检测环境下需要把网络模型部署在算力有限的移动端或嵌入式设备中,而这些设备无法支持复杂的计算量。针对这个问题,提出了一种适合部署在移动设备的轻量级目标检测网络HourGlass-YOLO(HG-YOLO)。以YOLOv5为基础模型,基于Inverted Resblock结构重构了新的主干特征提取网络HourGlass;并使用通道剪枝技术,对BatchNormalization(BN)层进行稀疏训练,将权值较小的通道进行删减,在保证精度的情况下,减少模型的参数;融合卷积层和BN层来加快在CPU上的推理速度。实验结果表明HG-YOLO在保证精度的情况下,将YOLOv5模型的体积压缩87%、浮点数减少86%、参数量降低89%,相比SSD在检测速度上快了8.2倍,更适合实际工业场景中的部署。  相似文献   

12.
不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。  相似文献   

13.
不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。  相似文献   

14.
卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能.  相似文献   

15.
目的 合成孔径雷达(synthetic aperture radar,SAR)特有的成像优势使得SAR图像变化检测在民用和军事领域有着广泛的应用场景,但实际应用中对SAR图像的变化区域进行标注既耗时又昂贵,而且现有的变化检测方法复杂度较高,无法满足实时、快速检测的需求。对此,提出了一种基于整型推理量化卷积神经网络的SAR图像跨域变化检测方法(integer inference-based quantization convolutional neural network,IIQ-CNN)。方法 该方法研究了不同场景之间的跨域变化检测问题,即利用已有标记的源域数据对未知的目标域数据进行检测;设计了同时使用时相图和差异图的样本构建方法,既避免了检测结果对差异图的过分依赖,又能充分利用差异信息和时相图与差异图之间的共享信息,提高检测精度;并且在变化检测任务中首次引入整型推理量化技术,对深度网络模型进行模拟量化,减小模型复杂度并加速推理时间。结果 在4组真实的SAR图像数据集上进行实验,从检测性能上看,IIQ-CNN与其他CNN方法相比,Kappa系数提高了4.23%~9.07%;从量化能力上看,对IIQ-CNN分别进行16、8和4位量化,仅在4位量化时检测结果有较明显下降,在16和8位量化时,模型都保持了较好的检测性能,并且推理时间明显减少。结论 本文方法有效解决了伪标签质量对变化检测性能的影响,实现了加速推理的同时较好地保持模型检测精度的目的,促进了变化检测算法在嵌入式设备中的应用。  相似文献   

16.
针对卷积神经网络(CNN)模型中大量卷积操作,导致网络规模大幅增加,从而无法部署到嵌入式硬件平台,以及不同粒度数据与底层硬件结构不协调导致计算效率低的问题,基于项目组开发的可重构阵列处理器,面向支持多种位宽的运算单元,通过软硬件协同和可重构计算方法,采用KL(Kullback-Leibler)散度自定义量化阈值和随机取整进行截断处理的方式,寻找参数定长的最佳基点位置,设计支持多种计算粒度并行操作的指令及其卷积映射方案,并以此实现三种不同位宽的动态数据量化。实验结果表明,将权值与特征图分别量化到8 bit可以在准确率损失2%的情况下将模型压缩为原来的50%左右;将测试图像量化到三种位宽下进行硬件测试的加速比分别达到1.012、1.273和1.556,最高可缩短35.7%的执行时间和降低56.2%的访存次数,同时仅带来不足1%的相对误差,说明该方法可以在三种量化位宽下实现高效率的神经网络计算,进而达到硬件加速和模型压缩的目的。  相似文献   

17.
YOLOv4目标检测算法主干网络庞大且参数量和计算量过多,难以部署在算力和存储资源有限的移动端嵌入式设备上。提出一种改进的YOLOv4目标检测算法,使用轻量化的ShuffleNet V2网络作为主干特征提取网络,更换模型激活函数及扩大卷积核,同时将YOLOv4网络中的普通卷积替换为深度可分离卷积,降低算法参数量、计算量和模型占用空间。在ShuffleNet V2网络结构的改进过程中分析并剪裁其基本组件,利用2个3 × 3卷积核级联的方式增强网络感受野,并使用Mish激活函数进一步提升网络检测精度和模型推理速度。在GPU平台和VisDrone 2020数据集上的实验结果表明,与YOLOv4算法相比,改进的YOLOv4算法在牺牲1.8个百分点的检测精度情况下,提高了27%的检测速度,压缩了23.7%的模型容量,并且能够充分发挥ZYNQ平台并行高速数据处理及低功耗的优势。  相似文献   

18.
卷积神经网络优异的性能使其在图像处理领域占有重要地位,然而模型的实际应用多依赖于GPU,难以部署在对功耗敏感的嵌入式设备上。为了使模型能够高效部署在以FPGA为基础的平台上,本文提出一种卷积神经网络定点化方法,以数据精度与资源消耗为设计指标,根据模型中数据分布的统计以及数据类型的划分,确定不同的定点化策略,并给出了不同量化方法与溢出模式和硬件资源消耗的关系。使用Xilinx定点化库进行测试,实验结果表明,使用16位定点数对模型进行统一量化,能够在较小的精度损失下降低硬件资源消耗,且不同的量化模式下硬件资源消耗相同,不同的溢出模式下硬件资源消耗区别较大。  相似文献   

19.
具有优越性能的卷积神经网络算法已得到广泛应用,但其参数量大、计算复杂、层间独立性高等特点也使其难以高效地部署在较低功耗和较少资源的边缘场景.为此结合该种算法的特点提出了一种基于混合架构的卷积神经网络计算加速方法,该方法选用CPU加FPGA的混合架构,对网络模型进行了压缩优化;在FPGA上通过指令控制数据流的DSP阵列结...  相似文献   

20.
垃圾分类是建设生态文明的重要一环,为解决重量级模型难以部署移动端设备的问题,提出基于YOLOv5网络改进的垃圾图像分类方法。采用融合GhostNet的主干网络,用线性运算代替传统卷积运算,降低了模型的参数量,提高了模型推理速度;通过在网络中加入改进版通道注意力模块,强化重要的通道特征,获取更多深层次的特征信息;采用加权边界融合方法,提升检测框的定位精度。经实验证明,该方法在自制数据集中较原模型的精度提高了8.5%,参数量减少了46.7%,平均推理速度提高了1.22 ms,实现了精度和推理速度的综合提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号