首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。  相似文献   

2.
雷小康  尹志刚  赵瑞莲 《计算机应用》2005,40(10):2811-2816
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。  相似文献   

3.
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起.大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类.深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域.如何有效加速深度学习的计算能力一直是科研研究的重点.FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者.从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望.  相似文献   

4.
雷小康  尹志刚  赵瑞莲 《计算机应用》2020,40(10):2811-2816
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。  相似文献   

5.
用FPGA加速深度学习算法的训练过程通常需要较长的开发周期和丰富的硬件设计经验.为了应对这一挑战,设计了一种基于自适应模板技术的深度学习算法训练加速框架,在应用规模、并行调度策略、资源使用和功能扩展上进行了深入的研究并提出了相应的优化策略.采用CPU-FPGA异构加速模板技术,提出了自适应的上层模型编译框架实现与不同硬...  相似文献   

6.
对于FPGA排序加速来说,各类性能指标的选取与优化至关重要,如延时、吞吐率、功耗、硬件利用率和带宽利用率等.梳理了性能驱动下的排序加速发展脉络,在数据规模、数据类型、算法支持、软硬件协同和新型硬件等方面均取得了进展;分析了在设计、实现、测试等各不同阶段所面临的问题及优化策略,其中归并排序因其自身优良的硬件并行性、可扩展性和控制逻辑简单等特性成为主流.排序加速是与特定应用场景深度绑定的架构设计,进一步从数据库系统加速角度出发,针对数据库排序所面临的资源竞争、数据组织方式、特有操作以及用户请求多样性等问题,分析了其所进行的架构调整.最后针对现有研究的问题及缺陷,从分布式排序加速、数据处理器、高层次综合辅助工具链等方面对未来的发展方向进行了展望.  相似文献   

7.
具有优越性能的卷积神经网络算法已得到广泛应用,但其参数量大、计算复杂、层间独立性高等特点也使其难以高效地部署在较低功耗和较少资源的边缘场景.为此结合该种算法的特点提出了一种基于混合架构的卷积神经网络计算加速方法,该方法选用CPU加FPGA的混合架构,对网络模型进行了压缩优化;在FPGA上通过指令控制数据流的DSP阵列结...  相似文献   

8.
现有的卷积神经网络由于其结构复杂且依赖的数据集庞大,难以满足某些实际应用或者计算平台对运算性能的要求和能耗的限制。针对这些应用或计算平台,对基于ARM+FPGA平台的二值化算法进行了研究,并设计了二值神经网络,该网络减少了数据对存储单元的需求量,也降低了运算的复杂度。在ARM+FPGA平台内部实现时,通过将卷积的乘累加运算转换为XNOR逻辑运算和popcount等操作,提高了整体的运算效率,降低了对能源和资源的消耗。同时,根据二值神经网络中数据存储的特点提出了新的行处理改进算法,提高了网络的吞吐量。该实现方式在GOPS、能源和资源效率方面均优于现有的FPGA神经网络加速方法。  相似文献   

9.
为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。  相似文献   

10.
随着边缘计算的发展,边缘节点的计算规模不断增加,现有的边缘设备难以搭载深度神经网络模型,网络通信与云端服务器承受着巨大压力。为解决上述问题,通过对Roofline模型进行改进,借助新模型对边缘设备的性能与网络环境进行动态评估。根据评估指标,对神经网络模型进行分离式拆分,部分计算任务分配给边缘节点完成,云端服务器结合节点返回数据完成其它任务。该方法基于节点自身性能与网络环境,进行动态任务分配,具有一定兼容性与鲁棒性。实验结果表明,基于边缘节点的深度神经网络任务分配方法可在不同环境中利用设备的闲置性能,大幅度降低中心服务器的计算负载。  相似文献   

11.
随着人们对深度神经网络的探索,网络性能不断提高的同时,模型的宽度和深度也在不断增加。这对神经网络硬件的存储资源与计算能力提出了很大挑战。同时,神经网络加速器的研发成本较高,如何在不损失性能的情况下使神经网络加速器支持更多的网络也是一个重要的研究方向。利用了重参数化网络模型结构上的特点,提出了一种资源利用率高、具有可配置性的硬件实现方案。通过提出的基于指令集操作、易缩放的加速器和一个能够进行指令生成与数据预处理的异构系统,结构重参数化网络可以快速进行实现。最终该方案在ARRIA10设备上加速RepVGG网络达到了单张图片延时1.36 ms的效果,为CPU耗时的4.3%。  相似文献   

12.
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。  相似文献   

13.
唐武海  董博  陈华  龚勇 《新电脑》2021,(6):1-15
在过去十来年中,深度神经网络(DNN)在语音识别、图像识别等大量AI问题中取得了显著成功,在智能物联网等场景中得到了广泛应用.但由于深度神经网络模型具有计算量大、参数量大、存储成本高的特点,限制了其在硬件受限的嵌入式或移动设备上的应用.近年来,学界也提出了多种压缩技术来降低DNN模型的存储成本和计算需求,并在压缩的同时...  相似文献   

14.
基于SOPC及图形加速引擎的座舱显示系统   总被引:1,自引:0,他引:1  
提出一种基于可编程片上系统和图形加速引擎的飞机座舱综合显示系统设计方案。为避免图形加速引擎直接对帧存储器进行零碎操作导致的存储器操作瓶颈,引入图形缓存机制。根据图形像素的存储特点提出“远区域优先”图形缓存页面淘汰算法。对汉字及自定义位图等操作采取软硬件结合的方式达到系统性能和资源利用的平衡,利用硬件锁保证帧存储器一致性。通过对模块进行波形仿真实现系统级仿真结果的可视化验证。  相似文献   

15.
石永泉  景乃锋 《计算机工程》2021,47(12):209-214
基于阻变器件的存算一体神经网络加速器需在架构设计初期进行仿真评估,确保神经网络精度符合设计要求,但传统阻变神经网络加速器的软件模拟器运行速度较慢,难以应对大规模网络的架构评估需求。为加快仿真评估速度,设计一种基于现场可编程门阵列(FPGA)模拟的阻变神经网络加速器评估方法,分析现有阻变神经网络加速器的架构通用性,利用FPGA资源的高度并行性和运行时指令驱动的灵活模拟方式,通过硬件资源的分时复用实现多层次存算一体架构和指令集的功能模拟及主流神经网络的快速性能评估。实验结果表明,针对不同规模的忆阻器阵列和深度神经网络,该评估方法相比MNSIM和DNN NeuroSim软件模拟器运行速度分别提升了40.0~252.9倍和194.7~234.2倍。  相似文献   

16.
深度神经网络在人工智能的应用中,包括计算机视觉、语音识别、自然语言处理方面,取得了巨大成功.但这些深度神经网络需要巨大的计算开销和内存存储,阻碍了在资源有限环境下的使用,如移动或嵌入式设备端.为解决此问题,在近年来产生大量关于深度神经网络压缩与加速的研究工作.对现有代表性的深度神经网络压缩与加速方法进行回顾与总结,这些方法包括了参数剪枝、参数共享、低秩分解、紧性滤波设计及知识蒸馏.具体地,将概述一些经典深度神经网络模型,详细描述深度神经网络压缩与加速方法,并强调这些方法的特性及优缺点.此外,总结了深度神经网络压缩与加速的评测方法及广泛使用的数据集,同时讨论分析一些代表性方法的性能表现.最后,根据不同任务的需要,讨论了如何选择不同的压缩与加速方法,并对压缩与加速方法未来发展趋势进行展望.  相似文献   

17.
设计了一种新型的基于可编程片上系统(SOPC)技术的嵌入式可编程逻辑控制器.介绍了嵌入式PLC的总体结构,并且对核心部分PLC虚拟机的实现分别从硬件和软件两个方面进行了详细阐述,其中运用NiosⅡ软核作为处理器,μC/OS-Ⅱ实时操作系统作为虚拟机运行平台,实现了逻辑控制器的实时控制功能.系统以现场可编程门阵列(field programmable gataarray,FPGA)为平台开发的逻辑控制器简化了平台硬件结构,具有开放、使用方便、可自定义外设和本身结构紧凑等特点,可以灵活的实现定制应用.  相似文献   

18.
谭印  苏雯洁 《计算机仿真》2022,39(2):366-370
云计算中跨数据中心虚拟机迁移存在带宽小与无共享存储功能问题,导致迁移过程数据的安全性受到威胁。为降低带宽开销,提升抵御攻击能力,研究基于深度哈希算法的云计算虚拟机迁移模型。利用深度哈希算法获取需要迁移虚拟机基本镜像的类似程度,根据类似程度构建哈希图,依据哈希图构建云计算虚拟机迁移模型;通过上述模型中迁移代理主机实现虚拟机迁移时的信息传递;存储单元利用哈希图存储虚拟机基本镜像及镜像间的相似度;通过迁移单元迁移存储单元中需要迁移的基本镜像数据块,完成虚拟机迁移。实验证明,上述模型在不同负载时跨数据虚拟机迁移时间最短,带宽开销最低,并具备较优的抵御攻击能力,其SLA违反率既低又平稳。  相似文献   

19.
能耗限制的服务质量优化问题一直以来都是数据中心虚拟机资源管理所面临的巨大挑战之一.尽管现有的工作通过虚拟机整合技术一定程度上降低了能耗和提升了系统服务质量,但这些方法通常难以实现长期最优的管理目标,并且容易受到业务场景变化的影响,面临变更困难以及管理成本高等难题.针对数据中心虚拟机资源管理存在的能耗和服务质量长期最优难保证以及策略调整灵活性差的问题,提出了一种基于深度强化学习的自适应虚拟机整合方法(deep reinforcement learning-based adaptive virtual machine consolidation method, RA-VMC).该方法利用张量化状态表示、确定性动作输出、卷积神经网络和加权奖赏机制构建了从数据中心系统状态到虚拟机迁移策略的端到端决策模型;设计自动化状态生成机制和反向梯度限定机制以改进深度确定性策略梯度算法,加快虚拟机迁移决策模型的收敛速度并且保证近似最优的管理性能.基于真实虚拟机负载数据的仿真实验结果表明:与开源云平台中流行的虚拟机整合方法相比,该方法能够有效地降低能耗和提高系统的服务质量.  相似文献   

20.
巩凯强  张春梅  曾光华 《计算机应用》2020,40(11):3146-3151
针对卷积神经网络(CNN)拥有巨大的参数量及计算量,限制了其在嵌入式系统等资源受限设备上应用的问题,提出了基于统计量的网络剪枝结合张量分解的神经网络压缩方法,其核心思想是以均值和方差作为评判权值贡献度的依据。首先,以Lenet5为剪枝模型,网络各卷积层的均值和方差分布以聚类方式分离出提取特征较弱的滤波器,而使用保留的滤波器重构下一层卷积层;然后,将剪枝方法结合张量分解对更快的区域卷积神经网络(Faster RCNN)进行压缩,低维卷积层采取剪枝方法,而高维卷积层被分解为三个级联卷积层;最后,将压缩后的模型进行微调,使其在训练集上重新达到收敛状态。在PASCAL VOC测试集上的实验结果表明,所提方法降低了Faster RCNN模型54%的存储空间而精确率仅下降了0.58%,同时在树莓派4B系统上达到1.4倍的前向计算加速,有助于深度CNN模型在资源受限的嵌入式设备上的部署。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号