首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
雷小康  尹志刚  赵瑞莲 《计算机应用》2005,40(10):2811-2816
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。  相似文献   

2.
雷小康  尹志刚  赵瑞莲 《计算机应用》2020,40(10):2811-2816
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。  相似文献   

3.
基于FPGA的量化推理设计了CNN加速系统;通过对主流的深度神经网络结构的运算特性分析,使用(Density-Based Spatial Clustering of Applications with Noise) DBSCAN聚类算法截取阈值的INT8量化推理方法,融合深度神经网络全连接,减少数据运算位宽和压缩网络大小,在准确率损失很小的情况下有效压缩了网络结构;基于LeNet-5、VGG-16与ResNet-50的CNN网络结构,设计出量化CNN加速系统并进行校验;实验结果表明,网络参数和输入特征数据量化精度为8-bits时,网络压缩率在25%的情况下,网络准确率的损失低于1%;在Xilinx XC7K325平台上量化推理CNN加速系统的运行频率为450 MHz,与其他相似类型的加速器比较,其GOPS性能提升2倍。  相似文献   

4.
水下智能设备由于功率受限,采集的图像数据无法进行实时处理.考虑现场可编程门阵列(FP-GA)功耗低,计算能力强和灵活性高等特点,基于FPGA的并行性和流水线技术,利用卷积神经网络(CNN)强大的图像处理能力,设计了一个低功耗图像实时识别系统.实验使用三个不同水域的水下视频图像对该系统进行验证.实验结果表明:该系统达到了...  相似文献   

5.
近年来,现场可编程逻辑门阵列(FPGA)由于其灵活的可定制性和优秀的并行性,在硬件加速卷积神经网络(CNN)的研究和应用中吸引了广泛的关注.这些工作主要集中在两方面:对特定硬件加速模块的设计和优化以及对一类网络模型的通用加速硬件设计.前者一般是基于数据流的针对固定网络的设计,通过牺牲通用性来换取性能;后者一般是基于指令集能够加速一类模型的设计,通过牺牲性能来换取通用性.为了能够灵活地应对不同的需求,本文提出一种通过管理不同粒度算子来平衡性能与通用性的fGrain框架.该框架一方面利用底层基于数据流的算子设计来充分发挥硬件性能,另一方面通过虚拟化层来管理算子映射提供灵活性.实验表明,相比GPU推理延迟至多有25%的提升,而虚拟化性能损失仅在1.3%以下.  相似文献   

6.
近年来,由于互联网的高速发展和大数据时代的来临,人工智能随之大热,而推动人工智能迅猛发展的正是深度学习的崛起.大数据时代需要迫切解决的问题是如何将极为复杂繁多的数据进行有效的分析使用,进而充分挖掘利用数据的价值并造福人类.深度学习作为一种实现机器学习的技术,正是解决这一问题的重要法宝,它在处理数据过程中发挥着重要作用并且改变了传统的机器学习方法,已被广泛应用于语音识别、图像识别和自然语言处理等研究领域.如何有效加速深度学习的计算能力一直是科研研究的重点.FPGA凭借其强大的并行计算能力和低功耗等优势成为GPU在加速深度学习领域的有力竞争者.从深度学习的几种典型模型出发,在FPGA加速技术现有特点的基础上从针对神经网络模型的加速器、针对具体问题的加速器、针对优化策略的加速器和针对硬件模板的加速器四方面概括总结了FPGA加速深度学习的研究现状,然后对比了不同加速技术和模型的性能,最后对未来可能发展的方向进行了展望.  相似文献   

7.
《微型机与应用》2019,(11):96-101
近年来,卷积神经网络(CNN)在计算机视觉任务中得到了广泛的应用,可编程逻辑门阵列(FPGA)以其高性能、高能效、高灵活性等优点被广泛应用于CNN的加速。提出了一种基于FPGA的卷积神经网络加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速。以VC707开发板为FPGA平台,设计了一种新的卷积神经网络Do Net,可以实现对Minist手写数据集的识别分类。测试结果表明,基于FPGA实现的Do Net对Minist数据集的识别准确率为95%,测试显示的识别时间为0. 545 ms,功耗为1. 95 W。  相似文献   

8.
为提高先心病心音分类算法的实时性,适用于资源有限的嵌入式设备,提出一种对FPGA进行流水线约束设计的硬件加速方法.将CNN内部计算的并行性与FPGA上的并行硬件对应起来,通过VIVADO高层次综合(HLS)映射CNN算法至FPGA上,在卷积层中的循环上采用流水线约束,子循环会默认展开的方式,提升循环的执行速度.实例仿真...  相似文献   

9.
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。  相似文献   

10.
为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。  相似文献   

11.
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结...  相似文献   

12.
基于神经网络的方法计算量通常十分庞大,限制方法在嵌入式场景领域的应用.为了解决这一问题,文中提出基于异构现场可编程门阵列的卷积网络加速器.采用滑动窗并行加速卷积计算过程,可同时处理不同输入、输出通道的卷积过程.同时结合网络量化过程进行8 bit定点加速器设计,降低计算资源的使用.实验表明,文中定点加速器运算速度较快,功耗较小,算法性能损失较小.  相似文献   

13.
一种FPGA配置文件压缩算法   总被引:1,自引:0,他引:1  
邢虹  童家榕  王伶俐 《计算机工程》2008,34(11):260-262
基于现场可编程门阵列(FPGA)的可重构系统具有高性能和高灵活性,但随着FPGA规模的不断扩大,配置文件规模相应增加,导致可重构计算时间过长。该文提出一种FPGA配置文件压缩算法VLZW,降低了对片外存储器的容量要求,通过减少每次重构传送的配置数据缩短了系统重构时间。  相似文献   

14.
基于FPGA的小型机器人无线通信系统   总被引:1,自引:1,他引:0  
赵亮  冯林  吴振宇 《计算机工程》2010,36(13):251-253
针对单处理器系统控制的无线通信系统在小型足球机器人比赛中存在丢包现象和实时性差等弊端,提出一种FPGA并行控制无线模块的解决方案,实现全双工通信。包括数据的无线发射、接收以及分包处理等模块,采用有限状态机设计发射、接收部分时序,结果证明该方案实现灵活、稳定性高、实时性好。  相似文献   

15.
基于冗余容错思想,设计基于现场可编程门阵列的双CPU容错控制器。该容错控制器在故障情况下可通过回溯重载进行故障判定和系统性能恢复,控制器控制律在传感器失效时能进行自我重构。仿真结果表明,该容错控制器通过冗余CPU的切换和控制律的重构实现了系统故障情况下的容错纠错功能。  相似文献   

16.
黄程程  董霄霄  李钊 《计算机应用》2021,41(8):2258-2264
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。  相似文献   

17.
高级加密标准(AES)的传统实现方法是对加/解密算法进行单独设计,占用了过多的硬件资源。该文在分析AES加/解密算法机理的基础上,介绍了算法各模块的设计方法,通过分析提取了加/解密算法之间存在的共性,给出算法的可重构设计实例。通过FPGA仿真验证,该方案与传统设计方案相比,减少了资源的消耗。  相似文献   

18.
为满足现代数字信号处理中大量数据的运算需求,利用ARM946和Xilinx公司的现场可编程门阵列芯片逻辑资源和IP库,设计专门用于浮点复数向量运算的64位协处理器,对相关浮点运算进行优化,并在硬件仿真平台上进行测试。结果表明,该协处理器可使浮点复数向量运算性能得到大幅提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号