首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
余成宇    李志远    毛文宇  鲁华祥       《智能系统学报》2020,15(2):323-333
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。  相似文献   

2.
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。  相似文献   

3.
面向应用的可重构编译器ASCRA(英文)   总被引:1,自引:0,他引:1       下载免费PDF全文
在很多应用领域已经开展了可重构计算的研究,但是由于缺乏高层设计工具,设计者需要较深的软件和硬件专业知识才能开发GPP/RAU架构的程序,阻碍了其大规模应用。提出了一种面向应用的可重构编译器——ASCRA的初始架构,它可以自动将C语言映射为VHDL语言,从而解决可重构计算中自动编译工具的瓶颈。ASCRA编译器主要研究软硬件划分技术和面向硬件的优化技术,如脉动阵列、循环流水技术。在ML505开发平台上,设计实现了ASCRA编译器的验证平台,并通过实验给出了核心程序段生成VHDL代码的综合信息。  相似文献   

4.
稀疏矩阵和矢量的乘积运算在工程实践及科学计算中经常用到,随着矩阵规模的增长,大量的计算限制了整个系统的性能,因此可以利用GPU的高运算能力加速SpMV。分析了现有GPU上实现的SpMV存在的问题,并设计了行分割优化和float4数据类型优化两种方案。实验表明,该方案可以使性能提升2—8倍。  相似文献   

5.
宋庆增  顾军华 《计算机应用》2011,31(9):2571-2573
针对共轭梯度(CG)迭代算法软件执行效率低、实时性差的缺点,提出一种基于现场可编程逻辑门阵列(FPGA)平台的CG迭代求解器。设计采用软硬件结合的方式构建整个系统,CG协处理器执行CG迭代算法中计算量大、控制简单的代码,以达到硬件加速的目的。控制复杂、计算量较少的代码则依旧在微处理上执行。设计采用行交错数据流,使得整个系统完全无停顿的运行,提高了计算性能。实验结果表明,与软件执行相比,硬件CG协处理器可以获得最高5.7倍的性能加速。  相似文献   

6.
本刊讯:安捷伦科技公司(NYSE:A)宣布为SystemVue 2009设计平台推出新的LTE基带设计程序库。该设计库(产品号W1912)提供全部的物理层设计基准参考(golden reference)算法源代码。这些算法均符合2009年3月发布的3GPP LTE标准。安捷伦新的LTE设计库为正在进行下一代(4G)无线系统设计的3GPP LTE基带算法和硬件开发人员提供了极大的便利,它支持基于仿真的性能测试,其图形用户界面将简化复杂的配置。支持将IP引入3GPP LTE物理层设计:Agilent W1912仿真设计库提供完整的C++算法级源代码,并可提供链路级参考设计以及测试模板。该测试模板以  相似文献   

7.
长期演进(LTE)作为下一代移动通信系统,其整体性能需要在系统级仿真中评估。LTE系统的设计、建模以及实现方法对仿真平台的有效性有直接影响,而目前功能较全的平台一般仿真速度较慢,针对这一问题,给出了LTE系统级仿真平台建模框架,并利用CPU多核以及OpenMP并行计算技术,对平台中耗时较多的模块进行优化,显著地提高了系统的仿真效率。通过比较不同的调度算法评估了仿真平台的性能。该系统级仿真平台达到了3GPP对系统设计的要求,为LTE-Advanced的标准化工作奠定了基础。  相似文献   

8.
稀疏矩阵Cholesky分解是求解大规模稀疏线性方程组的核心算法,也是求解过程中最耗时的部分.近年来,一系列并行算法通过图形处理器(GPU)获得了显著的加速比,然而,由于访存的不规则性以及任务间的大量数据依赖关系,稀疏矩阵Cholesky分解算法在GPU上的计算效率很低.文中实现了一种新的基于GPU的稀疏矩阵Cholesky分解算法.在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将稀疏矩阵Cholesky分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性.实验结果表明,该算法能够显著提高稀疏矩阵Cholesky分解算法在GPU上的实现效率,在单个GPU上获得了相对4核CPU平台2.69~3.88倍的加速比.  相似文献   

9.
稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在GPU平台上提出的多种存储格式虽然使SpMV性能有所提升,但仍存在零填充和负载不平衡的问题。针对上述问题,提出了一种DRM存储格式,利用基于固定阈值的矩阵划分策略和基于迭代归并的矩阵重构策略,实现了少量零填充和块间负载平衡。实验结果表明,在NVIDIA? Tesla? V100平台上,相比于DIA、HDC、HDIA和DIA-Adaptive格式,在时间性能方面,该存储格式分别取得了20.76,1.94,1.13和2.26倍加速;在浮点计算性能方面,分别提高了1.54,5.28,1.13和1.94倍。  相似文献   

10.
自2011年6月美国提出"材料基因组计划"以来,构建集成的高通量材料计算平台和数据库平台以加快新材料的研发已成为重要的基础性工作。高通量材料计算平台MatCloud提供了一个集成的材料自动流程计算框架,旨在为新材料的设计和计算提供一套通用的方法和技术。二元合金设计涉及到批量结构建模、结构筛选和性质计算问题,为了支持目前在合金设计中应用较广的特殊准随机结构SQS方法,研发了支持基于SQS二元合金设计的高通量自动流程计算相关算法和插件,并在MatCloud平台上进行了实现。该插件支持基于SQS的二元合金结构建模,高通量筛选和性质计算。实现了ZrxTi(1-x)合金弹性模量的自动流程计算,取得了预先设定的效果,提升了计算性能,从而帮助加快二元合金设计。  相似文献   

11.
针对传统校园存储中能耗高、计算能力及存储效率低下、数据的存储安全性、可靠性及稳定性较低的现状,提出基于Fstor的校园云存储解决方案,采用云计算结构,实现对分布式数据存储功能的自主定制和管理,应用部署快速简单,实现专业服务集成化应用平台与编程接口(API)的完美对接,最终达到校园云存储系统的安全可靠及高效运行。  相似文献   

12.
温泉  李扬 《微机发展》2014,(12):158-162
在工业智能化监控中,针对当今嵌入式工业控制器的计算资源有限,不易实现较为复杂的海量数据的计算任务(如专家系统等)的问题,文中根据云计算的思想,结合JavaWeb开发框架,设计实现了一种基于嵌入式工业控制终端机的Web云服务平台,对集群构建、SpringMVC与Hibernate整合云服务构建、数据算法加密等进行了研究。该服务平台能满足工业智能化监控中对计算能力扩展的要求。工业终端机可以产生大量动态数据或实时曲线,Web云服务平台通过自身高性能的计算能力对工业现场数据进行快速的预处理、算法实现、统计分析、数据回传、结果表达等,从而加快了工业终端机的实时操作任务。  相似文献   

13.
高磊  孙宁 《计算机辅助工程》2006,15(1):47-50,62
对Tcl/Tk语言的代码可重用特性在可重配置平台上的应用进行研究,讨论星载计算机可重配置特性的机理,并详细介绍这种面向用户的脱离底层代码操作的重配置平台的搭建步骤和代码实现,并给出该方案在一款星载数据处理系统可重配置设计上的应用结果.  相似文献   

14.
Grostl是继承MD迭代结构和沿用AES压缩函数的SHA.3候选算法。目前的研究只针对Grostl算法的一种或两种参数版本进行实现,并没有针对Grcstl四种参数版本的设计,缺少灵活性。在分析Gr#stl算法的基础上,采用可重构的设计思想,在FPGA上实现了Grcstl四种参数版本。实验结果表明,在XilinxVirtex一5FPGA平台上,四参数可重构方案的面积为4279slices,时钟频率为223.32MHz,与已有的实现方法相比,具有面积小、时钟频率高及灵活性等优点。  相似文献   

15.
颜一鸣  郭鑫 《计算机工程》2014,(3):67-70,92
为适应真实环境中数据量大、流程复杂、计算密集的数据挖掘需求,提高传统树增量更新挖掘效率,改变已有算法的串行执行方式,提出一种基于Hadoop的动态树增量更新方法。介绍云计算、模型与执行流程等基本概念,针对现有Hadoop平台中任务调度的随机分配策略,设计一种动态云平台中的资源调度与分配算法,以期达到成本消耗的最小化,给出树增量更新挖掘算法以及2个并行算法(DeleteFreqTree和FindNewTree),完成树数据的增量挖掘工作。实验结果表明,该并行算法有效可行,具有高效性与良好的扩展率,能够对海量树数据进行更新挖掘。  相似文献   

16.
粗粒度可重构单元阵列硬件任务的贪心映射是可重构计算要解决的核心问题。不同的阵列具有不同的硬件约束条件,针对行路由粗粒度可重构单元阵列提出一种广度贪心映射算法BGMA(Breadth Greedy Mapping Algorithm)。该算法首先从第一个节点开始依次扫描,如果节点满足条件则将其映射到PEA上,当遇到不满足映射条件的节点时,该算法将跳过该节点继续寻找满足约束条件的节点进行映射,通过与广度不贪心映射算法BNGMA(Breadth No Greedy Mapping Algorithm)相比较,BGMA的[N1]平均减少了35.1%(PEA6×6)和54.8%(PEA8×8),[N2]平均减少了35.6%(PEA6×6)和54.6%(PEA8×8),[CCON]平均减少了15.7%(PEA6×6)和26.2%(PEA8×8),[TTOTAL]平均减少了20.2%(PEA6×6)和32.1%(PEA8×8)。实验结果表明了贪心策略在映射算法中的重要性。  相似文献   

17.
针对通用计算平台下SAR成像算法效率低下的问题,提出了一种基于CUDA的SAR成像算法并行化实现方法。在分析CUDA工作原理及CS算法并行性特征的基础上,详细描述了算法每个步骤的CUDA实现。实验结果表明了该算法的高效性,优化后的CS算法提速比达到了10~20倍。  相似文献   

18.
教学管理信息系统是教育信息化的重要组成部分。教育信息化向云端发展,在移动中应用是未来发展的趋势。云计算为教学管理信息系统提供了一个全新的平台,文章在教学管理信息系统功能分析的基础上,结合云计算技术特点,提出一种基于云计算的教学管理信息系统的架构,并讨论其实现方案。  相似文献   

19.
对快速多极方法(FMM)进行研究,分析其关键计算任务,并在CPU与DSP上进行验证,得出FMM在不同平台上性能和功耗的量化分析结果,给出基于FMM的多核DSP可重构ASIC结构模型。以可重构硬件FPGA为例,对该模型进行预测,结果证明其在涉及大规模浮点计算时具有一定的能效优势。  相似文献   

20.
作为MapReduce系统的核心组件的脚本解析模块,它是分布式云计算平台实现的基础。该模块的实现是基于脚本编程接口,在此过程中使用的语言是QL(Query Language)。QL脚本通过脚本解析模块实现解析之后,事件执行模块则由参数通过配置事件的方式一一实现。下面就这种脚本语言的实现过程作了详细的分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号