首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于自主研发的新颖异构多核工程科学计算加速协处理器(ESCA)体系结构,实现了图像Laplace变换算法。针对ESCA架构特点,采用子字并行计算和访存延迟隐藏等机制,进行了一系列并行算法优化,并在四核ESCA处理器原型上对图像Laplace变换算法的进行了性能评测。实验结果表明,对于计算密集型计算任务,ESCA处理器具有良好的计算加速效果。  相似文献   

2.
一维Walsh变换的阵列协处理器的设计   总被引:3,自引:0,他引:3  
本文给出了一种用短序列Walsh变换芯片构成长序列Walsh变换阵列协处理器的方法.按此法,易用2~t片2~t长芯片构成2~(2t)长的Walsh变换的阵列协处理器,并且易用2~(t+1)片2~t长芯片及2~(2t)个蝶形运算器构成2~(2t+1)长的Walsh变换的阵列协处理器.  相似文献   

3.
蒋筱斌  熊轶翔  张珩  武延军  赵琛 《软件学报》2023,34(4):1977-1996
现阶段,随着数据规模扩大化和结构多样化的趋势日益凸现,如何利用现代链路内链的异构多协处理器为大规模数据处理提供实时、可靠的并行运行时环境,已经成为高性能以及数据库领域的研究热点.利用多协处理器(GPU)设备的现代服务器(multi-GPU server)硬件架构环境,已经成为分析大规模、非规则性图数据的首选高性能平台.现有研究工作基于Multi-GPU服务器架构设计的图计算系统和算法(如广度优先遍历和最短路径算法),整体性能已显著优于多核CPU计算环境.然而,这类图计算系统中,多GPU协处理器间的图分块数据传输性能受限于PCI-E总线带宽和局部延迟,导致通过增加GPU设备数量无法达到整体系统性能的类线性增长趋势,甚至会出现严重的时延抖动,进而已无法满足大规模图并行计算系统的高可扩展性要求.经过一系列基准实验验证发现,现有系统存在如下两类缺陷:(1)现代GPU设备间数据通路的硬件架构发展日益更新(如NVLink-V1,NVLink-V2),其链路带宽和延迟得到大幅改进,然而现有系统受限于PCI-E总线进行数据分块通信,无法充分利用现代GPU链路资源(包括链路拓扑、连通性和路由);(2)在...  相似文献   

4.
本文主要研究如何从最优化的角度出发,从图像中提取低频特征.首先,基于图像的局部梯度定义了一种图像频率,并基于这种定义,诱导出Laplace平滑变换(LST),将二维图像映射到一维的向量.然后,将LST与学习算法相结合,提出二步子空间学习算法.所提的基于LST的二步子空间方法,对于光照、表情、姿势具有鲁棒性.实验表明,在ORL,Yale和FERET人脸数据库上,基于LST的人脸识别算法,相对DCT,DWT和PCA等预处理算法,具有更小的识别误差.  相似文献   

5.
陈颖  林锦贤  吕暾 《计算机应用》2011,31(3):851-855
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP...  相似文献   

6.
徐成  王立东  刘彦 《计算机应用研究》2009,26(11):4066-4068
讨论一组实时系统的任务在不同性质的处理器上的分配,使得所有任务得以完成并耗费更少的时间,是NP完全问题。建立了新的任务分析模型——异构多核多帧任务模型,并基于遗传算法给出解决方案。实验证明,该模型更为有效地表达了实时系统的性质,获得更高的分配成功率,算法拥有更低的时间复杂度,结果可信。  相似文献   

7.
《计算机工程》2017,(2):131-136
在载人航天飞船的终端仪器仪表设计中,处理算法中的浮点非线性运算常采用库函数实现,但软件实现非线性函数执行速度慢,限制了浮点算法的应用。为此,针对航天领域处理器不支持非线性函数运算的情况以及浮点算法执行速度慢的问题,提出一种多核并行执行浮点非线性运算处理方法,利用现场可编程门阵列内部并行架构带来的低延迟特性来提高非线性浮点运算的速度。仿真实验结果表明,该方法可计算有限定义域范围内的浮点非线性函数,有效提高浮点运算的执行速度。  相似文献   

8.
针对如何发挥异构多核处理器的优势从而提高程序执行效率的问题,提出了Cell异构多核处理器上实现线程同步流水并行和迭代同步流水并行两种优化技术,该优化技术可以有效地提高非规则写和控制结构非规则的执行速度。通过在Cell处理器上对NAS benchmarks中的IS、EP、LU以及SPEC2001中的MOLDYN进行测试,结果表明该流水并行方案有效地改善了临界区和flush操作的执行效率,明显地提高了程序的执行速度。  相似文献   

9.
首先介绍了目前星载SAR(合成孔径雷达)系统构成,从中分析出开展高性能多核处理器的必要性和紧迫性。接下来介绍了正在研发的面向SAR雷达信号处理的异构多核SoC,详细介绍了芯片的系统结构和片上网络总线。芯片内总线采用多层二维网格总线,每层总线内部存在两种传递模式:动态传递和静态传递。动态面向数据包的灵活传递,静态面向高速数据流传递。最后,在性能和功耗等方面与目前常用的数字信号处理器进行了对比,并说明此异构多核SoC对SAR雷达信号处理结果。  相似文献   

10.
异构多核处理器的任务分配及能耗的研究*   总被引:5,自引:0,他引:5  
异构多核处理器采用不同的任务分配与调度算法,会导致不同的时间消耗与能量消耗,采用合适的任务分配与调度算法能节省较多的能耗。目前普遍认为最有发展前途的任务分配与调度技术是先用启发式方法进行分组,然后再用遗传算法进行调度。在改进任务分组后,又首次提出了用遗传算法解决能耗问题。实验结果表明在实时要求不高的情况下,能以较小的时间代价来节省较多的能耗。  相似文献   

11.
Codelet数据流计算模型在处理大规模并行计算任务时效果显著,但该模型目前缺少在异构多核环境中的任务调度策略。因此,提出了一种在异构多核环境下基于蚁群算法的Codelet任务调度策略。该调度策略将启发式算法与蚁群算法相融合,在发挥各自优势的同时克服了启发式算法不能得出最优解的缺陷以及蚁群算法初始信息匮乏的问题。实验结果表明,智能蚁群任务调度策略相比Codelet运行时系统中原生的动态调度和静态调度策略具有更高的执行效率。  相似文献   

12.
针对多核CPU和众核加速器或协处理器异构平台的架构特征进行了研究,以MPI和OpenMP混合编程模型实现了N体问题BH算法的并行,采用了正交递归二分法(ORB)使进程之间负载均衡,并对程序进行了并行优化和MIC加速。优化和加速后的程序性能提升到原版本的3.4倍以上,其中MIC加速后性能提升到加速前的1.7倍。程序具有较好的扩展性,计算粒子规模达到上亿时,可扩展到32个节点共4480核心(640个CPU核心和3840个MIC核心)  相似文献   

13.
任务粒度是决定任务并行程序性能的关键因素,鉴于不同应用其最优的任务粒度可能不同,提出一种异构多核Cell处理器上支持OpenMP3.0的自适应任务粒度策略.该策略首先广度生成任务,直到所有的线程达到饱和,之后若某个线程执行完自身任务而处于空闲状态时,通过回溯到忙碌线程的任务树中最早可以派生任务的结点处生成新任务,以供空闲线程窃取执行.该策略不仅保证生成的任务粒度最大化,并且有效地解决了负载不均衡问题.实验在一个Cell处理器上进行,结果表明与顺序执行速度相比,自适应任务粒度策略达到了4.1到7.2的加速比,并且该策略优于现有的Tascell和AdaptiveTC方案,同时对于绝大部分应用表现出了良好的可扩展行.  相似文献   

14.
随着集成电路的集成度与性能的不断发展,芯片的功耗问题已经变的十分严重,功耗带来的挑战日益突出。异构多核动态调频架构是目前研究低功耗的主流方向。SOC系统当中同一时刻只有一个处理器能够控制总线,其它处理器则处理等待状态,异构多核动态调频架构能够通过降低不控制总线的处理器频率来达到降低功耗的目的。异构多核领域的处理器和总线跨时钟域解决方案,此方案在国内属于首次提出,可以运用在异构多核动态调频(DFS)架构当中。目前手持终端设备越来越强调功耗的重要性,因此异构多核领域的处理器和总线跨时钟域解决方案将有非常好的应用前景。该方案通过在处理器和AMBA总线之间添加FIFO以及一些复杂的算法,达到消除亚稳态和正常通信的目的。最终,通过仿真发现任意调节处理器的工作频率都能满足传输协议。证明该方案能在异构多核动态调频架构中运用。  相似文献   

15.
异构系统中负载平衡扩散算法的加速方法   总被引:2,自引:0,他引:2  
金之雁  王鼎兴 《软件学报》2003,14(5):904-910
目前,很多单位与组织都有连接着数百台工作站和微机的局域网,并将它们作为一个机群系统使用.在这样的异构系统上动态负载平衡是提高性能的一个重要方法.扩散方法是同构系统的动态负载平衡算法.将散算法扩展到异构系统中,对异构系统中速度不同的处理机的位置与扩散收敛速度的关系进行了研究,提出了加速扩散算法的收敛速度的优化方法.初步实验证明,该方法能通过合理安排处理机,加快扩散算法的速度.  相似文献   

16.
数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力,提出了一种CPU+FPGA加速数据库查询的异构体系结构,通过使用异构缓存一致性加速接口将加速器集成到CPU中,在FPGA内定制可配置的多引擎查询方式,对数据库查询进行加速。聚焦常用的SQL查询语句SELECT,详细分析了系统在延迟和简化的软件堆栈方面的优势,最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明,与使用POWER 9 CPU进行同样的查询操作相比,数据库系统整体处理速度提高了3~9倍,这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。  相似文献   

17.
天河2号等亿亿次计算机上的大规模异构协同计算对负载平衡算法提出了3方面要求:低算法复杂度、适应多级嵌套的数据传输系统和支撑异构协同计算.通过组合3级嵌套负载平衡算法框架、贪婪剖分算法和内外子区域剖分算法,设计了一种能够同时满足这3方面要求的负载平衡算法.模型测试表明,算法可以达到90%以上的负载平衡效率.天河2号上32个节点的测试表明,算法能够保证通信开销较小.5个典型应用在天河2号上最大93.6万核的测试表明,算法能够支撑应用高效扩展,并行效率最高可达80%.  相似文献   

18.
Laplace变换的数值反演是一个病态问题.采用代数精度较高的数值积分近似Laplace变换截断积分,合理选取复平面上样本点以形成离散线性代数方程组是解决这个问题的途径之一.本文采用代数精度较高的复化Gauss-Legendre数值积分近似Laplace变换截断积分,推导了一种Laplace变换数值反演算法.其间,对于所形成的条件数很大的线性方程组采用基于约化奇异值分解的最小二乘法进行求解,以尽可能降低数值解的误差.使用该算法对简单测试算例进行数值反演,并将其结果与精确解进行对比,结果表明,相比经典的Gaver-Stehfest方法和基于GaussLegendre积分的方法,本文推导的反演算法可以达到满意的数值精度.同时,结合该算法采用半解析半数值方法对一个较为复杂的冲击凿岩问题的数值反演结果也表明该数值反演算法具有一定的实用性.  相似文献   

19.
通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格式van leer、通量差分分裂格式Roe以及混合通量分裂AUSMPW+进行计算分析;数值结果表明,三种格式在异构计算体系能够得到合理且可用的计算结果;Roe格式激波分辨率最高且在CPU/GPU体系加速效果最好;Van Leer激波分辨率较低于Roe和AUSMPW+,计算效率高但其格式构造中存在大量判断分支,影响了加速性能;AUSMPW+格式激波分辨率与Roe相当,加速性能略好于Van Leer。  相似文献   

20.
分析了空间相关Rayleigh衰落信道下采用空时分组编码的MIMO通信系统的误符号率.利用Laplace变换推导了空时分组编码系统在接收端信噪比的概率密度函数,得出了由基本初等函数表示的线性调制下空时分组编码系统误符号率的闭合表达式.仿真结果证明了性能分析的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号