共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
一维Walsh变换的阵列协处理器的设计 总被引:3,自引:0,他引:3
本文给出了一种用短序列Walsh变换芯片构成长序列Walsh变换阵列协处理器的方法.按此法,易用2~t片2~t长芯片构成2~(2t)长的Walsh变换的阵列协处理器,并且易用2~(t+1)片2~t长芯片及2~(2t)个蝶形运算器构成2~(2t+1)长的Walsh变换的阵列协处理器. 相似文献
3.
现阶段,随着数据规模扩大化和结构多样化的趋势日益凸现,如何利用现代链路内链的异构多协处理器为大规模数据处理提供实时、可靠的并行运行时环境,已经成为高性能以及数据库领域的研究热点.利用多协处理器(GPU)设备的现代服务器(multi-GPU server)硬件架构环境,已经成为分析大规模、非规则性图数据的首选高性能平台.现有研究工作基于Multi-GPU服务器架构设计的图计算系统和算法(如广度优先遍历和最短路径算法),整体性能已显著优于多核CPU计算环境.然而,这类图计算系统中,多GPU协处理器间的图分块数据传输性能受限于PCI-E总线带宽和局部延迟,导致通过增加GPU设备数量无法达到整体系统性能的类线性增长趋势,甚至会出现严重的时延抖动,进而已无法满足大规模图并行计算系统的高可扩展性要求.经过一系列基准实验验证发现,现有系统存在如下两类缺陷:(1)现代GPU设备间数据通路的硬件架构发展日益更新(如NVLink-V1,NVLink-V2),其链路带宽和延迟得到大幅改进,然而现有系统受限于PCI-E总线进行数据分块通信,无法充分利用现代GPU链路资源(包括链路拓扑、连通性和路由);(2)在... 相似文献
4.
本文主要研究如何从最优化的角度出发,从图像中提取低频特征.首先,基于图像的局部梯度定义了一种图像频率,并基于这种定义,诱导出Laplace平滑变换(LST),将二维图像映射到一维的向量.然后,将LST与学习算法相结合,提出二步子空间学习算法.所提的基于LST的二步子空间方法,对于光照、表情、姿势具有鲁棒性.实验表明,在ORL,Yale和FERET人脸数据库上,基于LST的人脸识别算法,相对DCT,DWT和PCA等预处理算法,具有更小的识别误差. 相似文献
5.
6.
7.
8.
9.
10.
11.
12.
13.
任务粒度是决定任务并行程序性能的关键因素,鉴于不同应用其最优的任务粒度可能不同,提出一种异构多核Cell处理器上支持OpenMP3.0的自适应任务粒度策略.该策略首先广度生成任务,直到所有的线程达到饱和,之后若某个线程执行完自身任务而处于空闲状态时,通过回溯到忙碌线程的任务树中最早可以派生任务的结点处生成新任务,以供空闲线程窃取执行.该策略不仅保证生成的任务粒度最大化,并且有效地解决了负载不均衡问题.实验在一个Cell处理器上进行,结果表明与顺序执行速度相比,自适应任务粒度策略达到了4.1到7.2的加速比,并且该策略优于现有的Tascell和AdaptiveTC方案,同时对于绝大部分应用表现出了良好的可扩展行. 相似文献
14.
随着集成电路的集成度与性能的不断发展,芯片的功耗问题已经变的十分严重,功耗带来的挑战日益突出。异构多核动态调频架构是目前研究低功耗的主流方向。SOC系统当中同一时刻只有一个处理器能够控制总线,其它处理器则处理等待状态,异构多核动态调频架构能够通过降低不控制总线的处理器频率来达到降低功耗的目的。异构多核领域的处理器和总线跨时钟域解决方案,此方案在国内属于首次提出,可以运用在异构多核动态调频(DFS)架构当中。目前手持终端设备越来越强调功耗的重要性,因此异构多核领域的处理器和总线跨时钟域解决方案将有非常好的应用前景。该方案通过在处理器和AMBA总线之间添加FIFO以及一些复杂的算法,达到消除亚稳态和正常通信的目的。最终,通过仿真发现任意调节处理器的工作频率都能满足传输协议。证明该方案能在异构多核动态调频架构中运用。 相似文献
15.
异构系统中负载平衡扩散算法的加速方法 总被引:2,自引:0,他引:2
目前,很多单位与组织都有连接着数百台工作站和微机的局域网,并将它们作为一个机群系统使用.在这样的异构系统上动态负载平衡是提高性能的一个重要方法.扩散方法是同构系统的动态负载平衡算法.将散算法扩展到异构系统中,对异构系统中速度不同的处理机的位置与扩散收敛速度的关系进行了研究,提出了加速扩散算法的收敛速度的优化方法.初步实验证明,该方法能通过合理安排处理机,加快扩散算法的速度. 相似文献
16.
数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力,提出了一种CPU+FPGA加速数据库查询的异构体系结构,通过使用异构缓存一致性加速接口将加速器集成到CPU中,在FPGA内定制可配置的多引擎查询方式,对数据库查询进行加速。聚焦常用的SQL查询语句SELECT,详细分析了系统在延迟和简化的软件堆栈方面的优势,最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明,与使用POWER 9 CPU进行同样的查询操作相比,数据库系统整体处理速度提高了3~9倍,这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。 相似文献
17.
天河2号等亿亿次计算机上的大规模异构协同计算对负载平衡算法提出了3方面要求:低算法复杂度、适应多级嵌套的数据传输系统和支撑异构协同计算.通过组合3级嵌套负载平衡算法框架、贪婪剖分算法和内外子区域剖分算法,设计了一种能够同时满足这3方面要求的负载平衡算法.模型测试表明,算法可以达到90%以上的负载平衡效率.天河2号上32个节点的测试表明,算法能够保证通信开销较小.5个典型应用在天河2号上最大93.6万核的测试表明,算法能够支撑应用高效扩展,并行效率最高可达80%. 相似文献
18.
李小龙 《数值计算与计算机应用》2021,(3):263-275
Laplace变换的数值反演是一个病态问题.采用代数精度较高的数值积分近似Laplace变换截断积分,合理选取复平面上样本点以形成离散线性代数方程组是解决这个问题的途径之一.本文采用代数精度较高的复化Gauss-Legendre数值积分近似Laplace变换截断积分,推导了一种Laplace变换数值反演算法.其间,对于所形成的条件数很大的线性方程组采用基于约化奇异值分解的最小二乘法进行求解,以尽可能降低数值解的误差.使用该算法对简单测试算例进行数值反演,并将其结果与精确解进行对比,结果表明,相比经典的Gaver-Stehfest方法和基于GaussLegendre积分的方法,本文推导的反演算法可以达到满意的数值精度.同时,结合该算法采用半解析半数值方法对一个较为复杂的冲击凿岩问题的数值反演结果也表明该数值反演算法具有一定的实用性. 相似文献
19.
通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格式van leer、通量差分分裂格式Roe以及混合通量分裂AUSMPW+进行计算分析;数值结果表明,三种格式在异构计算体系能够得到合理且可用的计算结果;Roe格式激波分辨率最高且在CPU/GPU体系加速效果最好;Van Leer激波分辨率较低于Roe和AUSMPW+,计算效率高但其格式构造中存在大量判断分支,影响了加速性能;AUSMPW+格式激波分辨率与Roe相当,加速性能略好于Van Leer。 相似文献