期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

罗明宇刘其军付燕平《计算机系统应用》2015,24(4):70-74

针对集群显示系统中存在的CPU多核闲置、GPU利用不足、CPU与GPU结合困难等问题,研究了CPU多核多线程处理、GPU并行处理及CPU+GPU整合运算等技术,提出并构建了CPU+GPU集群并行显示系统,提升了集群并行显示系统的综合运算能力,实验结果表明CPU+GPU集群并行显示技术是有效的,为海量信息高速显示提供了有效的解决方案。相似文献

2.

基于异构GPU集群的并行分布式编程解决方案

李佳佳胡新明吴百锋《计算机应用与软件》2014,(9)

由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大提高了在GPU集群中编程的复杂度。主流GPU异构集群系统大多采用针对GPU的异构计算编程模型与面向分布式内存的消息传递模型的简单结合方式,这种方式使得GPU集群程序设计缺乏确定的准则,往往是低效而且易错的。为了提高在GPU集群中编程的效率,降低编程复杂度,以及实现平台无关性,提出一套异构GPU集群的并行分布式编程的解决方案。该方案通过采用扩展语言方法提出了编程框架DISPAR,并实现了预处理器系统StreamCC。实验证明了其可行性。相似文献

3.

基于GPU集群实现MD5的快速破解

杨胜斌《电脑与信息技术》2013,21(2):54-56

从单个GPU异构并行系统来看,其性能还是比较有限,文章阐述了基于GPU集群的CUDA架构实现过程,详细分析基于GPU集群进行MD5快速破解的编译过程,并对破解程序进行测试研究,对其运行结果进行测试和分析,探讨搭建GPU高性能计算集群及其进行MD5算法的快速破解的过程。相似文献

4.

应用GPU集群加速计算蛋白质分子场 总被引：3，自引：2，他引：1

张繁王章野姚建吴韬彭群生《计算机辅助设计与图形学学报》2010,22(3)

针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 相似文献

5.

基于SMP集群的MPI+CUDA模型的研究与实现

许彦芹陈庆奎《计算机工程与设计》2010,31(15)

为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式.利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力.实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略. 相似文献

6.

面向节点异构GPU集群的编程框架

盛冲冲胡新明李佳佳吴百锋《计算机工程》2015,(2)

基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。 DISPAR框架包含2个子系统：(1)代码转换系统StreamCC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统StreamMAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。相似文献

7.

基于多GPU集群的编程框架

王刚唐杰武港山《微机发展》2014,(1):9-13

现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并实现了一个新的基于多GPU的MapReduce并行编程框架。使用了并行虚拟文件系统（PVFS）来存储数据,考虑了动态的负载平衡和GPU相关的权重要素以达到优化系统的效率、透明性以及系统的可伸缩性的目的。在文中,将演示使用该编程模式解决地质应用的一个典型的偏移应用-叠前时间偏移（PKTM）,并给出实验结果。相似文献

8.

面向通用计算GPU集群的任务自动分配系统

胡新明盛冲冲李佳佳吴百锋《计算机工程》2014,(3):103-107,119

当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。相似文献

9.

异构集群中CPU与GPU协同调度算法的设计与实现

高原顾文杰丁雨恒彭晖陈泊宇顾雯轩《计算机工程与设计》2020,41(2):592-601

为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。相似文献

10.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

11.

GPU并行计算集群上的LAMMPS分子动力学模拟性能测试

李伯杨聂峰光李晓霞郭力《计算机与应用化学》2011,28(10)

近年来GPU作为一种具有极强运算能力的多核处理器,得到了快速的发展,成为高性能计算领域的主要发展方向。各种分子动力学模拟的主流软件也纷纷使用GPU技术,其中LAMMPS较早地开发出了通用的并行GPU版本。本文利用nVIDIA公司最新Femi架构的Tesla C2050 GPU搭建了小型的基于LAMMPS的分子动力学模拟GPU并行计算集群,通过氩原子熔化的算例对集群性能进行了测试,测试的内容包括CPU集群、单节点单GPU、单节点多GPU以及多节点GPU集群。比较了各种情况的加速倍数并对造成性能改变的原因进行了讨论,分析了用于MD模拟的GPU并行计算集群性能的瓶颈所在,提出可能的解决方法,搭建集群时,充分考虑PCI总线的承受能力,对于集群效率的提高有很大好处。测试结果表明,集群的性能较高,相对于以往的单机以及CPU集群,计算的规模大大提高了,加速比也在20倍以上。可以预测,在未来一段时间内,多GPU并行是分子动力学模拟的发展方向。相似文献

12.

面向节点异构GPU集群的能量有效调度方案

《计算机应用与软件》2013,(3)

GPU集群已经成为高性能计算(HPC)领域的主流组件。随着处理单元的发展和集群节点的拓展,GPU集群将在节点层面趋于异构化。提出一套针对异构任务在节点异构GPU集群上的能量有效调度方案。形式化地描述其任务和资源模型以及能耗评估模型。通过特定的节点选择策略,减少空闲状态的能耗损失。通过任务类型划分和组合分配以及DVFS,增加CPU资源利用率。该方案从系统层面着手,能够与现有的算法和指令层面的优化方法兼容。相似文献

13.

面向AI数据流处理的边缘GPU集群通信系统

涂聪陈庆奎《小型微型计算机系统》2022,(6):1147-1153

在边缘计算场景中,GPU集群需要应对终端设备所产生的数量庞大的AI计算任务.AI计算任务在边缘GPU集群内的响应耗时不仅包括计算时间,还包括数据传输和排队等待延时.因此,任务数据传输和AI数据流调度也是影响GPU集群数据处理性能的关键因素.传统网络协议栈的低效率和专用高速网络设备的高成本,并不适用于边缘场景中大规模AI数据流的实时处理.本文基于DPDK技术提出多核多网卡的并行通信机制,利用集群空闲的CPU资源加快数据传输;兼顾节点计算能力和网络负载分析节点实时处理能力制定数据流分配策略,并实现了由数据接入量驱动的动态多核多缓冲区模型,减少了任务计算的等待时间.实验结果表明,提出的通信调度方案不仅能够增加约30%的集群数据流容量,而且带宽利用率能够达到90%;在总AI任务量相同的情况下,归功于DPDK高效的数据包处理能力,避免了大量的AI任务因传输失败而被丢弃的情况. 相似文献

14.

面向大数据复杂应用的GPU协同计算模型

张龙翔曹云鹏王海峰《计算机应用研究》2020,37(7):2049-2053

大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型（p-DCOT）。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。相似文献

15.

基于图形处理器的形态学重建系统

何希吴炎桃邸臻炜陈佳《计算机应用》2019,39(7):2008-2013

形态学重建是医学图像处理中非常基础和重要的操作。它根据掩膜图像的特征对标记图像反复进行膨胀操作，直到标记图像中的像素值不再变化为止。对于传统基于中央处理器（CPU）的形态学重建系统计算效率不高的问题，提出了使用图形处理器（GPU）来加速形态学重建。首先，设计了适合GPU处理的数据结构：并行堆集群；然后，基于并行堆集群，设计和实现了一套基于GPU的形态学重建系统。实验结果表明，相比传统基于CPU的形态学重建系统，基于GPU的形态学重建系统可以获取超过20倍的加速比。基于GPU的形态学重建系统展示了如何把基于复杂数据结构的软件系统高效地移植到GPU上。相似文献

16.

人工神经网络在并行计算机集群上的设计研究

郭文生李国和《计算机应用与软件》2010,27(5):12-14,29

人工神经网络在集群上的并行化设计和实现能够充分发挥ANN并行处理的特点,缩短训练时间,降低算法复杂度。随着并行技术的日益成熟,在并行集群上以软硬件相结合的方式设计神经网络的重要性也不断提高。从软硬件平台的多方面讨论了并行集群技术对人工神经网络设计的支持,提出了一种SOM神经网络在并行集群上的设计方法和基础框架,并就并行集群上神经网络训练效率的问题进行了深入讨论。该方案可广泛应用于多种神经网络模型的并行计算机实现。相似文献

17.

基于linux集群的并行计算 总被引：12，自引：0，他引：12

李俊照罗家融《计算机测量与控制》2004,12(11):1064-1067

集群计算机技术是高性能并行计算机系统中的一个研究热点。对于有密集运算需求的企业和研究机构来说,集群系统是他们的最佳选择。本文简要介绍了linux集群技术和并行程序设计的概念,并给出了一个并行程序实例,对linux集群系统进行了性能评测。相似文献

18.

异构GPU集群的任务调度方法研究及实现

黄锦增陈虎赖路双《计算机技术与发展》2012,(5)

GPU集群已经成为高性能计算的重要方式,特别对于计算密集型应用,具有成本低、性能高、功耗小的优势.为了解决GPU集群系统运行中的任务负载均衡问题,文中提出了一种面向计算密集型应用的异构GPU集群调度方法,该方法可以自动发现计算节点,并动态估计计算节点的计算能力,并根据计算能力、任务的计算强度和优先级在异构GPU集群上合理分配计算资源.同时,该系统还具有容错能力,能够处理计算节点的意外退出,可恢复意外退出计算节点的计算任务,并动态适应系统的计算规模.通过实验表明,文中采用的策略达到了预期目的相似文献

19.

广义稠密对称特征问题标准化算法在GPU集群上的有效实现

刘世芳赵永华于天禹黄荣锋《计算机科学》2020,47(4):6-12

广义稠密对称特征问题的求解是许多应用科学和工程的主要任务,并且是计算电磁学、电子结构、有限元模型和量子化学等计算中的重要部分。将广义对称特征问题转化为标准对称特征问题是求解广义稠密对称特征问题的关键计算步骤。针对GPU集群,文中给出了广义稠密对称特征问题标准化块算法在GPU集群上基于MPI+CUDA的实现。为了适应GPU集群的架构,广义对称特征问题标准化算法将正定矩阵的Cholesky分解与传统的广义特征问题标准化块算法相结合,降低了标准化算法中不必要的通信开销,并且增强了算法的并行性。在基于MPI+CUDA的标准化算法中,GPU与CPU之间的数据传输操作被用来掩盖GPU内的数据拷贝操作,这消除了拷贝所花费的时间,进而提高了程序的性能。同时,文中还给出了矩阵在二维通信网格中行通信域和列通信域之间完全并行的点对点的转置算法和基于MPI+CUDA的具有多个右端项的三角矩阵方程BX=A求解的并行块算法。在中科院计算机网络信息中心的超级计算机系统“元”上,每个计算节点配置2块Nvidia Tesla K20 GPGPU卡及2颗Intel E5-2680 V2处理器,使用多达32个GPU对不同规模矩阵的基于MPI+CUDA的广义对称特征问题标准化算法进行测试,取得了较好的加速效果与性能,并且具有良好的可扩展性。当使用32个GPU对50000×50000阶的矩阵进行测试时,峰值性能达到了约9.21 Tflops。相似文献

20.

用户QoS感知的GPU集群深度学习任务动态调度

罗磊陈照云王俪璇《计算机工程与科学》2021,43(8):1331-1340

提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法.采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型.在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行顺序的调度.在一个分布式GPU集群实例上的实验表明,该方法相比其他基准策略能够实现更高的QoS保证率和集群资源利用率. 相似文献