期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

迟利华刘杰《计算机应用》2010,30(Z1)

OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题.首先设计了求解非平衡动力学方程的并行算法.基于分布共享的多核机群系统,采用显式数据分布OpenMP并行计算方法,将数据进行分布式划分,分配到每个OpenMP线程,通过数据共享实现数据交换.计算结果表明显式OpenMP并行程序在保持可读性的同时,具有良好的可扩展性,在4核Xeon处理器构成的分布共享机群系统上,非平衡动力学方程组的数值并行计算可以扩展到1024个CPU核,具有明显的并行加速计算效果. 相似文献

2.

应用GPU集群加速计算蛋白质分子场 总被引：3，自引：2，他引：1

张繁王章野姚建吴韬彭群生《计算机辅助设计与图形学学报》2010,22(3)

针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 相似文献

3.

TBB多核编程及其混合编程模型的研究 总被引：7，自引：0，他引：7

胡斌袁道华《计算机技术与发展》2009,19(2)

多核处理器越来越普及,如何通过软件技术最大提升CPU每个核心的使用率,成为热点问题.引入多核并行编程模型Threading Building Blocks,并与raw threads、OpenMP进行各方面详细比较,分析了其优劣.并研究了TBB结合MPI在SMP集群系统上实现高效的混合并行计算应用的方法.最终发现TBB在多核编程方面有显著的优势.TTB和MPI的结合,又为多核处理器结点集群提供了并行层次化结构,大大优化集群的性能. 相似文献

4.

基于SMP集群系统的并行编程模式研究与分析

宋伟宋玉《微机发展》2007,17(2):164-167

并行计算技术是计算机技术发展的重要方向之一,SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP,两种编程模式各有特点和适用范围。对SMP集群以及MPI和OpenMP的特点进行了分析,介绍了在SMP集群系统中利用MPI和OpenMP混合编程的可行性方法。相似文献

5.

基于SMP集群系统的并行编程模式研究

田跃欣《福建电脑》2008,(2):49-50

并行计算技术是计算机技术发展的重要方向之一,SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP,两种编程模式各有特点和适用范围。本文对SMP集群以及MH和OpenMP的特点进行了分析．并介绍了在SMP集群系统中利用MH和OpenMP混合编程的可行性方法。相似文献

6.

基于SMP集群系统的并行编程模式研究与分析 总被引：4，自引：1，他引：4

宋伟宋玉《计算机技术与发展》2007,17(2):164-168

并行计算技术是计算机技术发展的重要方向之一，SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP，两种编程模式各有特点和适用范围。对SMP集群以及MPI和OpenMP的特点进行了分析，介绍了在SMP集群系统中利用MPI和OpenMP混合编程的可行性方法。相似文献

7.

MPI＋OpenMP混合并行编程的分析

孙秋实王移芝《现代计算机》2014,(12):7-11

简要综述并行计算的思想,并对分布式内存结构和共享式内存结构两种结构的特点进行比较。叙述如何应用OpenMP和MPI进行混合编程,以及相应的混合编程模型。通过一个实例,针对多核CPU组成的SMP构架的集群,实现OpenMP和MPI混合编程的性能对比和结论分析。相似文献

8.

基于MPI和OpenMP混合编程的非负矩阵分解并行算法

唐兵 Laurent BOBELIN 贺海武《计算机科学》2017,44(3):51-54

非负矩阵分解(NMF)作为一种数据降维和特征提取的有效工具,已经在文本聚类、推荐系统等多个领域得到应用,但是其计算过程比较复杂。对此,提出一种基于MPI+OpenMP的混合层次化并行NMF方法,其充分利用基于MPI的消息传递模型和基于OpenMP的共享存储模型各自的优势,并基于多核节点集群进行测试。实验结果表明,所设计的并行NMF算法达到了较高的加速比,能有效处理高阶矩阵的非负分解,极大地提高了计算的效率。相似文献

9.

有限元单元计算子程序的OpenMP并行化 总被引：3，自引：1，他引：2

下载免费PDF全文

宋刚蒋孟奇张云泉李玉成《计算机工程》2008,34(6):80-81

Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。相似文献

10.

有限元单元计算予程序的OpenMP并行化

下载免费PDF全文

宋刚蒋孟奇张云泉李玉成《计算机工程》2008,34(6):80-81,84

Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。相似文献

11.

一种适用于机群OpenMP系统的有效调度算法

吴少刚章隆兵蔡飞胡伟武《计算机研究与发展》2004,41(7):1298-1305

OpenMP作为共享存储并行编程标准，以其良好的易用性、支持增量并行等特点成为并行程序设计的主流模型之一．OpenMP标准是针对UMA共享存储结构制定的，其循环调度机制只考虑了负载平衡而无须考虑数据分布．然而在机群OpenMP系统中，数据局部性是影响性能的关键因素．针对OpenMP标准中静态调度策略不适合机群计算的缺点，提出了一个充分体现拥有者计算原则的LBS调度算法，并通过扩展制导的方式在机群OpenMP系统（OpenMP/JIAJIA)上加以实现．测试结果表明，LBS算法对于机群OpenMP系统很有效．相似文献

12.

SMPCluster：如何开发两级并行 总被引：3，自引：1，他引：3

下载免费PDF全文

王韬李晓明《计算机工程与科学》2002,24(4):78-80

本文由基础的Linux操作系统入手，考察在一个SMP系统内部的两种不同的并行实现机制：代表共享存储模型的线程模型（和OpenMP模型）和代表消息传递模型的MPI模型。然后，通过分析应当如何结合节点和节点内两级并行得出：从效率和易用性的综合考虑，在LinuxSMP Cluster上应当直接使用利用共享内存进行通信的MPI进行编程。相似文献

13.

天气雷达资料实时并行处理方法 总被引：1，自引：1，他引：0

下载免费PDF全文

王志斌陈波万玉发吴涛罗兵沃伟峰《计算机工程》2009,35(23):255-257

利用共享存储多处理器的集群环境,研究高频度实时多部天气雷达资料处理的并行计算方法,根据单部天气雷达的计算特点和多部雷达混合处理的方法,提出一种粗粒度消息传递接口分布式内存和细粒度OpenMP共享内存混合编程的2级并行方法。实验结果表明,该方法使系统资料处理速度得到较大提高。相似文献

14.

Using hybrid MPI and OpenMP programming to?optimize communications in parallel loop self-scheduling schemes for multicore PC clusters

Chao-Chin Wu Lien-Fu Lai Chao-Tung Yang Po-Hsun Chiu 《The Journal of supercomputing》2012,60(1):31-61

Recently, a series of parallel loop self-scheduling schemes have been proposed, especially for heterogeneous cluster systems. However, they employed the MPI programming model to construct the applications without considering whether the computing node is multicore architecture or not. As a result, every processor core has to communicate directly with the master node for requesting new tasks no matter the fact that the processor cores on the same node can communicate with each other through the underlying shared memory. To address the problem of higher communication overhead, in this paper we propose to adopt hybrid MPI and OpenMP programming model to design two-level parallel loop self-scheduling schemes. In the first level, each computing node runs an MPI process for inter-node communications. In the second level, each processor core runs an OpenMP thread to execute the iterations assigned for its resident node. Experimental results show that our method outperforms the previous works. 相似文献

15.

适合机群OpenMP系统的制导扩展 总被引：1，自引：0，他引：1

章隆兵吴少刚蔡飞胡伟武《计算机学报》2004,27(8):1129-1136

OpenMP以其易用性和支持增量并行的特点成为共享存储体系结构的编程标准．机群OpenMP系统在机群上实现了OpenMP计算环境，它将OpenMP的易编程性和机群的可扩展性结合起来，是很有意义的．OpenMP的编程方式主要有循环级和SPMD两种，其中循环级方式易于编程而SPMD方式难于编程．然而在机群OpenMP系统中获得高性能OpenMP程序，必需采用SPMD方式．该文描述了适合机群OpenMP系统的一个简单的OpenMP制导扩展子集(包括数据分布制导、循环调度模式)，并在机群OpenMP系统OpenMP／JIAJIA上进行了实现．应用测试表明，利用这些制导扩展进行编程，既保持循环级方式的易编程性又获得与SPMD方式相当的性能，是有效的编程方式．相似文献

16.

Hybrid CUDA, OpenMP, and MPI parallel programming on multicore GPU clusters 总被引：2，自引：0，他引：2

Chao-Tung Yang Chih-Lin Huang Cheng-Fang Lin 《Computer Physics Communications》2011,(1):266-269

Nowadays, NVIDIA's CUDA is a general purpose scalable parallel programming model for writing highly parallel applications. It provides several key abstractions – a hierarchy of thread blocks, shared memory, and barrier synchronization. This model has proven quite successful at programming multithreaded many core GPUs and scales transparently to hundreds of cores: scientists throughout industry and academia are already using CUDA to achieve dramatic speedups on production and research codes. In this paper, we propose a parallel programming approach using hybrid CUDA OpenMP, and MPI programming, which partition loop iterations according to the number of C1060 GPU nodes in a GPU cluster which consists of one C1060 and one S1070. Loop iterations assigned to one MPI process are processed in parallel by CUDA run by the processor cores in the same computational node. 相似文献

17.

OpenMP compiler for distributed memory architectures

WANG Jue HU ChangJun ZHANG JiLin & LI JianJiang School of Information Engineering University of Science Technology Beijing Beijing China 《中国科学:信息科学(英文版)》2010,(5):932-944

OpenMP is an emerging industry standard for shared memory architectures. While OpenMP has advantages on its ease of use and incremental programming, message passing is today still the most widely-used programming model for distributed memory architectures. How to effectively extend OpenMP to distributed memory architectures has been a hot spot. This paper proposes an OpenMP system, called KLCoMP, for distributed memory architectures. Based on the partially replicating shared arrays memory model, we propose ... 相似文献

18.

基于SMP集群的混合并行编程模型研究 总被引：9，自引：3，他引：6

下载免费PDF全文

王惠春 ZHU Ding-ju 朱定局曹学年樊建平《计算机工程》2009,35(3):271-273

提出一种适用于SMP集群的混合MPI＋OpenMP并行编程模型。该模型贴近于SMP集群的体系结构且综合了消息传递和共享内存2种编程模型的优势,能获得较好的性能。讨论该混合模型的实现机制以及MPI消息传递模型的特点。实验结果表明,在一定条件下,该混合并行编程模型是SMP集群的最优选择。相似文献

19.

机群OpenMP系统的设计与实现 总被引：5，自引：0，他引：5

吴少刚章隆兵蔡飞顾丽红唐志敏《计算机学报》2004,27(7):904-912

OpenMP以其易用性和支持增量并行的特点成为共享存储体系结构的编程标准．目前机群系统已成为高性能计算的主流平台,研究机群OpenMP系统对推进并行应用的开发和普及非常有意义．该文作者以软件DSM系统JIAJIA作为OpenMP的运行时系统,结合一个前端编译器OMP2JIA,在机群系统上实现了OpenMP／JIAJIA计算环境,同时在提高性能方面根据机群系统特点扩展了OpenMP制导,优化了后端运行时库。通过11个OpenMP应用,作者比较了该计算环境和一个支持OpenMP的硬件cc-NUMA系统(SGI 2100)的性能．结果表明,作者的机群OpenMP系统的7机平均加速比为4．62;SGI 2100系统为4．55,二者性能相当．相似文献

20.

OpenMP for Networks of SMPs

Y. Charlie Hu Honghui Lu Alan L. Cox Willy Zwaenepoel 《Journal of Parallel and Distributed Computing》2000,60(12):160

In this paper, we present the first system that implements OpenMP on a network of shared-memory multiprocessors. This system enables the programmer to rely on a single, standard, shared-memory API for parallelization within a multiprocessor and between multiprocessors. It is implemented via a translator that converts OpenMP directives to appropriate calls to a modified version of the TreadMarks software distributed shared-memory (SDSM) system. In contrast to previous SDSM systems for SMPs, the modified TreadMarks system uses POSIX threads for parallelism within an SMP node. This approach greatly simplifies the changes required to the SDSM in order to exploit the intranode hardware shared memory. We present performance results for seven applications (Barnes-Hut, CLU, and Water from SPLASH-2, 3D-FFT from NAS, Red-Black SOR, TSP, and MGS) running on an SP2 with four four-processor SMP nodes. A comparison between the thread implementation and the original implementation of TreadMarks shows that using the hardware shared memory within an SMP node significantly reduces the amount of data and the number of messages transmitted between nodes and consequently achieves speedups that are up to 30% better than the original versions. We also compare SDSM against message passing. Overall, the speedups of multithreaded TreadMarks programs are within 7–30% of the MPI versions. 相似文献