首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 62 毫秒
1.
本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解.  相似文献   

2.
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。  相似文献   

3.
本文针对代数多重网格(algebraic multigrid,AMG)并行实现中的稀疏矩阵-向量乘,建立了稀疏矩阵新的分布和数据存储模式,提出了一类具有最小通信量以及隐藏通信的新稀疏矩阵-向量乘并行算法,并实现了基于K-循环迭代的求解阶段并行算法.针对现代多核处理器,结合细粒度的并行编程模型,实现了MPI+OpenMP混合编程并行算法.通过同hypre软件包测试比较,在深腾7000集群上求解三维Laplace方程并行规模达到512核心时,并行求解阶段运行时间较hypre(high performance preconditioners)软件包提高了56%,在元集群上提高了39%,验证了算法的有效性.  相似文献   

4.
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。  相似文献   

5.
尽管系统噪音对单个进程的影响有限,但对于大规模并行程序性能的影响不容忽视.提出一种基于并行程序计算-通信特征的噪音影响定量评估方法FWQ-MPI,并给出噪音影响的4个量化指标.选取求解稀疏线性代数方程组的3种迭代方法作为研究对象,抽取迭代方法的计算、同步通信特征形成微测试程序;在实际系统上的测试数据明确了系统噪音对并行程序性能的影响机理,并得到系统噪音对并行程序性能影响的若干规律:1)BSP并行程序运行过程中,系统噪音量比例不大,约为2%~6%;2)但系统噪音对BSP并行程序的性能有着较大的影响(当并行规模在1024,2048,4096时,噪音影响比例约为30%~70%);3)其影响随着并行程序规模的扩大而增加,随着2次同步通信间隔内计算量的增加而降低;4)系统噪音的影响主要体现在BSP并行程序的“实际计算通信时间比”要远小于“理想计算通信时间比”.  相似文献   

6.
泊松-玻尔兹曼方程(Poisson-Boltzmann Equation,PBE)是广泛应用于溶剂化生物分子静电分析的隐式溶剂化模型.本文在原有有限元软件基础上对近来提出的基于高阶有限元求解PBE的无条件稳定方法~([9])设计并实现了一种高效的并行计算方法.无条件稳定方法对PBE拟时间迭代求解,避开了强非线性导致的不稳定性.基于非结构化四面体网格本文设计实现了基于代数分解的求解稀疏线性方程组的高效并行模型.规模可扩展至6400 CPU核,并行效率达到近86%.大规模并行迭代求解线性方程组是计算科学领域的共性问题,它的高效并行实现不仅对实际生物分子静电分析提供了很好的基础,也可扩展至其他各应用领域.  相似文献   

7.
解大规模线性方程组的Mann迭代并行算法   总被引:1,自引:0,他引:1  
利用实函数不动点的Mann迭代算法,提出了一种求解大规模线性方程组新的并行算法,分析了算法的并行加速比,讨论了算法在基于消息传递机制的MPI并行环境下的实现流程,给出了并行环境上的实验.该算法适用范围广,数值计算结果表明理论分析与实际计算相符合,算法在并行环境下具有较好的并行度,可适合大规模科学与工程的高性能计算.  相似文献   

8.
随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能,进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较.  相似文献   

9.
二维三温能量方程的求解是惯性约束聚变(ICF)的核心问题。随着 ICF 问题规模的不断扩大和计算机性能的飞速提升,现有的并行算法和软件包已经不再适用。提出了二维三温能量方程的 MPI-OpenMP 并行求解算法,该算法上层使用 MPI 进程进行通信,下层使用 OpenMP 多线程进行核心计算,不但能够适应大规模问题的求解,而且还表现出很好的扩展性和加速比。实验表明,算法在网格规模大小为106的实际物理模型的模拟求解中,48个 MPI 进程192个 OpenMP 线程可以得到39.53倍的加速比;并且随着参与计算的处理器核数的增加,加速比将大幅度地提高。  相似文献   

10.
为了提高分子动力学模拟在对称多处理(SMP)集群上的计算速度,在分子动力学并行方法中引入MPI+TBB的混合并行编程模型。基于该模型,在分子动力学软件LAMMPS中设计并实现混合并行算法,在节点间采用MPI及空间分解技术实施进程级并行,节点内采用TBB及临界区技术实施线程级并行。在SMP集群中的测试表明,该方法在体系较大以及节点数较多时可以明显减少通信时间,使加速比在纯MPI模型上提高45%。结果表明,MPI+TBB混合并行编程模型可促进分子动力学并行模拟且效率明显提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号