期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘鑫郭猛《科技资讯》2014,(26):15-16

海洋数值模拟有计算密集、IO读写量大、并行扩展性良好的特点,对大规模并行计算有强烈的需求。国家超级计算济南中心的“神威蓝光”超级计算机是第一台全国产的千万亿次超级计算机,在CPU、文件系统、操作系统、编译环境各方面实现了全部国产化。本文主要介绍大气、海洋模式MITgcm在“神威蓝光”上大规模并行的运行情况和加速评测。其结果表明MITgcm在全国产的运行环境下具有良好的扩展性和并行效率,也对“神威蓝光”上的其他应用提供了可借鉴的经验。相似文献

2.

神威平台上AceMesh编程模型的构图优化

《山东科技大学学报(自然科学版)》2021,(4)

面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性。但如果任务粒度划分较细,其构图过程会造成很大开销。本研究结合"申威26010"异构众核处理器的结构特点,从主、从核通信优化、内存池、无后继任务收集等方面对AceMesh构图过程进行优化,并采用航天飞行器应用中的7个热点子程序对优化效果进行测试。测试数据表明以上优化取得5倍的加速。为验证构图优化对AceMesh整体性能的提升,对航天飞行器应用分别在Acemesh和神威OpenACC的加速效果进行了测试,优化后的AceMesh加速效果约为神威OpenACC的1.5倍。相似文献

3.

一种基于GPU的二维离散多分辨率小波变换加速方法

刘磊张子佳刘雷张睿《吉林大学学报(理学版)》2015,53(2):267-272

针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求, 提出一种基于GPU的并行小波变换算法, 并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术, 利用多Kernel并行提高多种分辨率下小波变换的性能. 实验结果表明, 与CPU串并行版本相比, GPU并行优化算
法在高分辨率变换情况下, 加速比最高可达30~60倍, 可满足对变换实时性的要求. 相似文献

4.

化学驱软件中化学平衡的并行计算 总被引：3，自引：0，他引：3

吕屏马远乐赵刚《清华大学学报(自然科学版)》2002,42(10):1328-1330

为了探索化学驱油藏数值模拟软件高效的整体并行化方案 ,对 DQCHEM2 .0软件中化学平衡计算部分进行并行化改造 ,设计了两种区域分解并行化的方式。一种方式是将整个区域按 CPU数进行分解 ,每个 CPU计算一个子域 ;另一种方式是按照额定的子域中网格单元的数量进行分解 ,每个 CPU将计算多个子域。比较而言 ,前者数据传输量少 ,而后者有利于负载平衡。在并行程序中 ,采用 MPI消息传递库实现数据的传输。测试结果显示了较好的局部并行效率。 8个 CPU的加速比达到 6.4。对测试数据的分析表明 ,两种区域分解方法适用于不同的情况相似文献

5.

基于CPU_MIC_GPU异构架构的Roberts算法优化探究

洪向共陈威熊镝周辉林《科学技术与工程》2016,16(36)

在高分辨率图像日益普及的情况下,Roberts边缘检测的处理速度急需进一步提高。在CPU表现不尽如人意的情况下,基于CPU/GPU和CPU/MIC的高度并行运算的研究愈加深入。在分析Roberts算法特点的基础上,将能并行的部分移植到GPU和MIC上进行。完成基于CPU/GPU和CPU/MIC的异构架构上的Roberts算法实现,并针对CPU/MIC上将程序进行向量化优化。实验结果表明,在相同单精度浮点运算能力下,GPU处理低分辨率图像的速度更快、加速比更高,但处理高分辨率图像时MIC的加速比最高为23.52,高于GPU的21.43。相似文献

6.

压缩感知A*OMP重构算法的并行化与GPU加速实现

《中南民族大学学报(自然科学版)》2016,(2):79-84

针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 相似文献

7.

Silicon-Crystal应用的神威OpenACC移植与数据流驱动任务图并行化

徐阳张玉春欣花嵘《山东科技大学学报(自然科学版)》2019,(3)

利用神威OpenACC在"太湖之光"上成功移植了Silicon-Crystal应用,针对控制流驱动的OpenACC无法有效解决访存密集型应用带宽访存优化和跨时间迭代问题,通过数据流驱动的任务图并行化方法挖掘任务迭代间的并行性,利用任务间的错峰访存提高访存带宽。实验结果表明,神威OpenACC移植单核组获得2.26倍加速;时间步长为1时,任务图并行化移植后的该应用可获得2.52倍加速,性能较OpenACC提升11.5%;时间步长扩展至20时,任务图规模随之增加,任务的乱序调度使错峰访存的优势进一步扩大,整体应用达到3.2倍性能加速,性能较OpenACC提升42%。相似文献

8.

消息传递接口在偏微分方程中的并行计算

邬延辉陆鑫达曾志勇杨俊伟《上海交通大学学报》2003,37(3):416-419

针对四冲程内燃机活塞在气缸套中的二阶运动轨迹的求解问题，提出基于消息传递接口（MPI）并行化求解非线性二阶偏微分方程，计算时用消息传递的并行编程模型对不存在数据相关的部分实施并行化。对各个模块的划分以及颗粒度的大小进行了论述。对求解问题中不同的求解精度要求和通信方式，分别在SUN工作站和上海超级计算中心神威机上进行计算，对各自的总计算时间和并行时间做了对比分析，并给出了加速比和适宜的进程数。研究表明，改进后的并行算法可以在较短的时间内得到高精度的结果，且具有很好的加速比。相似文献

9.

“神威·太湖之光”上Tend_lin并行优化

傅游王坦郭强高希然《山东科技大学学报(自然科学版)》2019,(2)

大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。相似文献

10.

基于图形处理单元架构的合成孔径雷达回波仿真实现与优化

秦洁张志敏《科学技术与工程》2014,(13):85-89

为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。相似文献