期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谢景明胡伟方韩林赵荣彩荆丽娜《计算机科学》2021,48(12):36-42

"嵩山"超级计算机系统是中国自主研发的新一代异构超级计算机集群,其搭载的CPU和DCU加速器均为我国自主研发.为扩充该平台的科学计算生态,验证量子计算研究在该平台上开展的可行性,文中使用异构编程模型实现了量子傅里叶变换模拟在"嵩山"超级计算机系统上的异构版本,将程序的计算热点部分分配至DCU上运行;然后使用MPI在单计算节点上开启多进程,实现DCU加速器数据传输和计算的并发;最后,通过计算与通信的隐藏避免了DCU在数据传输时处于较长时间的空闲状态.实验首次在超算系统上实现了44 Qubits规模的量子傅里叶变换模拟,结果显示,异构版本的量子傅里叶变换模拟充分利用了DCU加速器计算资源,相较于传统CPU版本,其取得了11.594的加速比,且在集群上具有良好的可拓展性,该方法为其他量子算法在"嵩山"超级计算机系统上的模拟实现以及优化提供了参考. 相似文献

2.

面向国产超算平台的通用能源管网仿真计算模型

韩璞商建东薛飞谢景明王洪生王海《计算机应用研究》2024,(3):866-872

为实现城市能源管网仿真软件的自主可控,基于国产异构高性能计算机“嵩山”超级计算平台,提出一种通用的城市能源管网仿真计算模型。通过优化管网中“非管”组件模型,提高了计算模型对国产异构并行计算机系统的适配性;将不同管网组件的计算过程进行封装,弱化了网络组件在仿真计算过程的依赖性,提升模型在工程实现上的可并行性。供水、燃气和热力三种场景的并行仿真实验,证明了计算模型在解决城市能源供给网络的仿真计算上具有一定的普适性;通过管网实测数据与仿真模型中模拟数据对比结果表明仿真管网压力的误差率在4%以下,其温度的误差率低于2%,同时也说明了提出的管网仿真计算模型在国产超算平台上具有良好的计算通用性。相似文献

3.

基于异构GPU集群的并行分布式编程解决方案

李佳佳胡新明吴百锋《计算机应用与软件》2014,(9)

由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大提高了在GPU集群中编程的复杂度。主流GPU异构集群系统大多采用针对GPU的异构计算编程模型与面向分布式内存的消息传递模型的简单结合方式,这种方式使得GPU集群程序设计缺乏确定的准则,往往是低效而且易错的。为了提高在GPU集群中编程的效率,降低编程复杂度,以及实现平台无关性,提出一套异构GPU集群的并行分布式编程的解决方案。该方案通过采用扩展语言方法提出了编程框架DISPAR,并实现了预处理器系统StreamCC。实验证明了其可行性。相似文献

4.

Physis语言框架在WENO高阶数值格式异构计算中的应用

邬萍孟晨王龙《数据与计算发展前沿》2015,6(5):42-47

WENO(weighted essentially non-oscillatory)是计算流体力学中广泛采用的一种高阶数值格式。由于算法本身和异构计算编程的复杂性,需要开展异构计算代码自动生成的研究,以加速更多的应用。本文基于Physis这一领域编程语言框架,针对三维五阶WENO计算的天文应用,实现了其异构代码的自动生成。在超级计算机"元"上的测试结果表明,自动生成的异构计算代码具有良好的可扩展性,计算性能达到手工优化异构代码的72%,可为相关流体计算的异构代码生成提供借鉴。相似文献

5.

基于Charm++运行时环境的异构计算应用容错研究

孟晨曹宗雁王龙迟学斌《计算机工程与应用》2016,52(13):1-7

容错问题是大规模并行程序长时间运行中不可回避的问题,超级计算机中异构计算部件的加入使得该问题更加复杂。考察由CPU和GPU组成的异构并行系统中应用程序的容错,利用Charm++并行编程模型和CUDA的并行计算架构,对大规模计算宇宙学软件WIGEON进行重构。针对异构并行系统中存在的fail-stop硬件故障,设计并实现了内存检查点的应用容错机制。支持计算恢复后对产生变化的CPU/GPU资源配置进行自适应负载调整。通过在高性能计算机Mole8.5上的实验和分析,验证了异构容错方案的高效性和可行性,故障恢复时间仅需1~4 s。此外,使用分布式冗余数据改进了Charm++现有内存检查点存储模式,对比原有Double-in-Memory机制,性能未受影响,且最多降低了50%的额外内存使用量。相似文献

6.

一种面向异构计算的结构化并行编程框架 总被引：1，自引：0，他引：1

李安民计卫星廖心怡高建花谈兆年王一拙石峰《计算机工程与科学》2019,41(3):424-432

随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。相似文献

7.

适用于异构集群的混合并行流线生成系统

刘俊高阳单桂华迟学斌《计算机系统应用》2021,30(3):60-69

流线是流场可视化的主要方法之一,而针对大规模流场的流线生成由于计算量大往往需要采用高性能计算机这样的并行计算环境结合并行化算法以实现计算加速.在当前异构计算系统越来越普遍的情况下,为了充分利用并行异构计算环境的计算能力,实现更高效的并行流线生成,本文采用了基于数据并行原语结合分布式消息通讯的技术架构,设计了一套适用于异构集群的混合并行流线生成系统,并在此基础上针对数据分块、数据冗余化及进程通讯策略等方面进行设计,提出并实现了一套并行粒子追踪算法.该系统被部署于国产超算平台上,并针对大规模CFD流场模拟结果数据可视化应用开展了实验.本文给出了相关实验结果,分析了核心并行算法的速度性能、可扩展性以及负载均衡等方面情况,说明了系统及算法的有效性和可扩展性. 相似文献

8.

基于DDS的民机机电系统分布式建模与仿真研究

张鹏张伟业刘涛《计算机应用与软件》2021,38(6):60-65

针对复杂民机机电系统仿真效率低的问题,提出一种基于数据分发服务的分布式并行建模与仿真方法.分析数据分发服务的通信特点;利用数据分发服务的API函数和AMESim应用程序编程接口,在现有分布式互联架构平台的基础上,设计AMESim与分布式互联架构平台的数据交互接口,实现了民机升降舵系统与液压能源系统的分布式并行建模与仿真.仿真结果表明,该分布式方法保证了仿真变量分布式前和分布式后的同步性,拓展了复杂系统仿真的规模,并缩短了12.7％的仿真计算时间. 相似文献

9.

一种异构设备接口数据集成采集方案的研究与实现

《软件工程师》2017,(5)

针对当前制造业生产、检测设备存在的位置分散、种类繁多,接口互异,标准不一,难以有效跟踪的情况,提出了一种异构设备接口数据的集成采集方案,该方案采用一种多层次的数据采集架构,分别从设备级、实验室级、中心级三个不同层次,实现了异构设备接口数据的截取、格式转换、传输、保存与查询分析,并基于该方案实现了一套实验室自动化数据采集系统,结果表明该方案可以有效满足异构非标准设备的数据采集需求。相似文献

10.

基于混合编程模型的支持向量机训练并行化

李涛刘学臣张帅王恺杨愚鲁《计算机研究与发展》2015,52(5)

支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、送代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 相似文献

11.

低功耗异构计算架构的高光谱遥感图像分类研究

刘鹏飞朱健晨万良易江波《计算机工程》2022,48(12):9

高光谱图像分类算法通常需要逐点对图像中的像素点进行迭代处理,计算复杂度及并行程度存在较大差异。随着高光谱遥感图像空间、光谱和辐射分辨率的不断提升,这些算法无法满足实时处理海量遥感图像数据的需求。通过分析NPU存储计算一体化模式与遥感图像分类算法的实现步骤,设计低功耗CPU+NPU异构资源计算架构的低秩稀疏子空间聚类（LRSSC）算法,将数据密集型计算转移至NPU,并利用NPU数据驱动并行计算和内置AI加速,对基于机器学习算法的海量遥感数据进行实时分类。受到big.LITTLE计算范式的启发,CPU+NPU异构资源计算架构由8 bit和低精度位宽NPU共同组成以提高整体吞吐量,同时减少图网络推理过程中的能量损耗。实验结果表明,与CPU计算架构和CPU+GPU异构计算架构的LRSSC算法相比,CPU+NPU异构计算架构的LRSSC算法在Pavia University遥感数据集下的计算速度提升了3~14倍。相似文献

12.

基于异构平台的通量分裂格式性能研究

下载免费PDF全文

梁正虹黄俊刘志勤陈波杨茂《计算机测量与控制》2021,29(2):144-149

通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格式van leer、通量差分分裂格式Roe以及混合通量分裂AUSMPW+进行计算分析;数值结果表明,三种格式在异构计算体系能够得到合理且可用的计算结果;Roe格式激波分辨率最高且在CPU/GPU体系加速效果最好;Van Leer激波分辨率较低于Roe和AUSMPW+,计算效率高但其格式构造中存在大量判断分支,影响了加速性能;AUSMPW+格式激波分辨率与Roe相当,加速性能略好于Van Leer。相似文献

13.

一种面向大规模数据密集计算的缓存方法

周恩强张伟卢宇彤侯红军董勇《计算机研究与发展》2015,(7)

随着高性能计算机逐步应用在大规模数据处理领域,存储系统将成为制约数据处理效率的主要瓶颈。在分析了影响数据密集型计算 I/O 性能若干关键因素的基础上,提出使用计算结点本地存储构建协作式非易失缓存、以分布式存储架构加速集中式存储架构的方法。该方法基于应用层协同使用分布化的本地存储资源,使用非易失存储介质构成大缓存空间,存放大规模数据分析的中间过程结果,以此实现高缓存命中率,并利用并发度约束控制等手段避免 I/O 竞争,充分利用本地存储的特定性能优势保证缓存加速效果,从而有效地提高了大规模数据处理过程的 I/O 效率。基于多平台多种 I/O 模式的测试结果证实了该方法的有效性,聚合 I/O 带宽具有高扩展性,典型数据密集应用的整体性能最大可提升6倍。相似文献

14.

面向国产异构平台的OpenMP Offload共享内存访存优化

下载免费PDF全文

王鑫李嘉楠韩林赵荣彩周强伟《计算机工程与应用》2023,(10):75-85

国产异构处理器DCU(deep computing unit)上的本地数据共享（local data share,LDS）是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。相似文献

15.

基于国产c86处理器的CP2K软件移植与优化

范黎林乔一航李俊飞柴旭清崔容培韩秉豫《计算机科学》2023,(6):58-65

CP2K是目前运行最快的开源第一性原理材料计算和模拟软件，源码中调用协处理器的部分基于CUDA架构编写。因平台底层硬件架构和编译环境不同，原生的CP2K软件无法调用国产c86处理器平台上的DCU,因此不能实现跨平台应用。为解决该问题，提出了一种CP2K面向该平台的移植方案。该方案的核心思想为：对CP2K软件中主要基于CUDA接口实现的DBCSR库进行代码分析，拆解对应结构体和类的封装方式，并基于HIP的编程标准对其进行实现和封装。在国产c86处理器平台上编译安装HIP版的DBCSR库，链接CP2K软件，最终实现运行DCU版的CP2K软件。后续选取两个测试算例，基于编译级与运行级对其进行优化实验。实验发现，删除CP2K脚本链自动安装的FFTW库可提高计算结果精度。实验结果表明，所使用的优化方法可显著提升CP2K软件的计算效率和计算准确性，为实现开源软件面向国产平台的移植优化和国产化替代做出贡献。相似文献

16.

Domino异构信息集成接口库的设计和实现

王振铎吴广茂王振辉《数字社区&智能家居》2006,(3):11-12

论文以一个企业的信息集成项目为背景，在Domino平台上进行二次开发时。对平台上附带的数据集成工具DECS（企业连接器）进行了研究，分析了它存在的不足，开发了新的异构信息集成接口库，用以改进Domino自身的数据集成能力。此异构信息集成接口库的设计和实现，为在Domino平台上进行异构信息集成系统开发的企业和单位提供了一种新的思路和方法。相似文献

17.

核电厂电气系统自动建模数字化设计

张立群刘问杰曹惺笛《自动化仪表》2023,(S1):353-356

核电厂数字化设计转型要求打通仿真平台与电气专业设计平台之间的数据接口,实现电气系统建模数据一致性和敏捷开发的目标。因此,有必要将数据接口设计成计算机能够自动识别的结构化形式。结合核电厂电气仿真模型的网络拓扑特征、负载特征和潮流计算功能,全面梳理了某三代核电厂的电气设计图纸,对电气建模数据接口进行了数字化设计。提出了基于结构化数据接口的电气自动建模方案。与传统电气建模方案进行了对比分析。分析结果表明,该方案可显著提升仿真平台与电气设计平台之间的一致性,为实现设计方案的快速验证和设计模型的数字化交付奠定了基础。相似文献

18.

面向数据库查询加速的异构体系结构设计与实现

李仁刚任智新黄广奎孙颉王峰张闯《计算机工程与科学》2020,42(12):2169-2178

数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力,提出了一种CPU+FPGA加速数据库查询的异构体系结构,通过使用异构缓存一致性加速接口将加速器集成到CPU中,在FPGA内定制可配置的多引擎查询方式,对数据库查询进行加速。聚焦常用的SQL查询语句SELECT,详细分析了系统在延迟和简化的软件堆栈方面的优势,最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明,与使用POWER 9 CPU进行同样的查询操作相比,数据库系统整体处理速度提高了3～9倍,这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。相似文献

19.

Domino异构信息集成接口库的设计和实现

王振铎吴广茂王振辉《数字社区&智能家居》2006,(8)

论文以一个企业的信息集成项目为背景,在Domino平台上进行二次开发时,对平台上附带的数据集成工具DECS(企业连接器)进行了研究,分析了它存在的不足,开发了新的异构信息集成接口库,用以改进Domino自身的数据集成能力。此异构信息集成接口库的设计和实现,为在Domino平台上进行异构信息集成系统开发的企业和单位提供了一种新的思路和方法。相似文献

20.

浅谈城市供水管网信息管理系统中的安全性设计

赵占坤刘振鹏《计算机光盘软件与应用》2014,(15):156+158

随着城市规模迅速扩大,作为城市重要基础设施的供水管网也越来越庞大、密集,城市供水现在的管理方式和数据存储情况已经不能满足城市快速发展的要求。因此建立城市供水管网信息管理系统迫在眉睫、势在必行。城市供水管网信息管理系统采用C/S和B/S相结合的软件模式来实现,B/S结构需要采用SOA架构,安全性尤为重要。本系统从身份识别功能、存取权限控制、跟踪审计和信息过滤、安全监测、数字签名、密钥管理和数据存储管理等方面保障供水管网的系统安全。相似文献