期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱小谦张卫民宋君强《计算机工程与科学》2004,26(4):48-50

有限差分格点模式是目前广泛采用的中尺度数值天气预报模式之一。本文分析了有限差分格点模式典型代表MM5并行计算的特点，对其多重网格嵌套、数据划分、通信、优化等做了深入研究，最后给出了MM5模式在银河巨型计算机上的测试结果。相似文献

2.

王彬周斌魏敏a 《计算机应用研究》2010,27(11):4182-4184

为了在气象部门内跨地域共享使用MM5模式系统,基于建成的气象计算网格平台,成功地接入了MM5模式系统。根据用户预报需求,设计了参数化和业务运行方案,建立了华中区域MM5数值预报应用系统。完成模式系统部署运行后,通过使用网格平台的资源调度和工作流引擎等工具手段,优化了后处理运行流程。运行分析表明网格平台上MM5模式系统的运行效率显著提高。相似文献

3.

随机蛙跳算法的研究进展 总被引：3，自引：0，他引：3

韩毅蔡建湖周根贵李延来林华珍唐加福《计算机科学》2010,37(7):16-19

随机蛙跳算法(Shuffled Frog Leaping Lgorithm,SFLA)是进化计算领域中一种新兴、有效的亚启发式群体计算技术,近几年来逐渐受到学术界和工程优化领域的关注.SFLA结合了具有较强局部搜索(Local Search,LS)能力的元算法(Memetic Algorithm,MA)和具有良好全局搜索(Global Search,GS)性能的粒子群算法(Particle Swarm Optimization,PSO)的特点,因此其寻优能力强,易于编程实现.详细阐述了SFLA的基本原理和流程,总结了SFLA目前在优化和工程技术等领域中的研究,展望了SFLA的发展前景. 相似文献

4.

中尺度数值气象预报模式MM5并行性能分析与优化 总被引：3，自引：0，他引：3

刘艳贤刘钟黄洁《计算技术与自动化》2004,23(4):96-98

气象预报模型的准确度与实时性是防震减灾工作的关键支持。MM5是成熟的并行化的中尺度数值气象预报模型。本文在阐述MM5并行模式及并行实现的基础上，具体分析了MM5在IBM eServerp Series 690主机上并行性能，并给出相应的优化方案。相似文献

5.

高性能共轭梯度(HPCG)基准测试优化

李斌江玮《电脑编程技巧与维护》2017,(16):37-38

随着高性能共轭梯度应用领域的扩展,HPL的测试模式与结论已不能充分体现HPC的实用性能。高性能共轭梯度算法(HPCG)所使用的计算模式与HPL相比,更符合当前实际应用业务的特点,给出的测试结论对于HPC的发展更有参考价值。针对数值预报领域更看重流体力学微分转差分计算效果的特点,选用更适合处理复杂微分方程的HPCG测试方法进行测试优化,通过仿真性能分析,并给出了具体的优化策略。相似文献

6.

光纤通道交换网络接口卡的零拷贝技术研究与实现 总被引：1，自引：0，他引：1

许伟冯萍郭海山《计算机测量与控制》2008,16(3):366-369

介绍了信令寻径式光纤通道交换网的特点,为了提高光纤通道交换网络接口卡的通信性能,通过地址管理表的内存映射实现在用户空间实现虚实地址转换,实现用户数据从用户空间到网络接口卡(NIC)的零拷贝,因此大大提高了NIC的通信速度,优化了其体系结构;并将其成功应用于中尺度数值天气预报的MM5模式中,为各级气象部门提供准确、高效的数值预报服务;测试结果表明,零拷贝技术能够使网络接口卡性能有较大提高,达到了设计目的。相似文献

7.

基于矩阵嵌套的CESM负载均衡优化方案检索策略

《电子技术应用》2022,(1):24-30

通用地球系统模式(Community Earth System Model,CESM)是一种定量描述气候系统模式变化的数值模式,庞大的科学计算体量已使其成为高性能计算领域的重要研究对象之一。CESM各个气象子模块及组件之间的负载不均衡问题使其计算性能一直不理想,且由于其可用的进程布局方案本身的多样性会导致的巨大检索量,因此通过人工调参用枚举寻找最优布局本身并不现实。为解决这个问题,提出并实践了一种基于矩阵嵌套思想的负载平衡优化方案检索策略帮助完成进程布局优化过程,并介入基于模式并行要求的筛查保证检索结果具有可行性,最终通过实验证明通过这种检索策略搜索获得的最优布局与默认布局相比平均计算性能提升达到47.3%,并在5个节点上实现了1.419的加速比。相似文献

8.

地球系统模式CAS-ESM 2.0性能评估与分析

王天一姜金荣迟学斌张贺何卷雄郝卉群《计算机系统应用》2021,30(6):9-17

地球系统模式是研究气候变化、进行地球系统建模的重要软件. 中科院地球系统模式CAS-ESM (Chinese Academy of Sciences-Earth System Model)是中科院大气所发展的进行地球系统模拟的高性能计算应用软件, 目前已经发布了2.0版本, 其模拟性能一直是制约其发展的关键因素之一. 为了对CAS-ESM 2.0进行性能评估和分析,将CAS-ESM 2.0移植到中科院高性能计算系统"元"和"地球系统数值模拟装置"原型系统这两大高性能计算平台上, 开展了耦合数值模拟试验. 试验结果显示, CAS-ESM 2.0存在受平台影响的性能差异, 大气模式的运行时间占比最高, 超过了其他分模式的总和, 部分分模式存在可扩展性问题. 然后对试验结果进行了进一步的分析, 发现大气模式的性能瓶颈主要是由通信造成的. 因而对CAS-ESM 2.0的后续研发发展工作中, CAS-ESM的跨平台优化、大气模式的性能优化与并行算法改进、分模式的可扩展性应该是研究的重点之一. 相似文献

9.

三维宏观拟颗粒模拟程序计算代码优化研究与实现

严历郭力《计算机与应用化学》2009,26(12)

粒子方法是过程工程领域的重要研究手段。粒子模拟是粒子方法在计算机上的实现。粒子方法具有计算强度大的特点,随着粒子模拟系统规模的扩大,如何在现有计算机硬件设备基础上提高粒子模拟程序的性能,缩短模拟时间,成为目前相关研究中所关注的问题之一。本文在分析粒子模拟程序代码特点的基础上考察循环优化技术,并通过编译优化,代码改造等手段对一个典型粒子模拟程序——三维宏观拟颗粒模拟程序进行了计算代码的优化,进而总结出具有普适意义的计算代码优化建议。相似文献

10.

分簇VLIW DSP上支持单双字模式选择的SIMD编译优化

黄胜兵郑启龙郭连伟《计算机应用》2015,35(8):2371-2374

BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。相似文献

11.

基于安腾2的机群系统的实现与应用 总被引：2，自引：0，他引：2

下载免费PDF全文

赵军张磊李金才宋君强《计算机工程与科学》2007,29(7):85-87

本文设计并实现了一个基于安腾2处理器的机群计算系统，并结合安腾2处理器和机群系统的特性，对气象应用并行程序进行了I／O问题优化、通信优化、计算代价优化和通信数据的Cache利用率优化，以发挥该机群系统的长处，规避其弱点。测试结果表明，该机群系统适合气象应用并行软件的高效并行计算。相似文献

12.

基于OpenCL的雷达外推算法改进与优化

王兴 ;苗春生 ;王秀君 ;樊仲欣《计算机与现代化》2014,(8):81-86

基于雷达资料的外推是临近预报中重要的方法之一,随着全国气象雷达网络建设规模的不断提高以及观测资料精细化程度的提升,基于区域乃至全国雷达拼图的外推预报,每次计算都需花费大量时间,甚至滞后于每6分钟一次的资料观测频次。为解决传统外推算法运算复杂度高,实时性差的问题,运用OpenCL构建基于GPU的异构计算模型对外推算法进行并行化改进。然后逐步分析影响算法性能的瓶颈,并通过改进和测试数据比对,阐述算法优化的过程。其中,内存与线程的映射优化、合理利用局部存储器作为高速缓存以及隐藏CPU执行时间等方法不仅对本算法的执行效率带来显著提升,也可为其他基于OpenCL异构计算的优化提供参考。以AMD Graphic Core Next和Northern Islands二代GPU架构作为测试平台,并以Intel CPU并行计算作为测试参考,测试结果表明,改进后的算法在硬件同等功耗的情况下,计算性能提升15~22倍。相似文献

13.

SM4国密算法的异构可重构计算系统研究

王腾腾柴志雷《计算机应用研究》2023,40(9):2826-2831

随着互联网的数据量呈爆炸式增长,以纯软件方式运行的SM4算法速度慢、CPU占用率高,而基于Verilog/VHDL实现的现场可编程门阵列或专用集成电路存在灵活性差、升级维护困难等问题。为了解决上述问题,提出了一种SM4国密算法的异构可重构计算系统的设计方案,采用高层次综合和异构可重构技术,通过优化数据内存分配与传输、优化循环、矢量化内核以及增加计算单元等方式,设计了SM4算法电子密码本模式和计数器模式的定制计算架构,并将该系统部署在FPGA异构平台。实验结果表明：SM4-ECB和SM4-CTR两种主流工作模式的定制计算架构在Intel Stratix 10 GX2800上,吞吐率分别达到109.48 Gbps和63.73 Gbps,是Intel Xeon E5-2650 V2 CPU上对应模式吞吐率的232.63倍和141.62倍。以此核心模块(包含数据输入、加解密、输出)的整体异构可重构计算系统的性能也分别达到了纯软件方式的4.90倍和3.56倍。该方案不仅实现了针对特定模式进行定制加速,而且可以通过硬件重构灵活支持不同的计算模式,兼顾了系统的灵活性和高效性。相似文献

14.

Intel Cascade Lake架构CPU SPEC CPU2017评测

杜琦黄卉龚盛刘新娃黄春《计算机工程与科学》2021,43(1):49-57

SPEC CPU2017基准包中包含SPEC的下一代行业标准,是目前CPU性能评测的客观和可信的基准程序之一.采用SPEC CPU2017对Intel Cascade Lake架构的Intel Xeon Gold 6252N型号CPU做了不同内存频率、不同副本数、打开/关闭T urbo的组合测试,总结了不同应用程序在不同配置组合中的性能表现.同时,还对比测试了Intel Ivy Bridge架构的Intel Xeon E5-2692 v2型号CPU和Intel Haswell架构的Intel Xeon E5-2620 v3型号CPU,通过引入计算访存跑分比PBR的概念,分析了3种架构的硬件功能部件的增加对应用程序的性能影响. 相似文献

15.

面向国产异构系统的HPL异构协同设计

甘新标孙燎原刘杰雄成伟黄嘉昆《计算机工程与科学》2018,40(1):10-14

HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。相似文献

16.

PSkel: A stencil programming framework for CPU‐GPU systems

Alyson D. Pereira Luiz Ramos Luís F. W. Ges 《Concurrency and Computation》2015,27(17):4938-4953

The use of Graphics Processing Units (GPUs) for high‐performance computing has gained growing momentum in recent years. Unfortunately, GPU‐programming platforms like Compute Unified Device Architecture (CUDA) are complex, user unfriendly, and increase the complexity of developing high‐performance parallel applications. In addition, runtime systems that execute those applications often fail to fully utilize the parallelism of modern CPU‐GPU systems. Typically, parallel kernels run entirely on the most powerful device available, leaving other devices idle. These observations sparked research in two directions: (1) high‐level approaches to software development for GPUs, which strike a balance between performance and ease of programming; and (2) task partitioning to fully utilize the available devices. In this paper, we propose a framework, called PSkel, that provides a single high‐level abstraction for stencil programming on heterogeneous CPU‐GPU systems, while allowing the programmer to partition and assign data and computation to both CPU and GPU. Our current implementation uses parallel skeletons to transparently leverage Intel Threading Building Blocks (Intel Corporation, Santa Clara, CA, USA) and NVIDIA CUDA (Nvidia Corporation, Santa Clara, CA, USA). In our experiments, we observed that parallel applications with task partitioning can improve average performance by up to 76% and 28% compared with CPU‐only and GPU‐only parallel applications, respectively. Copyright © 2015 John Wiley & Sons, Ltd. 相似文献

17.

基于64位CPU系统的计算性能比较:Opteron vs. Xeon

下载免费PDF全文

曾忠龙庆会陈景秋《计算机工程与应用》2007,43(19):98-103

目前配置的计算机服务器大量采用64位AMD Opteron和Intel Xeon两种处理器。Opteron和Xeon处理器在时钟频率、内存控制器和I/O连接等诸多方面有所不同,这些差异导致基于这两种处理器的计算机集群系统有不同的特点,其性能与具体使用的应用程序密切相关。在构建面向高性能科学计算的集群系统时,选择基于何种64位处理器最为合理是众多用户所关心的一个重要话题,针对这个问题,对基于AMD Opteron 252(2.6GHz)和Intel Xeon 3.6GHz(L2 cache:1M)处理器的计算机集群系统进行了一系列科学计算性能的测试和比较。相似文献

18.

基于CUDA的Kirchhoff叠前时间偏移算法设计与实现* 总被引：2，自引：2，他引：0

李肯立彭俊杰周仕勇《计算机应用研究》2009,26(12):4474-4477

Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CUDA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIA GeForce 8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU 2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA 相似文献

19.

A high performance parallel DCT with OpenCL on heterogeneous computing environment

Cheong Ghil Kim Yong Soo Choi 《Multimedia Tools and Applications》2013,64(2):475-489

A noteworthy thing in desktop PCs is that they can provide a great opportunity to increase the performance of processing multimedia data by exploiting task- and data-parallelism with multi-core CPU and many-core GPU. This paper presents a high performance parallel implementation of 2D DCT on this heterogeneous computing environment. For this purpose, Intel TBB (threading building blocks) and OpenCL (Open Compute Language) are utilized for task- and data-parallelism, respectively. The simulation result shows that the parallel DCT implementations far the serial ones in processing speed. Especially, OpenCL implementation shows a linear speedup, a typical SIMD characteristic as the increase of 2D data sets. 相似文献

20.

基于CUDA技术的卷积神经网络识别算法

下载免费PDF全文

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献