首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
格点量子色动力学(QCD)是从第一原理出发求解QCD的非微扰方法, 通过在超立方格子上模拟胶子场和费米子场相互作用, 其计算结果被认为是对强相互作用现象的可靠描述, 格点计算对QCD理论研究意义重大. 但是, 格点QCD计算具有非常大的计算自由度导致计算效率难以提升, 通常对格子体系采用区域分解的方法实现并行计算的可扩展性, 但如何提升数据并行计算效率仍然是核心问题. 本文以格点QCD典型软件Grid为例, 研究格点QCD计算中的数据并行计算模式, 围绕格点QCD中的复杂张量计算和提升大规模并行计算效率的问题, 开展格点QCD方法中数据并行计算特征的理论分析, 之后针对Grid软件的SIMD和OpenMP等具体数据并行计算方式进行性能测试分析, 最后阐述数据并行计算模式对格点QCD计算应用的重要意义.  相似文献   

2.
格点量子色动力学(Lattice Quantum Chromo Dynamics,LQCD)是目前已知能系统研究夸克及胶子间低能强相互作用的非微扰计算方法.计算结果的统计和系统误差原则上都是可控的,并能逐步减少.基于格点QCD的基本原理,更大的格子体积意味着可以计算更大空间的物理过程,并且可以对空间进行更加精细的划分,从而得到更加精确的结果.因而大体系的格点计算对QCD理论研究有着重要意义,但对程序计算性能提出了更高要求.本文针对格点QCD组态生成和胶球测量的基本程序,进行了其大规模并行分析和性能优化的研究.基于格点QCD模拟采用的blocking和even-odd算法,我们设计了基于MPI和OpenMP的并行化算法,同时设计优化数据通信模块:针对复矩阵的矩阵乘等数值计算,提出了向量化的计算优化方法:针对组态文件输出瓶颈,提出了并行输出组态文件的实施方法.模拟程序分别在Intel KNL和“天河2号”超级计算机x86_64队列进行了测试分析,证实了相应的优化措施的有效性,并进行了相应的并行计算效率分析,最大测试规模达到了1728个节点(即41472 CPU核).  相似文献   

3.
格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。基于roofline性能分析模型,发现格点QCD是典型的内存限制应用,并通过将Dslash中的3×3复幺正矩阵根据对称性压缩,将其性能提升约22%。对于大规模稀疏线性方程的求解,在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法,发现即使考虑预处理时间,在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外,还考虑了鲲鹏920处理器上的NEON向量化指令,发现将其用于multigrid计算时可以带来约20%的加速。因此,在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。  相似文献   

4.
研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.本文首先简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场动力学、分子动力学、量子计算化学和格点量子色力学等多个问题、尺度和领域.其次,我们讨论了面向国产异构计算系统的对策,提炼出若干典型应用算法和软件的共性问题,涉及核心算法、算法发展、优化策略等.最后,本文面向异构计算体系结构对高性能计算算法与软件进行了总结.  相似文献   

5.
徐顺  王武  张鉴  姜金荣  金钟  迟学斌 《软件学报》2021,32(8):2365-2376
研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.首先,简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场动力学、分子动力学、量子计算化学和格点量子色力学等多个问题、尺度和领域.其次,讨论了面向国产异构计算系统的对策,提炼出若干典型应用算法和软件的共性问题,涉及核心算法、算法发展、优化策略等.最后,面向异构计算体系结构,对高性能计算算法与软件进行了总结.  相似文献   

6.
量子色动力学 ( Quantum ChromoDynamics,QCD) 研究是一个典型的高性能科学计算问题,它被美国著名的高性能计算与通信计划(HPCC)列为世界级重大挑战性课题之一.由于Fermion矩阵处理等对时空性能指标的超级要求,必须寻找新的计算机求解技术才能推动研究的进展.文章提出并分析了域分解和函数分解方法、方法导致的MIMD模式和并行程序设计技术.在Exemplar SPP1200/XA(简称SPP1200)系统上的测试表明,这些方法和技术对QCD的进一步研究具有重要的意义.  相似文献   

7.
"神威·太湖之光"是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们的关注。针对LQCD在神威平台上的移植优化问题展开研究。首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程。其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植。再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核本地设备存储器(LDM)与主存之间的直接存储访问(DMA)通讯、主核之间的消息传递接口(MPI)通讯及全局归约等操作。最后,经过实验测试,单核组优化程序与16核组优化程序相比单主核程序分别获得了165倍和25倍的加速比,并发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础。同时,对国产超算平台的推广使用具有积极意义。  相似文献   

8.
利用网格技术实现的异构数据源集成环境中,引入本体可以解决网格数据的语义查询问题。为了提高网格环境中语义查询的效率,提出了一个基于本体的语义查询优化器(GSQO),该优化器主要实现了以下3个模块的优化:(1)用户查询语义扩展;(2)资源选择;(3)并行处理。实验结果表明,GSQO通过采取上述优化策略提供了较好的查询效率。  相似文献   

9.
本文介绍我们开发的一款适用于半导体器件及其辐照损伤效应定量模拟的三维并行仿真应用软件平台3Ddevice.该软件由中国科学院数学与系统科学研究院和中国工程物理研究院微系统与太赫兹研究中心联合开发,能直接解算半导体器件的电学响应性质及其氧化物层在电离辐照下带电缺陷与界面态缺陷累积动力学过程,计算器件损伤后的电学响应偏移.我们已经实现器件电离辐照总剂量效应以及低剂量率增强效应定量模拟,模拟结果与实验数据吻合良好.软件采用C/S架构,分为本地客户端与远程计算端两大子系统.客户端由总控模块、前处理模块、通信模块以及后处理模块组成.总控模块主要的功能是求解器挂载、数值模拟流程搭建与管理.前处理模块主要功能是器件几何建模以及网格生成与优化.通信模块主要功能是求解器参数初始化与硬件系统状态监控.后处理模块主要功能是数值模拟结果可视化与数据分析.计算端基于三维并行自适应有限元平台~([1])(PHG)开发,目前包括半导体器件模拟器(DevSim),电离辐照损伤模拟器(TIDSim).上述求解器采用MPI通讯技术,支持大规模分布式并行,已实现十亿量级网格单元数的器件电离损伤及电学响应模拟.本文介绍的仿真软件系统是一个初级版本,将会得到持续开发更新,它的详细使用方法请参照并以软件使用说明书为准.  相似文献   

10.
陈佳  吴跃 《计算机科学》2005,32(7):59-60
网格计算环境具有异构性、分布性、动态性、局域自治性等特点,针对以上特性,利用移动代理技术的网格计算方法,可以提供高效统一的应用接口,实现多编程环境下的协同应用求解,从而有效屏蔽其异构和分布等特性,动态适应其资源的变化。详细说明了基于移动代理的网格计算的体系结构和主要模块的功能,并阐述了移动代理的实现过程。  相似文献   

11.
Dendritic computing has been proved to produce perfect approximation of any data distribution. This result guarantees perfect accuracy training. However, we have found great performance degradation when tested on conventional k-fold cross-validation schemes. In this paper we propose to use Lattice Independent Component Analysis (LICA) and the Kernel transformation of the data as an appropriate feature extraction that improves the generalization of dendritic computing classifiers. We obtain a big increase in classification performance applying with this schema over a database of features extracted from Magnetic Resonance Imaging (MRI) including Alzheimer's disease (AD) patients and control subjects.  相似文献   

12.
We introduce an approach to fMRI analysis based on the Endmember Induction Heuristic Algorithm (EIHA). This algorithm uses the Lattice Associative Memory (LAM) to detect Lattice Independent vectors, which can be assumed to be Affine Independent, and therefore candidates to be the endmembers of the data. Induced endmembers are used to compute the activation levels of voxels as result of an unmixing process. The endmembers correspond to diverse activation patterns, one of these activation patterns corresponds to the resting state of the neuronal tissue. The on-line working of the algorithm does not need neither a previous training process nor a priori models of the data. Results on a case study compare with the results given by the state of art SPM software.  相似文献   

13.
流体动力学问题的计算机仿真   总被引:1,自引:0,他引:1  
本文介绍一个流体动力学的格子Boltzmann并行仿真模型。我们用该模型仿真了流体动力学中的几个典型流体现象,利用计算机可视化技术该模型可动态显示流体的演化过程,可以很方便的用于分析各种流体力学现象。  相似文献   

14.
为了改进彩色图像加密算法的安全性等性能,设计了一种基于耦合映像格子的彩色图像加密算法。首先通过一维鲁棒混沌映射对彩色图像的三个基色矩阵基于比特运算完成预处理的置乱操作并分块,对子矩阵进行轮加密,通过耦合映像格子生成S盒,每一轮加密过程先根据辅助密钥选择S盒进行非线性替换,替换后矩阵再两两组合进行双向加密,实现在分量内扩散加密的同时降低相同像素对应三基色分量的相关性。算法将Logistic映射结合明文信息得到混沌系统的初值,有效提高了加密算法对系统初值和明文的敏感性,理论分析及实验表明该算法具有更好的安全性和加密效果。  相似文献   

15.
An extremely scalable lattice Boltzmann (LB)–cellular automaton (CA) model for simulations of two-dimensional (2D) dendritic solidification under forced convection is presented. The model incorporates effects of phase change, solute diffusion, melt convection, and heat transport. The LB model represents the diffusion, convection, and heat transfer phenomena. The dendrite growth is driven by a difference between actual and equilibrium liquid composition at the solid–liquid interface. The CA technique is deployed to track the new interface cells. The computer program was parallelized using the Message Passing Interface (MPI) technique. Parallel scaling of the algorithm was studied and major scalability bottlenecks were identified. Efficiency loss attributable to the high memory bandwidth requirement of the algorithm was observed when using multiple cores per processor. Parallel writing of the output variables of interest was implemented in the binary Hierarchical Data Format 5 (HDF5) to improve the output performance, and to simplify visualization. Calculations were carried out in single precision arithmetic without significant loss in accuracy, resulting in 50% reduction of memory and computational time requirements. The presented solidification model shows a very good scalability up to centimeter size domains, including more than ten million of dendrites.  相似文献   

16.
Simulation time for the classical problem of Lattice Quantum Chromodynamics (Lattice QCD) is dominated by one kernel routine responsible for computing the actions of a Dirac operator. This paper describes an experience in parallelizing this kernel routine. We explore parallelization granularities for this kernel routine on Graphical Processing Units (GPUs). We show that fine-grained parallelism can outperform coarse-grained parallelization, given that control-flow and communication effects are minimized. We propose two techniques for transforming control-flow-based code to control-free code. We also show how to reduce the communication effect by optimizing for commonly used sequences of calls to this routine. In our implementation on NVIDIA 8800 GTX, we were able to achieve an 8.3x speedup over an SSE2 optimized version on 2.8 GHz Intel Xeon CPU.  相似文献   

17.
The long-term dynamic behavior of many dynamical systems evolves on a low-dimensional, attracting, invariant slow manifold, which can be parameterized by only a few variables (“observables”). The explicit derivation of such a slow manifold (and thus, the reduction of the long-term system dynamics) is often extremely difficult or practically impossible. For this class of problems, the equation-free framework has been developed to enable performing coarse-grained computations, based on short full model simulations. Each full model simulation should be initialized so that the full model state is consistent with the values of the observables and close to the slow manifold. To compute such an initial full model state, a class of constrained runs functional iterations was proposed (Gear and Kevrekidis, J. Sci. Comput. 25(1), 17–28, 2005; Gear et al., SIAM J. Appl. Dyn. Syst. 4(3), 711–732, 2005). The schemes in this class only use the full model simulator and converge, under certain conditions, to an approximation of the desired state on the slow manifold. In this article, we develop an implementation of the constrained runs scheme that is based on a (preconditioned) Newton-Krylov method rather than on a simple functional iteration. The functional iteration and the Newton-Krylov method are compared in detail using a lattice Boltzmann model for one-dimensional reaction-diffusion as the full model simulator. Depending on the parameters of the lattice Boltzmann model, the functional iteration may converge slowly or even diverge. We show that both issues are largely resolved by using the Newton-Krylov method, especially when a coarse grid correction preconditioner is incorporated.  相似文献   

18.
Python由于具有丰富的第三方库、开发高效等优点,已成为数据科学、智能科学等应用领域最流行的编程语言之一。Python强调了对科学与工程计算的支持,目前已积累了丰富的科学与工程计算库和工具。例如,SciPy和NumPy等数学库提供了高效的多维数组操作及丰富的数值计算功能。以往,Python主要作为脚本语言,起到连接数值模拟前处理、求解器和后处理的“胶水”功能,以提升数值模拟的自动化处理水平。近年来,国外已有学者尝试采用Python代码实现求解计算功能,并在高性能计算机上开展了超大规模并行计算研究,取得了不错的效果。由于自身特点,高效大规模Python数值模拟的实现和性能优化与传统基于C/C++和Fortran的数值模拟等具有很大的不同。文中实现了国际上首个完全基于Python的大规模并行三维格子玻尔兹曼多相流模拟代码PyLBMFlow,探索了Python大规模高性能计算和性能优化方法。首先,利用NumPy多维数组和通用函数设计实现了LBM流场数据结构和典型计算内核,通过一系列性能优化并对LBM边界处理算法进行重构,大幅提升了Python的计算效率,相对于基准实现,优化后的串行性能提升了两个量级。在此基础上,采用三维流场区域分解方法,基于mpi4py和Cython实现了MPI+OpenMP混合并行;在天河二号超级计算机上成功模拟了基于D3Q19离散方法和Shan-Chen BGK碰撞模型的气液两相流,算例规模达百亿网格,并行规模达1024个结点,并行效率超过90%。  相似文献   

19.
In recent years, lattice computing has emerged as a new paradigm for processing lattice ordered data such as intervals, Type-1 and Type-2 fuzzy sets, vectors, images, symbols, graphs, etc. Here, the word “lattice” refers to a mathematical structure that is defined as a special type of a partially ordered set (poset). In particular, a complete lattice is a poset that contains the infimum as well as the supremum of each of its subsets. In this paper, we introduce the quantale-based associative memory (QAM), where the notion of a quantale is defined as a complete lattice together with a binary operation that commutes with the supremum operator. We show that QAMs can be effectively used for the storage and the recall of color images.  相似文献   

20.
基于Motorola新型单片机的汉字点阵显示屏的设计与实现   总被引:2,自引:0,他引:2  
提出了一种利用Motorola公司新推出的单片机MC68HC908JL8设计的LED汉字点阵显示屏的方案,给出了硬件系统的设计原理分析、软件系统设计流程及技术实现的要点,对其中的技术难点进行了简明的分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号