首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
<正>随着神威·太湖之光以125P的峰值性能登顶Top500榜首,超级计算机研制中的一个重要里程碑结点100P系统已被攻克,下一个高峰"E级计算机"正成为各国竞逐的新目标。2016年科技部适时启动了E级计算重点专项,拉开了我国研制E级超级计算机(以下称E-HPC)的序幕。国防科技大学计算机学院牵头,联合相关单位承担了专项第一批唯一单列的基础前沿探索项目—面向E-HPC的新型高性能互连  相似文献   

2.
随着系统规模与集成度的快速增加,可靠性与可用性问题成为构建E级计算机系统所面临的重大挑战.针对神威太湖之光超级计算机可靠性与可用性设计与实现开展全面的分析.首先概要描述神威太湖之光超级计算机系统结构.其次,系统提出神威太湖之光超级计算机可靠性增强技术以及故障预测、主动迁移、任务局部降级等主被动容错技术,建立神威太湖之光超级计算机多层次主被动协同的容错系统.再次,根据系统故障统计信息,分析失效分布及主要失效来源,结合指数、对数正态与韦布尔3种典型寿命周期分布,对神威太湖之光系统故障间隔时间分布进行数据拟合分析.最大似然估计与K-S(Kolmogorov Smirnov)检验结果表明,对数正态分布与系统失效经验数据取得了最好的拟合度,建立神威太湖之光系统失效分布模型,并计算得出系统平均无故障时间.通过系统运行统计与实际应用测试,分析了故障预测精确度以及主动迁移、局部降低等容错技术的时间开销与容错效果.最后,在神威太湖之光超级计算机可靠性与可用性分析的基础上,提出E级计算机系统高可靠与高可用技术发展建议.  相似文献   

3.
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R) Xeon(R) CPU E5-2695 v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。  相似文献   

4.
随着多核处理器的发展和计算需求的不断增长,高性能计算系统规模不断增大.使用模拟器对高性能计算系统进行模拟,对系统设计及优化有着重要的作用,互连网络模拟则是其中不可或缺的一部分.设计实现了一种基于OM Net++的大规模InfiniBand互连网络模拟系统,该系统通过记录的并行程序M PI消息来驱动网络仿真过程,可以模拟互连网络在程序运行过程中的工作状态,并可与消息驱动的高性能计算机模拟系统集成.通过与真实集群中节点间通信时延做对比,验证了模拟精度,并测试了模拟性能.  相似文献   

5.
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴.  相似文献   

6.
随着企业规模的逐步扩大和计算机网络与企业信息技术的飞速发展,大中型企业陆续建立了很多业务系统,对各个系统之间数据同步的安全性提出了更高的需求。针对此需求,基于RabbitMQ消息队列中间件,本文设计并实现基于不可靠通信链路的数据共享模块,解决在企业内部两级数据中心之间的双向数据同步问题,并通过RabbitMQ的消息确认机制和持久化机制,保证数据的安全送达、无丢失。经过实践证明,该数据共享模块功能稳定,可提高两级数据中心的数据传输效率并保证其安全性。  相似文献   

7.
从高性能众核处理器的多路DDR4嵌入式工程应用出发,设计一种高密度DDR4串推互连结构,提出一种基于不同激励码型的仿真分析方法。采用双面盲孔印制板工艺折叠串推访存结构设计,解决地址组信号概率性出错问题。在压力测试环境下实测读/写信号波形良好,支持信号超频可靠传输,标称2666 Mbps的DDR4存储颗粒可以在3000 Mbps速率下长时间稳定运行。已在神威E级原型机等多台套大型计算装备研发中得到规模化推广应用,产生了良好的技术效益。  相似文献   

8.
计算机网络通信设计经常需要对消息队列进行设计和管理,传统基于nro存储器的消息队列设计控制复杂、消耗资源多、扩展受限而不再适合现代计算机网络处理器的发展.文中研究和分析了线性链表结构的技术特点、使用的局限性及适用范围,并讨论了链表结构的发展及其应用前景.提出一种基于链表消息队列的动态存储器管理设计,并结合某款网络芯片设计加以说明.该设计实践证明采用链表进行消息队列设计具有结构简单、使用灵活、占用资源少、易于扩展、便于物理实现等技术优势.  相似文献   

9.
《计算机科学与探索》2019,(11):1852-1863
三维声弹性理论及计算方法为海洋弹性浮体结构流固耦合振动声辐射与海洋声传播提供了理论基础,在海洋弹性浮体结构研究中具有很重要的影响。根据三维声弹性不同计算阶段计算密度特征,基于神威太湖之光超级计算系统,完成了三维声弹性应用软件(THAFTS-Acoustic)的多级并行和优化。优化技术包括循环分裂、循环合并、直接内存存取(DMA)、通信和计算的相互隐藏、基于神威太湖之光的向量化(SIMD)等方法。测试结果表明:三维声弹性多级异构并行具有较好的MPI扩展性能和众核并行加速效果,核心段加速可达18倍,64进程时程序整体相较原始程序并行程序加速5.5倍,可有效地发挥"神威·太湖之光"的强大计算能力,进一步支持THAFTS-Acoustic进行超大规模和更高精度的并行计算。  相似文献   

10.
“神威·太湖之光”高效能计算机系统是世界上首台峰值运算速度超过 10 亿亿次量级的超级计算机,HPSEPS (High Performance Symmetric Eigenproblem Solvers) 是自主开发的大规模对称稠密矩阵特征问题并行求解器,包括标准对称稠密矩阵特征问题的并行计算方法, 对大规模数据问题的计算,表现出较好的性能,本文分别在中科院的“元”超级计算机上和神威·太湖之光超级计算机上进行了移植, 对比了两种超级计算机的系统性能, 并且在“神威·太湖之光”上分别链接适合其异构众核结构的 xMath 数学库和 mkl 数学库, 对求解器在链接两种不同数学库的计算机效果进行了测试与分析。  相似文献   

11.
网络并行超级计算系统THNPSC—1   总被引:2,自引:0,他引:2  
网络并行计算(也称集群式计算)是实现高性能计算的重要方式,该文介绍了一个清华大学研制的网络并行超级计算系统THNPSC-1,它是由Pentium Ⅲ SMP计算结点组成;网络互联采用两种高速网:一种是自制的具有动态仲裁与路由寻经的交叉开关网络THNet,另一种是100Mpbs的Ethernet.THNet中的交叉开关THSwitch是用15万门的ALTERA FPGA芯片构成,THNet还包括具有DMA引擎的网络适配器THNIA.THNet每一端口可以提供数据传输率为1.056Gbps,其聚合频宽可达8.4Gbps;采用固定用户缓冲和扩展的主动消息传递等法,THNet执行用户层的消息传递,旁路操作系统的系统调用,做到零拷贝的消息传递,乒乓测试结果表明:单向消息传递延迟可减少到8μs。THNetl软件包括THNIA驱动程序和支持用户层通信的函数库。此文对相关工作进行了简要对比,并说明了该系统的应用情况。  相似文献   

12.
随着高性能网络规模的增加,高阶路由器结构设计成为高性能计算中研究的重点和热点。使用高阶路由器,网络能实现更低的报文传输延迟、网络构建成本和网络功耗,同时高阶路由器的应用还可以提高网络可靠性。过去十年是高阶路由器发展最快的时期,对近年高阶路由器的研究进行了综述,并对未来发展趋势进行了预测,主要介绍了以YARC为代表的经典结构化设计以及"network within a network"等近年来涌现的新型设计方法。未来的研究重点是解决高阶路由器结构设计中遇到的缓存和仲裁等各种问题,并利用光互连等技术设计性能更好的结构。  相似文献   

13.
高带宽、低延迟的高阶路由器对于构建大规模可扩展的互连网络有着重要的作用,但是受限于单个路由芯片设计复杂度的不断增加以及摩尔定律、登纳德缩放定律的放缓与停滞,在单个路由芯片上扩展更多的端口数将变得越来越难.Chiplet将多个裸片以特定的方式集成在一个高级封装内,形成具有特定功能的大芯片,以此解决芯片设计中涉及的规模、研...  相似文献   

14.
并行系统的以存储器为中心的互联机制MCIM   总被引:2,自引:1,他引:1  
并行系统中计算结点之间的互联网络一直是并行体系结构的研究热点,30年来曾研究过多种IN的结构及其特性,然而这些IN都是以逻辑电路为基础的。本文提出一种以多端口快速静态存储器为中心的并行系统互联机制,称之为MCIM,MCIM不同于共享 共享存储器,它的容量较小,划分为多个消息传递的通信邮区,并通过每个端口的访问接口(PAI)。连接8-16个计算结点。常用的四端口存储器可组成32-64个计算结点的并行  相似文献   

15.
图计算应用的通信模式以时空随机的点对点细粒度通信为主,但现有高性能计算机的网络系统应对大量细粒度通信时表现不佳,进而影响整体性能。虽然在应用层进行通信优化可以有效提升图计算应用性能,但这会给应用开发人员带来很大的负担,因此提出并实现结构动态的消息聚合技术,通过构建虚拟拓扑的方法在通信路径上增加中间点从而提升消息聚合的效果。传统的消息聚合策略一般仅在通信源或者目的地上进行,聚合机会有限,而所提技术通过灵活调整虚拟拓扑的结构和配置适应了不同硬件条件和应用特征。同时,还提出并实现了面向图计算的有消息聚合的运行时系统,这使得在程序迭代执行时可以动态选择参数,从而减少开发人员负担。在256节点规模的系统上实验的结果显示,使用所提消息聚合技术优化后的典型图计算应用的性能可得到100%以上的提升。  相似文献   

16.
随着E级计算的屏障被打破,高性能计算已经迈入了新时代。为了满足日益增长的数据访问需求,新兴的技术和存储介质都被运用到了超级计算机中,这使得其架构变得日趋复杂,其性能异常和系统热点定位也变得十分困难。为此,设计并实现了一个面向E级超级计算机的轻量级端到端I/O性能监控与分析诊断系统——Beacon+。该系统无需修改应用代码/脚本即可对每个应用的数据访问过程进行全路径实时监控与分析。通过在线+离线的压缩方法和分布式缓存/存储等机制,Beacon+在保证系统本身高扩展性、低开销的同时还可以持续稳定地提供I/O诊断服务。以神威新一代超级计算机为部署平台,通过I/O标准测试应用和实际应用证明了Beacon+的低开销和高准确性,以及I/O诊断的高效性。  相似文献   

17.
随着高速信号传输技术和VLSI技术的发展,使用高阶路由器来应对因高性能计算机峰值性能不断攀升给高性能互连网络带来的新挑战已是发展需求;同时,如何利用高阶特性减少互连网络延迟和成本开销,以支持更大的网络规模是设计高性能互连网络拓扑结构的关键和突破点。针对目前基于高阶路由器的典型拓扑结构进行了分析,并在此基础上提出一个新的高阶拓扑架构SuperStar,其不仅具有较短的网络直径而且具有良好的可扩展性;通过在一个基于OMNeT++平台自主开发的高阶互连网络性能测评模拟器上设定不同的通信负载,测评各种拓扑结构在通信系统下实际的网络延迟和吞吐率的走势,以分析SuperStar的通信开销。  相似文献   

18.
Performance and energy consumption of high performance computing (HPC) interconnection networks have a great significance in the whole supercomputer, and building up HPC interconnection network simulation platform is very important for the research on HPC software and hardware technologies. To effectively evaluate the performance and energy consumption of HPC interconnection networks, this article designs and implements a detailed and clock-driven HPC interconnection network simulation platform, called HPC-NetSim. HPC-NetSim uses applicationdriven workloads and inherits the characteristics of the detailed and flexible cycle-accurate network simulator. Besides, it offers a large set of configurable network parameters in terms of topology and routing, and supports router’s on/off states.We compare the simulated execution time with the real execution time of Tianhe-2 subsystem and the mean error is only 2.7%. In addition, we simulate the network behaviors with different network structures and low-power modes. The results are also consistent with the theoretical analyses.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号