首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
传统的MPI (message passing interface)集合通信是基于点到点消息实现的,性能较低;而硬件集合通信具有性能高、CPU占用率低等优点,正受到越来越多的关注.硬件集合通信中,聚合树对集合通信性能具有至关重要的影响.研究了影响硬件集合通信性能的因素,提出了硬件集合通信开销模型,并以此为基础提出了构建硬件集合通信聚合树的方法.该方法主要包括3个部分:1)根据操作类型、聚合数据包大小等确定聚合树类型及聚合树宽度,从而在网络传输开销与数据计算开销之间取得平衡;2)提出了最小高度分层k项Ⅰ型聚合树构建方法,降低了跨组聚合包的个数;3)提出了构建最小代价Ⅱ型聚合树的方法,减少所使用的交换机数量.在神威互连网络中对聚合树构建方法进行了全面测试,当存在网络噪声的情况及分层k项Ⅰ型聚合树构建方法下的消息延迟相比传统构建方法下降了24%~89%;典型通信模式时,最小代价Ⅱ型聚合树使用的交换机聚合条目数相比优化前下降了约90%.  相似文献   

2.
多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间.国内外学者提出了许多多核机群下MPI程序的优化方法和技术.测试了3个不同多核机群的通信性能,并分别在Intel与AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/Op)MP、优化MPI运行时参数以及优化MPI进程摆放,同时对实验结果和优化性能进行了分析.  相似文献   

3.
王洁  衷璐洁  曾宇 《计算机科学》2011,38(10):281-284
多核处理器的新特性使多核机群的存储层次更加复杂,同时也给MPI程序带来了新的优化空间。国内外学 者提出了许多多核机群下MPI程序的优化方法和技术。测试了3个不同多核机群的通信性能,并分别在Intel与 AMD多核机群下实验评估了几种具有普遍意义的优化技术:混合MPI/OpcnMP、优化MPI运行时参数以及优化 MPI进程摆放,同时对实验结果和优化性能进行了分析。  相似文献   

4.
高性能计算中,通信上的巨大开销已成为其算力提升的主要瓶颈之一,通信性能的优化一直是一个重要挑战.针对通信优化任务,提出一种基于在网计算技术降低通信开销的方法.该方法在基于以太网的超算环境下,利用RoCEv2协议、可编程交换机以及OpenMPI,实现将归约计算卸载到可编程交换机,支持Node和Socket两种通信模式.在真实超算环境下开展了集合通信基准测试和OpenFOAM应用测试实验,结果表明,当服务器节点数达到一定规模时,该方法在Node和Socket两种模式下相较于传统的主机通信,均呈现出较好的性能提升,其中集合通信基准测试有10%–30%左右性能提升,在应用级测试中应用整体性能有1%–5%左右提升.  相似文献   

5.
将MPI(Message Passing Interface)进程拓扑有效地映射到处理器拓扑上有助于提高MPI程序的通信性能。目前大部分的MPI进程映射只考虑点对点通信,很少考虑到集合通信,原因是获取集合通信的进程拓扑是比较困难的。目前大部分剖析(profiling)工具在剖析集合通信时只考虑了函数的接口语义,而忽视了实现语义,导致这些工具不能正确地获取集合通信进程之间的详细通信情况。本文提出了一套剖析算法,可以准确地计算出参与集合通信的每对进程之间的通信量,并以通信矩阵的形式给出进程拓扑。实验证明了剖析算法的正确性,并且通过这种剖析方法获取的进程拓扑能够提升进程到处理器核的映射实验效果。  相似文献   

6.
针对当前存在的大量非结构化MPI程序,该文提出一种在MPI程序中实现点对点通信原语到集合通信原语转换的方法,其基本思路是:分析非结构化消息传递并行代码的内部结构,建立Diophantine不等式系统,然后用Omega库运算得到点对点通信代码段的通信模式集,再辅以数据交换分析确定对应的集合通信原语并替换。  相似文献   

7.
建立一个适用于整数序列排序的数据分配模型,在多核计算节点组成的异构机群上设计通信高效的整数序列并行算法。所提出的数据分配模型依据机群中各节点不同的计算能力、通信速率和存储容量,动态计算出调度分配给各节点的数据块的大小以平衡各个节点的负载。所设计的并行排序算法利用整数序列的特性,主节点采取两轮分发数据与接收结果的方法,从节点运用分桶打包方式返回有序的整数子序列给主节点,主节点采用桶映射方法将各个有序子序列直接整合成最终有序序列,以减少需要耗费较多通信时间的数据归并操作。分析与实验测试结果表明,给出的多核机群上的整数序列并行排序算法高效,具有良好的可扩展性。  相似文献   

8.
受到功耗和温度的限制,传统的单核处理器性能难以提升,多核计算成为新的处理器模式。然而现有的多线程程序设计是以单核处理器为基础发展而来,无法高效利用多个处理核心来提升性能。以OpenMP为基础,对程序进行多线程优化,以实现多核处理器上多线程的并行,并通过经典的N皇后问题案例进行验证。  相似文献   

9.
王洁  曾宇  张建林 《计算机科学》2010,37(6):229-232
多核处理器的新特性给MPI应用带来了新的优化空间,其中调优MPI运行时参数被证明是优化MPI应用的有效方法.然而最优的运行时参数不仅与多核机群的体系结构有关,也决定于MPI应用的程序特征.提出并分析了一种在给定多核机群下基于人工神经网络的优化模型,用于自动为未知的MPI程序预测接近最优的运行时参数.两个不同基准的实验证明了本方法的有效性.实验证明,基于本方法得到的运行时参数所产生的加速比平均达到了实际最大加速比的95%以上.  相似文献   

10.
高性能科学计算(High Performance Science Computing,简称HPC)是验证某些理论和测试计算机系统处理能力的一种有效的实验手段。鉴于目前CMP(Chip Multi-processor)多核集群已变得越来越普及,尝试对由MPI和OpenMP两种不同并行编程技术构成的混合编程模式做一些实验性的研究。通过对程序执行时间和加速比的实验数据分析,可以看出在多核和多节点集群上采用细粒度的混合并行编程方法较单一使用MPI并行编程方法更加合理和高效,也更能体现出系统硬软件的特性与优势。  相似文献   

11.
随着Web搜索引擎等实际应用的发展,Top-k查询的实时性能日益受人关注.为了提升Top-k查询在高性能计算机上的实时性能,本文针对领域中具有代表性的No Radom Access(NRA)程序进行性能分析,根据多核处理器的结构特点,采用分层的优化方法对NRA程序进行并行优化.通过使用数据结构调整,任务调度等方法优化,优化后程序在实验数据集上获得了59%的串行性能提升,并具有接近线性的加速比.  相似文献   

12.
Several studies have shown that Asymmetric Multicore Processors (AMPs) systems, which are composed of processors with different hardware characteristics, present better performance and power when compared to homogeneous systems. With Moore’s law behavior still lasting, core-count growth creates typical non-uniform memory accesses (NUMA). Existing schedulers assume that the underlying architecture is homogeneous, and as consequence, they may not be well suited for AMP and NUMA systems, since they, respectively, do not properly explore hardware elements asymmetry, while improving memory utilization by avoid multi-processes data starvation. In this paper we propose a new scheduler, namely NUMA-aware Scheduler, to accommodate the next generation of AMP architectures in terms of architecture asymmetry and processes starvation. Experimental results show that the average speedup is 1.36 times faster than default Linux scheduler through evaluation using PARSEC benchmarks, demonstrating that the proposed technique is promising when compared to other prior studies.  相似文献   

13.
计算进入了多核时代,处理器的发展不再由更快的主频带动,而是依靠增加片上的多个核心.但是,对于高性能应用来说,多核平台的并行处理由于缺少适合的并行程序开发工具还处于初始阶段.一个串行B-NIDS的优化需要对底层线程结构的深入了解和正确使用.发现了现有并行系统基于细粒度锁同步机制的瓶颈,根据应用的数据流特点提出了没有竞争的同步机制.然后,提出了改进系统三级流水的多线程结构,并实现了不同特征流的差别服务.在性能评价中,改进系统在8核32线程服务器上从资源占用、吞吐率及响应时间3个方面都表现出了更好的性能.  相似文献   

14.
对多核环境下内存数据进行并发调度,可以减少计算机宕机次数和数据切换时时间,提高数据并发调度精度,增加数据操作平稳性;当前的内存数据并发调度方法是利用PrebuiltTrigger对内存数据进行并发调度,在调度过程中,没有设定具体的内存数据调度目标,导致内存数据库中的数据因此错乱无序,存在数据并发调度精度低的问题;为此,提出一种基于Linux的多核环境下内存数据并发调度优化方法;该方法首先采用IACT算法对影响调度进行的数据和内存数据库中相似或重复数据进行清洗,然后以清洗的数据为基础,利用启发式算法对其进行数据特征选取,依据多属性决策理论对内存数据并发调度的最优路径属性权重集合进行计算,以其结果为依据,计算调度最优路径的偏差值,最后利用最小偏差值,建立调度最优路径线性规划模型,对每条调度路径的综合决策属性值进行排序,由此得到调度的最优路径,完成对多核环境下内存数据的并发调度;实验结果证明,所提方法可以对多核环境下内存数据进行高效率地并发调度,提高了数据调度精度,增加了内存数据的可循环利用性,为低开销的内存数据调度提供了支撑。  相似文献   

15.
谭鹤毅 《测控技术》2017,36(6):109-111
针对分布式多核节点系统的负载均衡难以取得最优解的问题,提出了一种基于改进极值优化的负载均衡方法.该方法通过节点的CPU占用率发现负载不均衡情况,然后用一个衡量模型估计计算与通信开销使改进的极值优化方法能够实现集群的负载均衡.仿真与实验结果表明该算法能够提高分布式集群的计算效率,是一种理想的负载均衡算法.  相似文献   

16.
基于异构多核平台的同步数据流图帕累托优化与调度   总被引:2,自引:0,他引:2  
同步数据流图被广泛用于多媒体和数字信号处理程序等流应用程序的建模。流应用程序须达到一定吞吐量才能流畅运行,利用异构多核处理器来进一步提高流应用程序的吞吐量已经成为当今嵌入式系统的发展趋势,但是提高吞吐量往往伴随着能耗的增加。为了解决这个问题,基于异构多核平台的同步数据流图系统模型,给出了求解所有能耗和吞吐量的帕累托优化点及其相应静态调度的方法。首先将系统模型转换为时间自动机网络,并将分析目标转换为时序逻辑公式;再使用实时模型检测工具UPPAAL寻找解决方案;最后对UPPAAL返回的结果进行分析,找出满足要求的调度。由于模型检测方法可对问题空间进行穷尽搜索,该方法得到的 结果 是精确的。该方法可帮助设计者在系统开发早期了解系统能耗和吞吐量的量化关系,有利于缩短系统的开发周期,降低开发成本。  相似文献   

17.
Multicore architectures are mainstream due to ever increasing demand of throughput by modern applications. However, the suboptimal utilization of available resources in these architectures may imply an inevitable energy overhead. This energy overhead can only be avoided if the multicore systems support reconfiguration of available resources as per application demand. To achieve the target objectives (i.e., Energy efficiency with Throughput maximization) in multicore systems, many decision variables need to be optimized or analyzed to find the better trade-off. Heuristic-based approaches are aimed to provide a good-enough solution instead of a lengthy exhaustive search. This paper presents an Evolutionary Algorithm (EA)-based approach, i.e., Nondominated Sorting Genetic Algorithm-II (NSGA-II). Three decision variables, i.e., number of cores, cache size and frequency are used to find best solution. The proposed approach is validated over a set of parallel benchmarks using a cycle accurate simulator. The results show a significant amount of energy saving along with minimal impact on the throughput of the system.  相似文献   

18.
在多核处理器的软件设计中,核间通信机制是关键所在,有效合理的核间通信可以发挥多核处理器的并行处理能力.中断和查询方式是传统的核间通信手段,但存在丢失中断和查询效率低的缺点.为解决这一问题,多核处理器提供了一种全新的硬件信号量机制,用于核间通信.本文以多核DSP芯片TMS320C6678为例,描述了硬件信号量的工作原理和方法以及模块的结构和配置,并给出两个核之间通信的实例.  相似文献   

19.
对于共享内存资源的多核系统来说,分配和管理有限的内存资源是一个非常重要且具有挑战性的问题.随着处理器核数的快速增长,不同线程间的访存请求对系统中共享内存的竞争也愈发激烈,由此导致的对系统性能和系统公平性的影响也更加显著.为了缓解这一问题,除了增加可用共享资源外,公平高效地管理和利用共享内存资源至关重要.在各类共享资源中,对系统性能影响最大的是共享Cache和DRAM.文中将这两级共享内存资源的分配和管理研究归结为三个重要方面,包括共享缓存分区、访存请求调度以及地址映射优化,并从优化系统吞吐率和公平性方面分析总结了一系列共享缓存分区策略,从缓解多线程对DRAM的竞争和相互干扰方面分析概括了一系列访存调度算法和地址映射策略.最后对共享内存资源未来的研究和发展做了总结和展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号