期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宋刚蒋孟奇张云泉李玉成《计算机工程》2008,34(6):80-81,84

Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。相似文献

2.

有限元单元计算子程序的OpenMP并行化 总被引：3，自引：1，他引：2

下载免费PDF全文

宋刚蒋孟奇张云泉李玉成《计算机工程》2008,34(6):80-81

Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。相似文献

3.

WWW大规模cache技术

刘济波朱培栋《现代计算机》1998,(6):8-10

本文分析Ｉｎｔｅｒｎｅｔ网络交通模式，ＷＷＷｃａｃｈｅ对端用户、ＩＳＰ和干线供应商的利益驱动，分析了构造大规模ｃａｃｈｅ的技术需求，并提出相应的解决方案：机群计算，缓冲优化的数据库，多线程数据流。相似文献

4.

ARM计算环境下堆芯程序的移植

明平洲李治刚刘婷芦韡刘东曾辉余红星《计算机工程与科学》2021,43(4):681-688

为了论证国产芯片在堆芯数值计算领域的可行性,对多个堆芯程序在飞腾处理器的ARM通用计算环境中进行了移植,涉及堆芯燃料管理软件的扩散原型程序NACK-R、子通道分析程序CORTH、特征线输运程序OpenMOC和堆芯组件程序KYLIN2。移植过程在ARM计算环境中通过合理的程序代码修订,去除对商业函数库的依赖,且在移植过程中对KYLIN2的特征线循环扫描计算过程引入OpenMP多线程并行,论证单结点多个飞腾处理器核心的并行能力。参照对象Intel商用处理器的频率约为飞腾处理器频率的2倍,堆芯程序移植后的串行运行效率与在Intel计算环境中的串行运行效率差异保持在3~4倍,受限于所使用飞腾处理器型号的缓存大小,部分数据量较大例题的性能差异可能更大。KYLIN2完成多线程并行后计算效率接近在Intel处理器上的串行效率,证明单结点多个飞腾处理器核心能够替换部分堆芯数值计算既有的应用场景。移植结果也表明,混合不同处理器的异构设计,能够在计算资源紧张的情况下充分利用国产硬件,提升计算环境的整体利用效率。相似文献

5.

基于强化学习的多机群网格资源调度模型

陈庆奎《计算机科学》2007,34(11):67-70

在由多个计算机集群构成的多机群网格环境下,为了解决数据并行型计算（DPC）与计算资源的有效匹配问题,提出了一个基于强化学习机制的网格资源调度模型;给出了由多个计算机机群组成的多机群网格、逻辑计算机机群、数据并行型计算和一系列Agent的定义;利用多Agent的协作做竞争机制、基于强化学习的匹配知识库的修正方法,研究了逻辑计算机机群与DPC资源供需之间的有效匹配问题;描述了网格的资源调度模型。理论分析和实践表明,该模型有效地解决了多机群网格环境之下数据并行型计算所需的资源优化使用问题。该模型适合于基于多机群网格的数据并行型计算。相似文献

6.

基于多智能体的多机群网格模型

那丽春刘念祖徐伦彦俞时权《计算机工程与设计》2007,28(16):3921-3924

在由多计算机机群构成的网格环境下,为了实现数据并行型计算,提出了一个基于多智能体机制的网格开发模型.给出了由多计算机机群组成的网格、逻辑计算机机群、数据并行型计算和一系列Agent的定义.利用管理智能体、独立计算智能体、协同计算智能体以及协同计算组之间的协同计算机制来实现数据并行型计算.描述了网格计算过程.实践表明,该模型有效地适应了多机群网格环境的异构性、动态性等特性,提高了计算资源的利用率.该模型适合于基于网格的并行型计算. 相似文献

7.

面向NUMA集群的代数多重网格算法优化

顾坚刘伟《计算机科学》2014,41(6):113-118

代数多重网格(AMG)是众多数值模拟应用的核心算法,在基于多核的NUMA架构的机群系统上,AMG的并行扩展性暴露了新的问题。通过设计感知NUMA架构的内存分配器,将划分给多个线程的数据分割并绑定到运行对应线程的CPU所属的NUMA存储节点上,从而改善了OpenMP多线程并行的数据局部性,使BoomerAMG程序在大规模多核计算平台上具有更好的并行扩展性。在单节点和小规模机群的测试中,使用NAAlloc分配器分别获得了最高16%和60%的性能提升。相似文献

8.

现代操作系统中的多线程技术及其应用 总被引：1，自引：0，他引：1

周炎涛李立明《计算机与现代化》2002,(7):7-11

多处理器计算机系统的出现，并发多进程并行通信和同步上的困难，需要多线程来解决，多线程应用在适当的环境中可以大大提高程序的性能，本文对现代操作系统中的多线程技术和线程的私有数据进行了讨论，并以例程说明了多线程编程及其应用。相似文献

9.

机群并行数据库的动态监控关键技术

下载免费PDF全文

王洁王洋曾宇《计算机工程》2007,33(21):34-36

分析了大规模机群并行数据库的监控层次,在中间件层实现了机群并行数据库动态监控模块,该模块采用集中监控技术来获取监控信息,运用ICE Storm中的消息订阅和发布机制实现了监控信息的发布和处理,并利用Ajax技术使用户可以通过Web方式实时地获取监控信息,保证了数据库系统的高效服务,方便了复杂数据库系统的管理工作。相似文献

10.

基于事件的异构平台并行程序性能可视化研究

顾慧郑晓薇申安来逯文晖《计算机工程与设计》2010,31(24)

为了便于用户快速、直观地了解到机群系统中并行应用程序的性能情况,将Linux计算机群与Windows控制显示平台相结合,提出了一种基于事件的异构平台并行程序性能可视化方法.该方法以MPI作为底层编程环境,在高层使用MPE技术,依据动态性能检测方式获取程序执行过程信息;设计C#语言及Jumpshot日志图形化分析集成工具实现并行程序性能可视化.实验结果表明,该方法可准确,直观地反映程序性能信息,有助于程序员简便、有效地对并行程序进行量化分析,对提高机群系统的可用性、改善程序性能及效率等方面具有较高的实用价值. 相似文献

11.

基于单元集群的MapReduce中节点失效的改进

张乐《微型机与应用》2013,32(16):81-84

针对传统MapReduce框架中任务节点和工作节点的失效问题,提出了在配置备份节点的分层主从式MapReduce框架中加入单元集群的处理方法.在改进框架中,任务处理的最小单位是单元集群,当单元集群中的某个工作节点失效或者超过时间阙值时,子任务节点则选择该单元集群中的空闲工作节点来分配任务,并且不需要重新传输任务文件分块,这既节省了工作节点重选择的时间,又降低了网络传输的压力.使用该框架针对不同数量的数据块进行实验,工作节点的灾难恢复时间均可以节省25 ms左右,证明了单元集群的处理方法可以有效解决工作节点的失效问题. 相似文献

12.

异构云平台中基于多层架构的动态循环调度方案

杨波刘立《计算机应用研究》2018,35(11)

针对现有分布式循环自调度方案在异构云平台中存在负载不平衡等问题,提出一种基于多层架构的分层分布式动态循环调度方案。首先,通过HPLS算法来评估计算环境中各Worker节点的计算速度。然后,在传统自调度方案中融入节点计算速度,构建一种能够处理异构环境的调度方案,提高负载平衡能力。最后,将计算系统构建成一个由SuperMaster,Master和Worker节点组成的多层架构,利用层次化方法来解决传统Master-Worker架构中单个Master节点的瓶颈问题,用来提高任务分配效率。仿真实验结果表明,提出的方案能够有效提高云平台的计算效率。相似文献

13.

面向Storm的数据流编程模型与编译优化方法研究

杨秋吉于俊清莫斌生何云峰《计算机工程与科学》2016,38(12):2409-2418

数据流编程模型将程序的计算与通信分离,暴露了应用程序潜在的并行性并简化了编程难度。分布式计算框架利用廉价PC构建多核集群解决了大规模并行计算问题,但多核集群层次性存储结构和处理单元对数据流程序的性能提出了新的挑战。针对数据流程序在分布式架构下所面临的问题,设计并实现了数据流编程模型和分布式计算框架的结合——在COStream的基础上提出了面向Storm的编译优化框架。框架包括两个模块:面向Storm的层次性任务划分与调度,以及面向Storm的层次性软件流水与代码生成。层次性任务划分利用Storm的任务调度机制将程序所有子任务分配到Storm集群节点内的多核上。层次性软件流水与代码生成将子任务构造成集群节点间的软件流水和节点内多核间的软件流水,并生成相应的目标代码。实验以多核集群为目标平台,在集群上搭建Storm分布式架构,选取数字媒体处理领域典型程序作为测试程序,对面向Storm的编译优化后的程序进行实验分析。实验结果表明了结合方法的有效性。相似文献

14.

Implementation of the EARTH programming model on SMP clusters: a multi‐threaded language and runtime system

G. Tremblay C. J. Morrone J. N. Amaral G. R. Gao 《Concurrency and Computation》2003,15(9):821-844

This paper describes the design and implementation of an Efficient Architecture for Running THreads (EARTH) runtime system for a multi‐processor/multi‐node cluster. The (EARTH) model was designed to support the efficient execution of parallel (multi‐threaded) programs with irregular fine‐grain parallelism using off‐the‐shelf computers. Implementing an EARTH runtime system requires an explicitly threaded runtime system. For portability, we built this runtime system on top of Pthreads under Linux and used sockets for inter‐node communication. Moreover, in order to make the best use of the resources available on a cluster of symmetric multi‐processors (SMP), this implementation enables the overlapping of communication and computation. We used Threaded‐C, a language designed to implement the programming model supported by the EARTH architecture. This language allows the expression of various levels of parallelism and provides the primitives needed to manage the required communication and synchronization. The Threaded‐C programming language supports irregular fine‐grain parallelism through a two‐level hierarchy of threads and fibers. It also provides various synchronization and communication constructs that reflect the nature of EARTH's fibers—non‐preemptive execution with data‐driven scheduling—as well as the extensive use of split‐phase transactions on EARTH to execute long‐latency operations. Copyright © 2003 John Wiley & Sons, Ltd. 相似文献

15.

基于熟人的Agent联盟策略 总被引：12，自引：1，他引：11

叶东海蓝少华王玉善吴慧中《小型微型计算机系统》2000,21(10):1053-1055

在多ａｇｅｎｔ系统中,ａｇｅｎｔ可以通过协商形成联盟来完成任务求解。本文基于ａｇｅｎｔ联盟的统计规律提出了ａｇｅｎｔ熟人的概念,以熟人为基础的联盟策略可以有效减少联盟形成过程中的通讯开销和计算量。随后给出了一种基于该策略的联盟竞争任务的算法,该算法适用于动态,开放的环境、无中心控制,不存在通讯和计算瓶颈。相似文献

16.

Using design space exploration for finding schedules with guaranteed reaction times of synchronous programs on multi-core architecture

《Journal of Systems Architecture》2017

The synchronous model of computation is well suited for real-time systems, because it allows static analysis in order to find and guarantee their reaction times. Today’s multi-core systems are becoming the predominant computing platforms. Synchronous programs are typically compiled into single threaded code, which makes them unsuitable for exploiting parallelism of the multi-core platforms. Moreover, static timing analysis becomes highly intractable for multi-core systems. This article proposes a novel methodology that aims at finding the mapping and schedule of synchronous programs that guarantees, statically, reaction times when mapped onto a multi-core system consisting of two types of time-predictable cores. The proposed methodology combines design space exploration based on evolutionary algorithm and scheduling of parts of synchronous programs. It allows minimizing the resource usage in terms of number of cores by finding the mapping and schedule with the guaranteed reaction time for architectures with different number of cores. In particular, we: (a) transform a synchronous program written in synchronous SystemJ to a graph-based model represented with two types of computation nodes suitable for execution on two types of time-predictable cores, (b) perform mapping of computation nodes on a customizable multi-core platform using genetic operations, and (c) generate a resulting static schedule of computation nodes for each mapping as part of the design space exploration. The design flow, from program specification and node mapping to the design space exploration and multi-core scheduling is completely automated. 相似文献

17.

基于NUMECA FINE/Turbo的并行计算测试

董晶《计算机辅助工程》2014,23(6):108-110

为具体了解CFD软件NUMECA FINE/Turbo的并行计算性能,良好把握后续的科研工作进度,分别研究在激活超线程情况下单节点计算与多节点并行计算以及CPU在激活超线程前、后计算速度的差异.结果表明:在多节点并行计算时,计算速度与实际参加并行计算的CPU物理核心数量成正比;在激活超线程的情况下,并行计算节点数在超过实际物理核心数后明显降低计算速度的提升. 相似文献

18.

基于MPI的匹配方体并行计算研究

罗秋明王梅雷海军《计算机应用》2006,26(8):1916-1918

双目立体视觉的匹配方体计算过程可以进行SIMD类型的并行计算,基于MPI通信环境将视差值的计算任务分配到不同的计算节点上,然后将各节点计算所获得的DSI图像汇集在根节点上,最终通过数据规整快速获得所需的匹配方体。同时建立了该并行算法基于处理器时钟周期的相对精确的计算时间复杂度模型,用于分析不同计算平台上的性能。由于计算过程中数据相关性较低,因此在基于MPI与Myrinet网络的Linux集群计算平台上获得了较好的加速比。相似文献

19.

面向边缘计算的Storm边缘节点调度优化方法

简琤峰平靖张美玉《计算机科学》2020,47(5):277-283

边缘计算有高实时性和大数据交互处理的需求,边缘异构节点间的调度时耗长、通信时延高以及负载不均衡是影响边缘计算性能的核心问题,传统的云计算平台难以满足新的要求。文中研究了在边缘计算环境下Storm边缘节点的调度优化方法,建立了面向边缘计算的Storm任务卸载调度模型。针对拓扑任务在边缘异构节点间的实时动态分配问题,提出了一种启发式动态规划算法(Inspire Dynamic Programming,IDP),通过改变Storm的Task实例的排序分配方式以及Task实例和Slot任务槽的映射关系实现全局的优化调度;同时,针对拓扑任务的并发度受限于JVM栈深度的缺陷,提出了一种基于蝙蝠算法的调度策略。实验结果表明,与Storm调度算法相比,所提算法在边缘节点CPU利用率指标上平均提升了约60%,在集群的吞吐量指标上平均提升了约8.2%,因此能够满足边缘节点之间的高实时性处理要求。相似文献