首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
工作站机群系统已成为分布式并行处理发展的主流方向之一,随着机群系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高,设计高可靠的群机系统,需要着重研究其系统容错技术,本文叙述了并行异构回卷恢复和检查点派生,实现透明的可移植容错和负载均衡能力,避免调整检查点就构成全局一致性状态,不仅使BSP应用程序自治容错能力,而且能够在机群(Clusters)间迁移,保持系统负载均衡,重点介绍了检查点设置,检查点派生、卷回、进程迁移技术。  相似文献   

2.
共享型商用局域网的通讯性能较差,限制了工作站群机系统的应用。引入交换式局域网将能从根本上解决这个问题。  相似文献   

3.
群机系统内核外实现进程迁移的研究   总被引:2,自引:0,他引:2  
张怡  胡凯 《计算机科学》2001,28(9):16-19
1 引言群机系统(cluster)是实现网络高性能计算的一种有效方式。它是通过网络将一些工作站或PC机连接起来,并在之上附加一些管理软件,将连接的机器协调起来共同工作,从而获得高吞吐量计算。目前,已经有Condor,LSF,Condine和Beowulf等多个商业和科研软件包支持群机系统的运行。群机系统的基本思想是通过占用网络上空闲资源以获得高吞吐量的网络计算能力。它可以处理批处理任务和交互任务,在其上安装PVM或MPI等并行环境后,多数群机系统都支持并行计算。当在群机的任何一台主机上提交任务后,中央管理器将在系统中寻找空闲主机,并将任务分派到不同的空闲主机上,利用这些空闲的CPU资源来协同完  相似文献   

4.
通过网络连接的群机系统在网络计算方面具有非常可观的发展和应用前景,在其中实现进程迁移是支持系统功能的重要保障之一。该文论述了进程迁移在群机系统中的研究意义、应用需求和实现设计目标,并提出和分析了其实现机制的主要关键技术。  相似文献   

5.
本文对八十年代末、九十年代初兴起的新型高性能计算机系统——工作站群机系统及其优点进行了讨论,从不同的角度对它进行分类并简要介绍了几个典型的并行程序开发环境。最后综述了我们基于工作站群机系统的分布式图形的研究工作  相似文献   

6.
高可靠性群机系统的通信和切换   总被引:1,自引:0,他引:1       下载免费PDF全文
本文讨论高可靠性并行处理群机系统的通信互连网络及切换技术。首先介绍存储器通道,然后研究基于该结构的一个四处理结点的高可靠性并行处理群机系统,并对通信及系统切换性能进行了分析。  相似文献   

7.
为了使Ada程序运行在松散耦合分布式系统并且降低程度员开发分布Ada的程序的工,设计并实现了基于该环境下的Ada编译程序。  相似文献   

8.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术  相似文献   

9.
TMR容错计算故障恢复技术研究   总被引:1,自引:0,他引:1  
提出了一种可伸缩的TMR容错计算系统结构,根据TMR系统出现故障的情况,详细研究了其故障恢复模型和恢复策略.通过综合采用向前和向后恢复方法有效减少了由于实现容错功能而对系统运行进程完成时间的推延并进行了定量分析和验证.  相似文献   

10.
Perl语言是实用性很强的一门程序设计语言。本文介绍了Perl语言的特点、功能,以及Perl语言的效率问题。另外,还讨论了该语言在群机系统领域,特别是系统管理软件中的重要应用。  相似文献   

11.
12.
提出一种抵抗瞬时故障的自动编译容错恢复方法,用源码中的变量信息在指令级别进行冗余错误流裁剪,在LCC上加以实现,并获得良好的容错性能。实验结果表明,该方法仅增加0.043倍的时间损耗及0.69倍的空间损耗,在时空损耗上优于现有的其他方法。  相似文献   

13.
针对现有拜占庭容错中的恢复算法不适用于主动复制品的这一问题,提出支持有状态复制品的前摄恢复算法。每个复制品维护一个恢复队列。当到达一个检查点后,使用该前摄恢复算法复制品检查恢复队列,在服务复制品发生错误前,提前将复制品恢复成正确的状态。如果复制品已经出错,该算法也适用。实验分析结果显示算法的有效性。  相似文献   

14.
Group communication services (GCSs) are becoming increasingly important as a wide field of promising applications has emerged to serve millions of users distributed across the world.However,it is challenging to make the service fault tolerance and scalable to fulfill the voluminous demand of users in a distributed network (DN).While many reliable group communication protocols have been dedicated to addressing such a challenge so as to accommodate the changes in the network,they are often costly or require complicated strategies to handle the service interruptions caused by node departures or link failures,which hinders the service practicability.In this paper,we present two schemes to address the challenges.The first one is a location-aware replication scheme called NS,which makes replicas in a dispersed fashion that enables the services on nodes to gain immunity of failures with different patterns (e.g.,network partition and single point failure) while keeping replication overhead low.The second one is a novel failure recovery scheme that exploits the independence between service recovery and structure recovery in time domain to achieve quick failure recovery.Our simulation results indicate that the two proposed schemes outperform the existing schemes and simple alternative schemes in service success rate,recovery latency,and communication cost.  相似文献   

15.
为了解决分布式计算系统回卷恢复容错的验证评估问题,设计一种分布式计算系统的回卷恢复容错算法的仿真机制,依据分布式计算系统回卷恢复容错的总体架构,将分布式计算系统中的节点任务过程使用离散事件模拟,在网络系统仿真工具的应用层增加支持多任务回卷恢复容错仿真的模块,并设计用于回卷恢复容错仿真的结构、功能模块和系统参数设定。结果表明本文提出的仿真机制能够实现分布式计算系统的回卷恢复容错算法的模拟验证,为不同容错算法间对比、改进与优化提供参照。   相似文献   

16.
As multiprocessor systems become more complex, their reliability will need to increase as well. In this paper we propose a novel technique which is applicable to a wide variety of distributed real-time systems, especially those exhibiting data parallelism. System-level fault tolerance involves reliability techniques incorporated within the system hardware and software whereas application-level fault tolerance involves reliability techniques incorporated within the application software. We assert that, for high reliability, a combination of system-level fault tolerance and application-level fault tolerance works best. In many systems, application-level fault tolerance can be used to bridge the gap when system-level fault tolerance alone does not provide the required reliability. We exemplify this with the RTHT target tracking benchmark and the ABF beamforming benchmark.  相似文献   

17.
软件双冗余容错系统的容错能力和性能分析   总被引:1,自引:0,他引:1  
双冗余是比较常用的冗余容错设计方法.软件双冗余容错系统通过冗余执行完成相同功能的两个软件副本,并检查它们的结果,根据两者结果是否一致来判断是否出现了错误.建立了软件双冗余容错系统的运行时模型,并引入了软件双冗余容错系统的容错能力的概念.根据该模型分析了单个软件副本的容错能力对软件双冗余容错系统的容错能力和性能的影响.分析结果显示,提高单个软件副本的容错能力不仅能够提高软件双冗余容错系统的容错能力,还能够提高系统的性能.但在极端情况下,双冗余容错系统的容错能力也可能会小于单个软件副本的容错能力.  相似文献   

18.
该文讨论了根据系统划分和功能两种不同角度建立的系统层次模型,在此基础上分析了这两种系统层次模型对建立故障模型和客借机制模型的指导作用。  相似文献   

19.
Emmerson  R. Mcgowan  M.J. 《Micro, IEEE》1984,4(6):34-43
This quad-modular redundant system offers a cost-effective alternativefor supporting fault tolerance by incorporating hardware/software independence and five redundancy mechanisms to correct both transient and permanent errors.  相似文献   

20.
Mcgill  W.F. Smith  S.E. 《Micro, IEEE》1984,4(6):22-33
Increasing the reliability of continuous process control systems means choosing a fault tolerance technique that matches computer hardware capabilities, as well as applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号