首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
工作站机群系统已成为分布式并行处理发展的主流方向之一,随着机群系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高,设计高可靠的群机系统,需要着重研究其系统容错技术,本文叙述了并行异构回卷恢复和检查点派生,实现透明的可移植容错和负载均衡能力,避免调整检查点就构成全局一致性状态,不仅使BSP应用程序自治容错能力,而且能够在机群(Clusters)间迁移,保持系统负载均衡,重点介绍了检查点设置,检查点派生、卷回、进程迁移技术。  相似文献   

2.
WindowsNT环境下的进程检查点设置与回卷恢复   总被引:6,自引:0,他引:6  
阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。  相似文献   

3.
工作站群机系统已成为分布式并行处理发展的主流方向之一。随着群机系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高。设计高可靠的群机系统,需要着重研究其系统容错技术。本文主要论述Linux群机分布式系统进程的容错和恢复。重点讲述用户层中的检查点设置、卷回和进程迁移关键技术。  相似文献   

4.
柳颖  陈道蓄  谢立  曹建农 《软件学报》2000,11(2):235-239
扩充的面向图结构的分布式程序设计模型(extended graph-oriented model,简称ExGOM)提供了一个支持动态配置的系统框架.系统的动态配置包括系统运行时的伸缩、运行时的升级以及出现故障后的重配置.故障后的重配置所涉及的问题之一是如何恢复系统原状态,该文着重就此问题进行了讨论,给出了基于故障敏感图的异步检查点回卷算法和故障恢复策略.该算法和策略考虑了在暂时性主机故障中单个主机上有多个故障进程的情况.与其他异步回卷及故障恢复算法相比,该算法将故障区域局部化,仅对故障敏感节点进行回卷,从而有效地降低了系统开销.  相似文献   

5.
基于消息传递并行进程迁移技术的研究与实现   总被引:1,自引:0,他引:1  
高可用在并行计算环境中的地位日益突出.实现LAM/Migration扩展了LAM/MPI的进程迁移功能,可实现MPI整体任务在节,最之间的自由迁移,其迁移功能对应用程序透明,智能化程度高,并可应用于集群节点客错与负裁均衡,有效提高集群的可用性.  相似文献   

6.
Linux核外进程恢复可采用先产生原进程整体构架,再恢复断点信息的方法来实现。即用进程中断时的上下文结合相应的恢复代码,与原可执行文件一起产生一个新文件,使该文件在产生原进程整体构架后,就执行恢复代码,恢复出断点处的上下文,然后从断点处继续原来进程的执行。  相似文献   

7.
支持文件迁移的Linux检查点机制的实现   总被引:2,自引:2,他引:0       下载免费PDF全文
杨晖  陈闳中 《计算机工程》2010,36(3):266-268
在BLCR系统的基础上实现一种支持进程打开文件迁移的检查点机制,给出该机制的总体框架、关键技术、进程打开文件保存恢复、状态保存和恢复的流程。实验结果表明,该机制支持多线程、信号、进程打开文件及管道等的保存与恢复,无需重编译内核,对用户具有良好的透明性。  相似文献   

8.
为了解决分布式计算系统回卷恢复容错的验证评估问题,设计一种分布式计算系统的回卷恢复容错算法的仿真机制,依据分布式计算系统回卷恢复容错的总体架构,将分布式计算系统中的节点任务过程使用离散事件模拟,在网络系统仿真工具的应用层增加支持多任务回卷恢复容错仿真的模块,并设计用于回卷恢复容错仿真的结构、功能模块和系统参数设定。结果表明本文提出的仿真机制能够实现分布式计算系统的回卷恢复容错算法的模拟验证,为不同容错算法间对比、改进与优化提供参照。   相似文献   

9.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。  相似文献   

10.
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段。本文研究了全透明检查点系统Epckpt在系统Ⅴ共享内存方面的实现方法和不足,给出了自己的改进,从而更好地实现了系统Ⅴ共享内存的保存与恢复。  相似文献   

11.
分布式系统故障卷回恢复技术研究与实践   总被引:1,自引:0,他引:1       下载免费PDF全文
对时间要求苛刻的系统对可靠性的要求愈来愈高,尤其是在一些至关重要的领域如国防、航天技术等。本文介绍了分布式系统故障卷回恢复的关键技术。  相似文献   

12.
宋伟  杨学军 《软件学报》2011,22(9):2248-2262
针对事务存储系统机制下的容错问题,提出一种基于事务回退的事务存储系统的故障恢复方法.该方法利用事务存储系统自身的版本管理机制,避免了额外的检查点数据保存开销,从而实现了事务存储系统高效的故障恢复.通过对容错事务存储系统的隔离性证明了该方法的正确性.最后,使用包括4个SPLASH-2典型用例在内的5个测试程序对该方法进行了性能测试.实验结果表明,与经典的Checkpointing机制相比,该方法在避免了额外的检查点数据保存开销的同时,还具有较低的故障恢复开销.  相似文献   

13.
一种基于检查点的卷回恢复与进程迁移系统*   总被引:12,自引:2,他引:12  
ChaRM是一种并行程序后向故障恢复与进程迁移系统.它不仅实现了对工作站机群系统瞬时故障的恢复,而且通过检查点设置时的Mirror存储技术和进程迁移技术,实现了对机群系统结点永久故障的恢复,并支持系统软硬件的在线维护、处理机资源的排他/限时使用和动态负载平衡等功能.文章主要介绍ChaRM系统的检查点设置与回卷恢复、进程迁移等实现技术,并给出了部分性能评测结果.  相似文献   

14.
A common approach to fault-tolerant software DSM is to take checkpoints with message logging. Our remote logging has low overhead because each node saves the coherence-related data into the memory of a remote node through a high-speed system area network. For more lightweight fault-tolerant DSM, in this paper, we mainly focused on eliminating shared memory checkpointing during failure-free execution. Each node independently takes the checkpoints of execution states and non-shared data only. When a node fails, it regenerates its pages from the remote copies in live nodes. In order to efficiently reconstruct pages, we also introduced a XOR-diffing technique. The diff logs, which have been created by XOR operations during failure-free execution, can be applicable to any version of remote copies either backward or forward for recovery. Our scheme reduces the checkpointing overhead and also alleviates the imbalance in execution times among nodes due to independent checkpointing. This research is supported by KISTEP under the National Research Laboratory program.  相似文献   

15.
现有的回卷恢复容错技术存在同步约束和阻塞问题,其时间开销随系统节点规模的增大而剧增。为此,提出一种基于并发性发掘的低开销回卷恢复实现方法。利用消息传递附带跟踪消息依赖的策略解除消息日志中的同步约束,解析进程负载以发掘进程负载的并发性,构建进程负载并发执行的实现架构,采用数据缓存策略和多线程技术实现进程内部各负载的并发执行,以降低故障恢复开销。3个NASNPB2.3标准性能检测程序的实验结果表明,该方法可使检查点开销从0.63S、3.19S、1.21S分别降低到0.18S、O.67S、0.19S,日志开销率从13.4%、3.5%、18.3%分别降低到0.7%、0.1%、1.0%。  相似文献   

16.
GECISM中的回滚、备份与设障   总被引:1,自引:0,他引:1  
检查点技术用来对系统中正常运行的程序有效状态进行备份,当系统出现故障时,可以根据最近的检查点恢复当前失效的进程,减少计算的损失。由不同的代理构成的计算机免疫系统GECISM(GEneral Computer Immune System Model)是把生物免疫系统的机理用于计算机安全领域的一个产物。通过比较多种不同的检查点机制,选择利用缓冲回滚系统BRAS(Buffering RollbAck System)检查点机制实现GECISM中类TD代理功能,使系统回卷到以前洁净点状态。  相似文献   

17.
实时任务的超时完成将会导致灾难性后果,因此实时系统必须具备严格的实时性及可靠性保障.考虑实时系统的容错需求,本文基于回卷恢复模型,对容错实时系统的可调度性分析进行研究.在基于任务最环响应时间的可调度性分析方法中,容错优先级配置是决定系统可调度性的关键.为了改进系统的可调度性,提出一种容错优先级可降低的配置策略,并推导出此策略下任务最坏响应时间的计算公式,以判断系统的可调度性.降低策略下低优先级任务可挪用高优先级任务的空闲时间来满足自身的截止时限要求.仿真实验表明,降低任务的容错优先级可以有效提升系统的容错能力.  相似文献   

18.
耿技  陈非  聂鹏  陈伟  秦志光 《计算机应用》2012,32(10):2748-2751
基于检查点的协同式回滚恢复机制是一种针对分布式系统生存性保障的有效机制,现有分布式系统中基于检查点的回滚恢复机制以分布式信道可靠作为假设前提,而实际应用场景中,该假设并不总是成立。针对分布式系统实际的应用环境,提出了适用于信道不可靠的分布式计算环境的协同式系统生存性保障模型。该模型在保留检查点回滚恢复机制优点的基础上,通过建立冗余通信链路和进程迁移来保障不可靠通信信道环境下分布式系统的生存性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号