共查询到18条相似文献,搜索用时 62 毫秒
1.
工作站机群系统已成为分布式并行处理发展的主流方向之一,随着机群系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高,设计高可靠的群机系统,需要着重研究其系统容错技术,本文叙述了并行异构回卷恢复和检查点派生,实现透明的可移植容错和负载均衡能力,避免调整检查点就构成全局一致性状态,不仅使BSP应用程序自治容错能力,而且能够在机群(Clusters)间迁移,保持系统负载均衡,重点介绍了检查点设置,检查点派生、卷回、进程迁移技术。 相似文献
2.
WindowsNT环境下的进程检查点设置与回卷恢复 总被引:6,自引:0,他引:6
阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。 相似文献
3.
工作站群机系统已成为分布式并行处理发展的主流方向之一。随着群机系统应用领域的逐渐拓展和规模的不断扩大,人们对其可靠性的要求日益提高。设计高可靠的群机系统,需要着重研究其系统容错技术。本文主要论述Linux群机分布式系统进程的容错和恢复。重点讲述用户层中的检查点设置、卷回和进程迁移关键技术。 相似文献
4.
扩充的面向图结构的分布式程序设计模型(extended graph-oriented model,简称ExGOM)提供了一个支持动态配置的系统框架.系统的动态配置包括系统运行时的伸缩、运行时的升级以及出现故障后的重配置.故障后的重配置所涉及的问题之一是如何恢复系统原状态,该文着重就此问题进行了讨论,给出了基于故障敏感图的异步检查点回卷算法和故障恢复策略.该算法和策略考虑了在暂时性主机故障中单个主机上有多个故障进程的情况.与其他异步回卷及故障恢复算法相比,该算法将故障区域局部化,仅对故障敏感节点进行回卷,从而有效地降低了系统开销. 相似文献
5.
基于消息传递并行进程迁移技术的研究与实现 总被引:1,自引:0,他引:1
高可用在并行计算环境中的地位日益突出.实现LAM/Migration扩展了LAM/MPI的进程迁移功能,可实现MPI整体任务在节,最之间的自由迁移,其迁移功能对应用程序透明,智能化程度高,并可应用于集群节点客错与负裁均衡,有效提高集群的可用性. 相似文献
6.
王芳 《数字社区&智能家居》2013,(5):1147-1148
Linux核外进程恢复可采用先产生原进程整体构架,再恢复断点信息的方法来实现。即用进程中断时的上下文结合相应的恢复代码,与原可执行文件一起产生一个新文件,使该文件在产生原进程整体构架后,就执行恢复代码,恢复出断点处的上下文,然后从断点处继续原来进程的执行。 相似文献
7.
8.
为了解决分布式计算系统回卷恢复容错的验证评估问题,设计一种分布式计算系统的回卷恢复容错算法的仿真机制,依据分布式计算系统回卷恢复容错的总体架构,将分布式计算系统中的节点任务过程使用离散事件模拟,在网络系统仿真工具的应用层增加支持多任务回卷恢复容错仿真的模块,并设计用于回卷恢复容错仿真的结构、功能模块和系统参数设定。结果表明本文提出的仿真机制能够实现分布式计算系统的回卷恢复容错算法的模拟验证,为不同容错算法间对比、改进与优化提供参照。
相似文献
9.
MPI是广泛应用于集群系统的并行程序开发环境,MPI的容错是集群系统可靠性的关键问题。该文讨论了MPI标准中的容错,结合协调设置检查点和同步卷回等机制设计了基于检查点的卷回恢复系统MPIChaRR、该系统应用于Linux集群机,MPICH应用程序运行中的节点故障恢复是对用户透明的。 相似文献
10.
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段。本文研究了全透明检查点系统Epckpt在系统Ⅴ共享内存方面的实现方法和不足,给出了自己的改进,从而更好地实现了系统Ⅴ共享内存的保存与恢复。 相似文献
11.
对时间要求苛刻的系统对可靠性的要求愈来愈高,尤其是在一些至关重要的领域如国防、航天技术等。本文介绍了分布式系统故障卷回恢复的关键技术。 相似文献
12.
针对事务存储系统机制下的容错问题,提出一种基于事务回退的事务存储系统的故障恢复方法.该方法利用事务存储系统自身的版本管理机制,避免了额外的检查点数据保存开销,从而实现了事务存储系统高效的故障恢复.通过对容错事务存储系统的隔离性证明了该方法的正确性.最后,使用包括4个SPLASH-2典型用例在内的5个测试程序对该方法进行了性能测试.实验结果表明,与经典的Checkpointing机制相比,该方法在避免了额外的检查点数据保存开销的同时,还具有较低的故障恢复开销. 相似文献
13.
14.
A common approach to fault-tolerant software DSM is to take checkpoints with message logging. Our remote logging has low overhead
because each node saves the coherence-related data into the memory of a remote node through a high-speed system area network.
For more lightweight fault-tolerant DSM, in this paper, we mainly focused on eliminating shared memory checkpointing during
failure-free execution. Each node independently takes the checkpoints of execution states and non-shared data only. When a
node fails, it regenerates its pages from the remote copies in live nodes. In order to efficiently reconstruct pages, we also
introduced a XOR-diffing technique. The diff logs, which have been created by XOR operations during failure-free execution,
can be applicable to any version of remote copies either backward or forward for recovery. Our scheme reduces the checkpointing
overhead and also alleviates the imbalance in execution times among nodes due to independent checkpointing.
This research is supported by KISTEP under the National Research Laboratory program. 相似文献
15.
现有的回卷恢复容错技术存在同步约束和阻塞问题,其时间开销随系统节点规模的增大而剧增。为此,提出一种基于并发性发掘的低开销回卷恢复实现方法。利用消息传递附带跟踪消息依赖的策略解除消息日志中的同步约束,解析进程负载以发掘进程负载的并发性,构建进程负载并发执行的实现架构,采用数据缓存策略和多线程技术实现进程内部各负载的并发执行,以降低故障恢复开销。3个NASNPB2.3标准性能检测程序的实验结果表明,该方法可使检查点开销从0.63S、3.19S、1.21S分别降低到0.18S、O.67S、0.19S,日志开销率从13.4%、3.5%、18.3%分别降低到0.7%、0.1%、1.0%。 相似文献
16.
GECISM中的回滚、备份与设障 总被引:1,自引:0,他引:1
检查点技术用来对系统中正常运行的程序有效状态进行备份,当系统出现故障时,可以根据最近的检查点恢复当前失效的进程,减少计算的损失。由不同的代理构成的计算机免疫系统GECISM(GEneral Computer Immune System Model)是把生物免疫系统的机理用于计算机安全领域的一个产物。通过比较多种不同的检查点机制,选择利用缓冲回滚系统BRAS(Buffering RollbAck System)检查点机制实现GECISM中类TD代理功能,使系统回卷到以前洁净点状态。 相似文献
17.
实时任务的超时完成将会导致灾难性后果,因此实时系统必须具备严格的实时性及可靠性保障.考虑实时系统的容错需求,本文基于回卷恢复模型,对容错实时系统的可调度性分析进行研究.在基于任务最环响应时间的可调度性分析方法中,容错优先级配置是决定系统可调度性的关键.为了改进系统的可调度性,提出一种容错优先级可降低的配置策略,并推导出此策略下任务最坏响应时间的计算公式,以判断系统的可调度性.降低策略下低优先级任务可挪用高优先级任务的空闲时间来满足自身的截止时限要求.仿真实验表明,降低任务的容错优先级可以有效提升系统的容错能力. 相似文献