共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
Unix进程检查点设置关键技术 总被引:4,自引:0,他引:4
Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。 相似文献
3.
本文提出了基于服务组的多进程检查点的实现方案,采用了一种动态的检查点时间间隔调整机制,从而减小了检查点文件对应用进程的影响。HACheckpointer检查点软件是正在开发的基于iSCSI存储网络的高可用性系统iHA的核心组成部分。 相似文献
4.
5.
6.
王芳 《数字社区&智能家居》2013,(5):1147-1148
Linux核外进程恢复可采用先产生原进程整体构架,再恢复断点信息的方法来实现。即用进程中断时的上下文结合相应的恢复代码,与原可执行文件一起产生一个新文件,使该文件在产生原进程整体构架后,就执行恢复代码,恢复出断点处的上下文,然后从断点处继续原来进程的执行。 相似文献
7.
8.
Minix进程检查点机制的实现 总被引:1,自引:0,他引:1
通过将进程用户栈和核心上下文数据存入数据段,可把与检查点有关的进程上下文简化为用户级寄存器上下文和用户数据段。检查点机制的状态检查操作就是将进程在该运行时刻的用户级寄存器上下文和用户数据段保存到检查点文件中,状态操作是状态检查的递操作,文章给出了Minix进程检查点机制的核外实现技术,并对该实现技术作了适当的优化。 相似文献
9.
检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。 相似文献
10.
11.
基于统一存储网的高可用集群系统的研究 总被引:6,自引:5,他引:1
近年来网络存储技术有了很大的发展,但是保证网络存储的高可用性是一个经常要面临的问题。研究了一个基于统一存储网的高可用集群系统,给出了系统的体系结构,并详细说明了高可用系统软件的设计和实现,最后给出了系统软件测试结果。测试结果表明,该系统对网络存储的高可用性起到了很好的保障作用。 相似文献
12.
13.
14.
基于机群架构的并行数据库实现技术研究 总被引:1,自引:1,他引:0
在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型.通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了.半重写变换"模型存在的缺陷,并提出了一种混合式的改进模型.从理论上说,在机群架构下实现并行数据库系统,这种混合模型较单一模型更有优势. 相似文献
15.
一种新的文件系统元数据的检查点容错策略 总被引:3,自引:2,他引:1
针对目前在集群文件系统中出现的元数据的故障问题,在PVFS的基础上提出了一种新的元数据检查点的日志管理策略。该策略在Linux环境下实现,解决了文件系统中较慢的元数据管理这一瓶颈问题,并且具备了较强的容错功能。该方法采用磁盘日志和内存日志的结构,通过对事务的管理,能满足集群文件系统中元数据高可用性的要求。 相似文献
16.
WindowsNT环境下的进程检查点设置与回卷恢复 总被引:6,自引:0,他引:6
阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。 相似文献
17.
工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术 相似文献
18.
A variety of research problems exist that require considerable time and computational resources to solve. Attempting to solve these problems produces long‐running applications that require a reliable and trustworthy system upon which they can be executed. Cluster systems provide an excellent environment upon which to run these applications because of their low cost to performance ratio; however, due to being created using commodity components they are prone to failures. This report surveyed and reviewed the issues currently relating to providing fault tolerance for long‐running applications. Several fault tolerance approaches were investigated; however, it was found that rollback‐recovery provides a favourable approach for user applications in cluster systems. Two facilities are required to provide fault tolerance using rollback‐recovery: checkpointing and recovery. It was shown here that a multitude of work has been done for enhancing checkpointing; however, the intricacies of providing recovery have been neglected. The problems associated with providing recovery include; providing transparent and autonomic recovery, selecting appropriate recovery computers, and maintaining a consistent observable behaviour when an application fails. Copyright © 2009 John Wiley & Sons, Ltd. 相似文献
19.
20.
周英飚 《计算机工程与应用》2007,43(32):156-160
数据库集群是提高数据库系统事务吞吐率,降低响应时间的有效机制。研究并实现了一种通用的无共享的数据库集群,集群由异构的节点数据库组成。系统支持水平数据划分和数据复制,系统具有性价比高,可扩展性好等特点。 相似文献