期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于检查点的卷回恢复与进程迁移系统^* 总被引：12，自引：2，他引：12

汪东升沈美明郑纬民裴丹《软件学报》1999,10(1):68-73

ChaRM是一种并行程序后向故障恢复与进程迁移系统.它不仅实现了对工作站机群系统瞬时故障的恢复,而且通过检查点设置时的Mirror存储技术和进程迁移技术,实现了对机群系统结点永久故障的恢复,并支持系统软硬件的在线维护、处理机资源的排他/限时使用和动态负载平衡等功能.文章主要介绍ChaRM系统的检查点设置与回卷恢复、进程迁移等实现技术,并给出了部分性能评测结果. 相似文献

2.

Unix进程检查点设置关键技术 总被引：4，自引：0，他引：4

王春露汪东升《计算机工程与应用》2002,38(1):90-93,136

Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。相似文献

3.

进程检查点技术的改进

周国峰谢长生姚杰《计算机工程与科学》2004,26(12):88-90

本文提出了基于服务组的多进程检查点的实现方案,采用了一种动态的检查点时间间隔调整机制,从而减小了检查点文件对应用进程的影响。HACheckpointer检查点软件是正在开发的基于iSCSI存储网络的高可用性系统iHA的核心组成部分。相似文献

4.

利用检查点机制在PVM中实现进程迁移 总被引：5，自引：0，他引：5

下载免费PDF全文

鞠九滨魏晓辉郭雷《软件学报》1996,7(3):175-179

本文通过对ＰＶＭ进程通信机制进行修改及引入Ｃｏｎｄｏｒ的检查点机制，实现了对ＰＶＭ用户进程的迁移．相似文献

5.

关于检查点机制实现核外进程恢复的研究

王芳《计算机光盘软件与应用》2013,(7)

本文从分析国内外进程迁移研究现状入手,介绍了UNIX系统中普遍使用的程序的存储格式ELF文件格式,并对进程上下文做了简单介绍。相似文献

6.

Linux中核外进程恢复的策略和实现

王芳《数字社区&智能家居》2013,(5):1147-1148

Linux核外进程恢复可采用先产生原进程整体构架,再恢复断点信息的方法来实现。即用进程中断时的上下文结合相应的恢复代码,与原可执行文件一起产生一个新文件,使该文件在产生原进程整体构架后,就执行恢复代码,恢复出断点处的上下文,然后从断点处继续原来进程的执行。相似文献

7.

双机容错系统中最佳检查点间隔的分析 总被引：2，自引：0，他引：2

下载免费PDF全文

鄢喜爱杨金民田华《计算机工程》2007,33(5):283-285

设置检查点是容错计算机系统进行故障恢复的重要手段。因为检查点间隔选择过大或过小都将使系统性能受到影响，所以检查点间隔的适当选定是系统性能优化的一个重要指标。该文针对双机容错系统，采用检查点设置与回卷恢复的方法提出了一种系统模型，利用马尔科夫链得到了最佳检查点间隔的求解等式，通过实验证实了求解等式的正确性。相似文献

8.

Minix进程检查点机制的实现 总被引：1，自引：0，他引：1

李毅周明天《计算机应用》2003,23(1):13-14,17

通过将进程用户栈和核心上下文数据存入数据段，可把与检查点有关的进程上下文简化为用户级寄存器上下文和用户数据段。检查点机制的状态检查操作就是将进程在该运行时刻的用户级寄存器上下文和用户数据段保存到检查点文件中，状态操作是状态检查的递操作，文章给出了Minix进程检查点机制的核外实现技术，并对该实现技术作了适当的优化。相似文献

9.

网格环境中检查点技术的研究与实现

梁鸿曾科宏《计算机系统应用》2007,16(4):46-49

检查点机制作为一种软件容错机制,将其与网格环境相结合,提高网格计算的服务质量。更好地满足网格系统的要求。本文研究了如何面向网格应用实现检查点设置,使网格环境能够在某个计算结点发生故障后。将相关进程恢复到故障前的检查状态,从该检查点处继续执行,避免重新执行整个任务,节省了大量重复计算时间,实现了容错服务。相似文献

10.

支持文件迁移的Linux检查点机制的实现 总被引：2，自引：2，他引：0

下载免费PDF全文

杨晖陈闳中《计算机工程》2010,36(3):266-268

在BLCR系统的基础上实现一种支持进程打开文件迁移的检查点机制,给出该机制的总体框架、关键技术、进程打开文件保存恢复、状态保存和恢复的流程。实验结果表明,该机制支持多线程、信号、进程打开文件及管道等的保存与恢复,无需重编译内核,对用户具有良好的透明性。相似文献

11.

基于统一存储网的高可用集群系统的研究 总被引：6，自引：5，他引：1

吴振宇谢长生《计算机工程与设计》2004,25(9):1425-1426,1437

近年来网络存储技术有了很大的发展,但是保证网络存储的高可用性是一个经常要面临的问题。研究了一个基于统一存储网的高可用集群系统,给出了系统的体系结构,并详细说明了高可用系统软件的设计和实现,最后给出了系统软件测试结果。测试结果表明,该系统对网络存储的高可用性起到了很好的保障作用。相似文献

12.

可靠的分布式系统生存性保障模型

耿技陈非聂鹏陈伟秦志光《计算机应用》2012,32(10):2748-2751

基于检查点的协同式回滚恢复机制是一种针对分布式系统生存性保障的有效机制,现有分布式系统中基于检查点的回滚恢复机制以分布式信道可靠作为假设前提,而实际应用场景中,该假设并不总是成立。针对分布式系统实际的应用环境,提出了适用于信道不可靠的分布式计算环境的协同式系统生存性保障模型。该模型在保留检查点回滚恢复机制优点的基础上,通过建立冗余通信链路和进程迁移来保障不可靠通信信道环境下分布式系统的生存性。相似文献

13.

防火墙集群系统的研究与实现

刘海韬彭智朝周忠华《电脑与信息技术》2006,14(6):50-53

传统防火墙是在单点将内网接入外网，它会因单点失效而成为网络的瓶颈，降低网络的可用性。防火墙集群能够提高防火墙的高可用性。文章阐述了防火墙集群的必要性和方式，提出了负载均衡算法的设计思路和方法，以及防火墙集群系统的容错方法。相似文献

14.

基于机群架构的并行数据库实现技术研究 总被引：1，自引：1，他引：0

柳锴唐雨新张云泉李玉成《计算机工程与设计》2008,29(3):526-529,646

在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型.通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了.半重写变换"模型存在的缺陷,并提出了一种混合式的改进模型.从理论上说,在机群架构下实现并行数据库系统,这种混合模型较单一模型更有优势. 相似文献

15.

一种新的文件系统元数据的检查点容错策略 总被引：3，自引：2，他引：1

秦航徐婕《计算机工程与设计》2004,25(3):334-336,373

针对目前在集群文件系统中出现的元数据的故障问题,在PVFS的基础上提出了一种新的元数据检查点的日志管理策略。该策略在Linux环境下实现,解决了文件系统中较慢的元数据管理这一瓶颈问题,并且具备了较强的容错功能。该方法采用磁盘日志和内存日志的结构,通过对事务的管理,能满足集群文件系统中元数据高可用性的要求。相似文献

16.

WindowsNT环境下的进程检查点设置与回卷恢复 总被引：6，自引：0，他引：6

张悠慧汪东升郑纬民《计算机研究与发展》2001,38(1):50-55

阐述了WindowsNT环境下应用程序的检查点设置与回卷恢复机制,并介绍了设计和实现的检查点设置与恢复工具WinNTCkp.WinNTCkpt采用标准WindowsAPI函数,通过代码动态注入和对系统调用进行包裹的方法进行检查点设置与回卷恢复。与同类工具相比,WinNTCkpt具有不需修改应用程序源代码,不需对应用程序进行重新编译或连接,支持对用户文件内容的检查设置与回卷恢复的特点。WinNTCkpt是正在研制开发的高可用性机群计算环境的核心,也是在机群环境下实现进程迁移和负载平衡的技术基础。相似文献

17.

超步透导的回卷恢复

丁俊童维勤《小型微型计算机系统》2002,23(6):731-735

工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术相似文献

18.

A survey and review of the current state of rollback‐recovery for cluster systems

Andrew Maloney Andrzej Goscinski 《Concurrency and Computation》2009,21(12):1632-1666

A variety of research problems exist that require considerable time and computational resources to solve. Attempting to solve these problems produces long‐running applications that require a reliable and trustworthy system upon which they can be executed. Cluster systems provide an excellent environment upon which to run these applications because of their low cost to performance ratio; however, due to being created using commodity components they are prone to failures. This report surveyed and reviewed the issues currently relating to providing fault tolerance for long‐running applications. Several fault tolerance approaches were investigated; however, it was found that rollback‐recovery provides a favourable approach for user applications in cluster systems. Two facilities are required to provide fault tolerance using rollback‐recovery: checkpointing and recovery. It was shown here that a multitude of work has been done for enhancing checkpointing; however, the intricacies of providing recovery have been neglected. The problems associated with providing recovery include; providing transparent and autonomic recovery, selecting appropriate recovery computers, and maintaining a consistent observable behaviour when an application fails. Copyright © 2009 John Wiley & Sons, Ltd. 相似文献

19.

一种异地灾难恢复系统的设计与实现

王玮刘晓洁李涛沙金川项京《计算机应用研究》2007,24(9):106-108

设计并实现了一种异地灾难恢复系统.该系统集灾难恢复和数据一致性检测于一体,能在灾难发生后及时快速地恢复系统数据,具有很高的灾难恢复效率,支持多种操作系统和数据库,并提供Web管理与监控,易于系统管理和维护. 相似文献

20.

通用无共享数据库集群研究与实现

下载免费PDF全文

周英飚《计算机工程与应用》2007,43(32):156-160

数据库集群是提高数据库系统事务吞吐率,降低响应时间的有效机制。研究并实现了一种通用的无共享的数据库集群,集群由异构的节点数据库组成。系统支持水平数据划分和数据复制,系统具有性价比高,可扩展性好等特点。相似文献