期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张小鸣李永新《计算机工程与设计》2008,29(4):873-874,900

针对传统数字电路系统冗余设计复杂、切换时间长、实现电路体积大等问题,提出一种双机热备容错逻辑控制电路的设计方案.使用VHDL语言设计、一片CPLD芯片实现工作微处理器系统的故障检测与主、备微处理器系统的实时切换等时序控制功能.时序仿真结果表明,该电路判断故障成功率高,切换时间短,可以满足强实时性嵌入式系统的双机热备冗余设计.在高可靠性的微机保护系统等应用场合,该硬件冗余设计方案具有工程设计指导意义. 相似文献

2.

双机容错系统

《Internet》2002,(10):83-84

双机容错系统是非常容易安装和管理的低成本、高可用性的全光纤集群解决方案。该方案设计是用来在两结点环境下为服务器提供失效自动切换功能。既可以实现基于SAN的全冗余，也可以实现低成本的JBOD直连，兼有低成本、易使用、简单管理和方便配置的特点。相似文献

3.

面向应用级的双机容错系统的设计与实现 总被引：2，自引：0，他引：2

谢长生胡兵全《计算机工程》2004,30(15):187-189

市场上存在的一些双机热备份容错系统由于系统监测容错软件本身存在出错的可能性，使得双机热备份系统的可靠性和安全性受到威胁。该文设计并实现的基于代理监测的双机热备份系统，由于容错软件采用4个互相监测和控制的并发进程的结构，解决了由于容错软件本身不稳定带来的安全隐患。相似文献

4.

双机容错系统FTDC的设计与实现 总被引：3，自引：0，他引：3

李凯原左德承《计算机工程》1999,25(8):61-62,71

给出了一种利用现有计算机和少量必要的硬件,以容错管理软件为主要手段实现的低成本双机容错系统,主要介绍了该机的容错设计、容错管理软件的实现以及关键技术等问题。相似文献

5.

Linux高可用集群心跳机制研究 总被引：7，自引：0，他引：7

谢斌高扬《计算机工程与应用》2004,40(1):65-67

心跳是高可用集群的重要技术,文章分析了两个Linux高可用集群的心跳机制,指出了两个高可用集群心跳机制实现的优点和不足之处,总结了它们在心跳机制实现上相同点。相似文献

6.

利用PC服务器实现双机容错系统

赵宇郭晓辉陈义《计算机应用与软件》2004,21(4):38-39,7

介绍一个利用低端PC服务器实现的双机容错系统,重点介绍其实现方法。相似文献

7.

几种双机高可用数据处理系统实现方案

罗旭梅《计算机与数字工程》1998,26(1):56-58,8

本文介绍了几种双机高可用数据处理系统的实现方案，阐述了各自的主要特征。相似文献

8.

双机双控容错系统的设计 总被引：1，自引：0，他引：1

欧阳珣《计算机系统应用》1999,8(6):11-12

一、引言近年来,随着计算机技术的飞速发展,服务器的性能有大幅度提高,服务器作为关键性事务的业务主机已经成为可能。对于要求有高可用性和高安全性的系统,比如银行系统,用户提出了容错的要求,为此根据市场的需要,我们推出了双机双控容错系统。用两台服务器共同工作,当一台服务器的系统出现故障时,另一台服务器可确保系统工作正常运行,从而将系统风险降低到最低程度,保障了系统的高可靠性,高安全性和高可用性。二、用户系统的要求银行系统是我国生产环节中的重要组成部分,庞大的业务网络为全国城乡的发展做出了巨大的贡献。各… 相似文献

9.

基于集群的某市医保系统服务器容错方案

徐署华江文李英林《微计算机信息》2007,23(30):282-283,174

为确保企业服务器提供可靠的、连续的、安全的服务，必须提高服务器系统容错能力。提出了基于双层集群的服务器解决方案．阐述了集群服务器的系统架构，最后结合实际项目，对以上方案的可行性进行了验证。相似文献

10.

基于 VxWorks 的高可用容错系统的设计与实现

孙锴慕德俊张慧翔《计算机技术与发展》2012,(4)

文中设计了一种容错系统,该系统是建立在应用程序层之下、操作系统层之上位置结构的中间件.系统由三模冗余与其之间的通信链路组成系统的硬件结构以及由故障检测模块(对节点的检测和对应用程序的检测)、故障处理模块所组成的软件部分构成.基于 VxWorks 实时操作系统,设计了一种高可用的容错中间件系统,分析了系统的组成原理,给出了基于心跳检测的故障检测机制和 N 版本编程方法进行故障检测,以及前向和后向任务恢复方法进行故障恢复,并实现了原型系统.试验表明:给出的容错中间件系统具备了基本的容错能力,可有效提高系统的可用性和可靠性相似文献

11.

一种基于Linux的高可用性服务器群集方案

李元民葛丽娜《微机发展》2004,14(3):55-56,82

文中提出一种以低档微机来实现高可用性群集的方案，该方案通过在多个服务器上安装Linux-HA群集软件包以及参数设定之后，实现了在高可用性群集上对校园网的管理，使得校园网能够高可靠性运行。与以往的同类群集方案相比，网络管理更简单、更低耗、更实用，性能更高。相似文献

12.

基于智能解析余度的容错飞控系统设计 总被引：2，自引：0，他引：2

刘小雄章卫国李广文《传感技术学报》2007,20(8):1912-1916

常规的解析余度容错方法容易受到不确定因素和随机干扰的影响,本文以飞行控制系统为研究对象,提出基于智能解析余度的容错飞行控制系统设计方案,使用径向基神经网络的在线学习和全局逼近的性能,建立飞行控制系统传感器之间的解析余度关系,利用不相同传感器之间的解析关系进行残差分析从而进行传感器的故障隔离与信号重构.这样有效地抑制了测量噪声和模型不确定性.应用某型飞机进行仿真,实现了传感器的在线故障隔离与重构,验证了该方法的有效性. 相似文献

13.

具有自适应性的star网络容错寻径策略研究

下载免费PDF全文

花仁杰梁家荣翁毅《计算机工程与应用》2011,47(4):105-108

大规模并行处理机系统中寻径算法对互连网络的通信性能和系统性能起着至关重要的作用,而star互连网络作为超立方体网络的最好替代之一,其寻径问题的解决变得非常重要。在有条件的容错模型基础上,对寻径时的规则进行了研究,提出了一种基于自适应规则的容错寻径算法。对算法的正确性以及容错性进行了分析。经仿真实验证明了该算法具有较高的成功概率。在边失效独立的情况下,对star网络终端对间通信可靠性进行了分析,推导出了其约束下界,并给予了证明。相似文献

14.

融合诊断中信息容错性的证据重构方法

梁伟光王永匡衡周建亮《控制理论与应用》2011,28(9):1049-1055

在基于证据理论的故障融合诊断过程中,错误的待融合信息会引起故障的漏诊.针对此类容错性问题,提出了一种证据重构方法,在已有的故障诊断识别框架的基础上,利用多传感器信号的方差计算信号的相对可靠程度,构造新的信度函数,对待融合证据进行了重新分配,以减少出错信息对融合结果的影响,同时对该方法中可调参数的选取原则进行了理论分析.融合诊断实验在隔振器硬件实验平台上进行,诊断对象为振动发散故障,针对的信息容错性问题为基础加速度信号断路情况.对比性实验及结果分析表明,采用该方法能够在单路信号传输出错的情况下及时诊断振动发散故障,增加了融合诊断系统的容错性. 相似文献

15.

Automated constraint-based addition of nonmasking and stabilizing fault-tolerance

F. Abujarad S.S. Kulkarni 《Theoretical computer science》2011,412(33):4228-4246

We focus on the constraint-based automated addition of nonmasking and stabilizing fault-tolerance to hierarchical programs. We specify legitimate states of the program in terms of constraints that should be satisfied in those states. To deal with faults that may violate these constraints, we add recovery actions while ensuring interference freedom among the recovery actions added for satisfying different constraints. Since the constraint-based manual design of fault-tolerance is well known, we expect our approach to have a significant benefit in automating the addition of fault-tolerance. We illustrate our algorithm with four case studies: stabilizing mutual exclusion, stabilizing diffusing computation, a data dissemination problem in sensor networks, and tree maintenance. With experimental results, we show that the complexity of our algorithm is reasonable and that it can be reduced using the structure of the hierarchical systems.We also reduced the time complexity of the synthesis using parallelism. We consider two approaches to speedup the synthesis algorithm: first, the use of the multiple constraints that have to be satisfied during synthesis; second, the use of the distributed nature of the programs being synthesized. We show that our approaches provide significant reduction in the synthesis time.To our knowledge, this is the first instance where automated synthesis has been successfully used in synthesizing programs that are correct under fairness assumptions. Moreover, in three of the case studies considered in this paper, the structure of the recovery paths is too complex to permit existing heuristic-based approaches for adding recovery. 相似文献

16.

Optimizing checkpoint-based fault-tolerance in distributed stream processing systems: Theory to practice

Sachini Jayasekara Shanika Karunasekera Aaron Harwood 《Software》2022,52(1):296-315

Fault-tolerance is an essential part of a stream processing system that guarantees data analysis could continue even after failures. State-of-the-art distributed stream processing systems use checkpointing to support fault-tolerance for stateful computations where the state of the computations is periodically persisted. However, the frequency of performing checkpoints impacts the performance (utilization, latency, and throughput) of the system as the checkpointing process consumes resources and time that can be used for actual computations. In practice, systems are often configured to perform checkpoints based on crude values ignoring factors such as checkpoint and restart costs, leading to suboptimal performance. In our previous work, we proposed a theoretical optimal checkpoint interval that maximizes the system utilization for stream processing systems to minimize the impact of checkpointing on system performance. In this article, we investigate the practical benefits of our proposed theoretical optimal by conducting experiments in a real-world cloud setting using different streaming applications; we use Apache Flink, a well-known stream processing system for our experiments. The experiment results demonstrate that an optimal interval can achieve better utilization, confirming the practicality of the theoretical model when applied to real-world applications. We observed utilization improvements from 10% to 200% for a range of failure rates from 0.3 failures per hour to 0.075 failures per minute. Moreover, we explore how performance measures: latency and throughput are affected by the optimal interval. Our observations demonstrate that significant improvements can be achieved using the optimal interval for both latency and throughput. 相似文献

17.

分布式存储中的纠删码容错技术研究

包涵王意洁《计算机研究与发展》2023,20(10):2418-2439

近年来,云数据中心故障频发,因而各大机构纷纷采用跨云数据中心多副本技术对数据进行容灾存储.与跨云数据中心多副本技术相比,跨云数据中心纠删码技术可靠性更高、冗余度更低. 但是,现有跨云数据中心纠删码技术无法同时满足低跨云数据中心修复流量、高编码参数适应性和高纠删码构造效率,因而尚未在生产系统中得到普遍应用. 提出一种低跨云数据中心修复流量的纠删码的快速构造方法(fast construction method of the erasure code with small cross-cloud data center repair traffic, FMEL),该方法可在不同编码参数下快速构造具有低跨云数据中心修复流量的纠删码. 具体而言,FMEL首先将纠删码修复组分布方案及用户指定的编码参数转换为定长特征向量,并基于支持向量机对各特征向量进行快速分类以检验其对应纠删码修复组分布方案和编码参数的匹配性——某特征向量属于正类表示其对应纠删码修复组分布方案与编码参数相匹配. 而后,FMEL用一种并行搜索算法从所有通过检验的纠删码修复组分布方案中选出平均跨云数据中心修复流量较小的一个方案,并用一种试错算法将其转换为具有低跨云数据中心修复流量的纠删码的生成矩阵. 跨云数据中心环境中的实验表明,与现有的可在不同编码参数下构造出能达到平均跨云数据中心修复流量下限的最优码的工作相比,FMEL可将纠删码构造用时缩短89%,且在大部分编码参数下,二者构造的纠删码的跨云数据中心修复流量相同. 此外,与其他几类常用纠删码相比,FMEL构造的纠删码可将跨云数据中心修复流量降低42.9%~56.0%.

相似文献

18.

A tutorial on Reed–Solomon coding for fault-tolerance in RAID-like systems

James S. Plank 《Software》1997,27(9):995-1012

It is well-known that Reed-Solomon codes may be used to provide error correction for multiple failures in RAID-like systems. The coding technique itself, however, is not as well-known. To the coding theorist, this technique is a straightforward extension to a basic coding paradigm and needs no special mention. However, to the systems programmer with no training in coding theory, the technique may be a mystery. Currently, there are no references that describe how to perform this coding that do not assume that the reader is already well-versed in algebra and coding theory. This paper is intended for the systems programmer. It presents a complete specification of the coding algorithm plus details on how it may be implemented. This specification assumes no prior knowledge of algebra or coding theory. The goal of this paper is for a systems programmer to be able to implement Reed-Solomon coding for reliability in RAID-like systems without needing to consult any external references. © 1997 John Wiley & Sons, Ltd. 相似文献

19.

实时操作系统CPU使用率监测的软件容错研究

王余伟曹东施书成《计算机工程与科学》2018,40(8):1337-1343

在硬件实时操作系统中,系统CPU的使用率是系统性能的一项重要指标,如果任务占据了系统的全部CPU,其它任务将无法继续运行,给系统带来灾难性后果。通过分析实时操作系统中软件运行的特点,系统设计需要采取一定容错策略,以提高系统可靠性和容错能力。在μC/ OS-Ⅱ实时操作系统下对飞行控制软件中的任务进行实时监测。首先给出在μC/ OS Ⅱ实时操作系统下CPU使用率的计算方法,合理提出CPU的监测周期。其次,给出对CPU使用率异常的故障检测算法,对故障进行故障处置,提高系统的容错能力。最后,通过在MPC5674飞行控制计算机中编写嵌入式飞行控制软件来验证四种对CPU使用率异常的处置方法。仿真结果表明,实时操作系统中CPU的软件容错方法可以有效提高系统可靠性和容错能力。相似文献

20.

嵌入式Web服务器的研究与设计 总被引：3，自引：1，他引：2

王怀德郭文川《计算机工程与设计》2008,29(10):2520-2522

嵌入式设备的网络化已成为目前嵌入式发展的一个重要方向和必然趋势.介绍了采用嵌入式实现高性能、高可靠性和低成本网络服务器的方法.在嵌入式芯片上,以uClinux操作系统为基础,进行了CS8900A网口芯片的驱动设计,TCP/IP协议族的设计,提出了构造嵌入式HTTP服务器的一种可行方案,并最终实现了嵌入式网络服务器.设计的嵌入式Web服务器将在远程数据采集、工业控制等领域有着广泛的应用前景. 相似文献