首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
处理器容错技术研究与展望   总被引:3,自引:1,他引:3  
随着生产工艺的进步和硅形体尺寸的缩小,计算机系统面临着前所未有的瞬态故障影响,可信计算已经成为桌面级和嵌入式系统设计和应用的热点,其中以处理器的可信设计为核心.首先,从容错技术角度对处理器提出了一种新颖的、比较全面的分类方法;在此基础上,以处理器容错技术发展趋势为线索,对目前流行的处理器结构、微结构的容错机制和容错技术以及不同层次上有代表性的最新研究成果做了介绍和分析;最后,对处理器容错技术研究新趋势及其发展方向提出了意见和建议.  相似文献   

2.
基于容错技术的处理器设计   总被引:1,自引:0,他引:1  
如何提升处理器本身的容错性能,使其能够更好地应用于各种复杂多变的环境,已经成为当前研究的热点;对于这一问题,可以将故障屏蔽技术(三模块冗余,校正器)和故障恢复技术(多数表决恢复,检查点)综合应用到处理器的容错设计中;以VHDL代码实现的8051处理器为研究对象,综合采用上述方法设计容错处理器,并在仿真环境下采用故障注入的方法对其容错性能进行测试和验证;研究表明采用这些技术可以构造具有良好可信性和稳定性的容错处理器。  相似文献   

3.
随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行效率的同时不带来较大的芯片功耗和面积开销.在一款自主众核处理器DFMC(deeply fused and heterogeneous many-core)原型基础上,根据核心上运行的应用程序是否具有关联性特征,提出并实现了面向众核处理器的独立和协同2种轻量级错误恢复技术.其中,协同恢复技术由集中部件进行管理,通过协同恢复总线互连,出错时将与错误相关联的多个核心快速回卷到正确状态.2种错误恢复技术中,保留和恢复过程均通过定制的指令实现,恢复所需要的信息保留在运算核心内部,以保证对课题性能的影响最小化.实验表明,通过上述技术只增加了1.257%的芯片面积,可解决自主众核处理器约80%的瞬时错误,且对课题性能、芯片时序和功耗影响很小,可有效地提高众核处理器的容错能力.  相似文献   

4.
如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以静态电路和标准单元设计为主的ASIC设计方法对处理器功耗带来的影响.由此,结合一款高性能、低功耗通用处理器--龙芯2号的具体实现,对其设计特点和功耗特性进行分析,实现了以龙芯2号处理器为基本研究对象的结构级功耗评估方法.该评估方法充分考虑了CMOS静态电路的结构级功耗刻画方法,因此更加适合目前以ASIC设计方法为主的高性能处理器结构的功耗评估.该结构级功耗评估方法与RTL级的功耗评估方法相比,具有速度快和灵活性好的优点.在2.4GHz的Intel Xeon上,该功耗评估方法的速度约为300K/s,是RTL级的评估方法的5000倍,而且误差很小.  相似文献   

5.
商用现货型FPGA被认为是解决目前空间应用对处理能力需求不断增加的唯一途径,由于其对多比特翻转的敏感性,需要针对空间应用的单粒子效应采取专门的设计加固技术。提出了基于用户逻辑层、配置存储器层和控制层3个层级的容错技术框架。在用户逻辑层,提出了一种新型的低开销的FTR策略用于用户逻辑的错误检测;在配置存储器级,提出了基于模块和帧的动态部分可重构策略用于处理配置存储器的错误;在控制级,以Xilinx ZYNQ片上系统型FPGA为目标,利用其嵌入的硬核处理器进行基于检查点和卷回体制的电路状态保存和恢复。整个容错技术框架在7级流水的LEON3开源器处理器中进行了故障注入的试验验证,试验结果显示在增加85%的LUT资源和125%的触发器资源使用条件下,99.997%注入的故障得到了及时纠正。  相似文献   

6.
一种基于扩展数据流分析的OpenMP程序应用级检查点机制   总被引:1,自引:0,他引:1  
随着多核处理器体系结构在高性能计算领域日益广泛的应用,面向共享存储并行程序的容错问题成为研究的热点.近年来,检查点技术已经成为该领域占主导地位的容错机制.目前已有一些针对OpenMP程序检查点技术的研究工作,但其中绝大多数解决方案都依赖于特殊的运行时库或硬件平台.该文提出一种编译辅助的OpenMP应用级检查点,它是一种平台无关的方案,通过面向OpenMP的扩展数据流分析选择那些"必需"的变量保存到检查点映像,从而降低容错的开销,同时通过运行一种非阻塞式的协议维护检查点的全局一致性.文章讨论了该机制的各个关键问题,并通过实验评测以及与同类工作的比较,表明了该文所提出的检查点机制在容错性能方面的优势.  相似文献   

7.
通过融合COTS技术和传统容错技术设计实现了一种高性能、高可靠的容错服务器,该服务器基于成熟的软硬件,开放性好,容错对用户透明,成本低,扩展能力强。该文详细介绍了服务器的体系结构、工作模型、容错机制及其前向故障恢复技术。  相似文献   

8.
随着计算机技术的不断发展,高性能容错计算机已经在现代商业中得到了广泛应用。高性能容错计算机的出现,能够对故障检测、故障隔离、故障恢复进行高效处理。但目前计算机故障管理技术在很多环节上还存在着一定的不足之处,这一点给未来高性能容错计算机的发展带来了一定的阻碍。本文从计算机硬件设备故障管理的基本概念出发,对故障管理系统结构进行了分析,并简单研究了层次化故障管理框架。  相似文献   

9.
Checkpointing是高性能计算领域最常用的容错技术.但是,当处理器数目变大时,这种技术的性能迅速恶化.提出一种在并行计算中容忍单进程故障的新方法:并行复算.这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错.还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序.最后通过实验对该方法进行评估.结果显示,当处理器数目变大时,并行复算的开销低于checkpointing,其优化方法能提供优于并行复算的性能.  相似文献   

10.
在E级超级计算机发展过程中系统可靠性问题得到人们高度关注,因此,本文介绍了基于故障预测的数据采集框架,重点探讨了E级超级计算机故障预测的数据采集方法. 引言 随着科学技术的发展,人们对计算机的要求不断提高,随之出现了超级计算机,如:E级超级计算机,其部件多达数十万,为了避免故障出现,实践中常选用检查点技术,但因其保存与恢复开销较大,未能适应实际发展需求.目前,高性能计算容错方式主要两种,一种为被动容错,即:检查点技术,另一种为主动容错,即:低开销保护性技术,主要是指预测故障,提前迁移或复制进程.当前,常见的主动容错法有基于模型或数据驱动的故障预测,前者可用于小规模系统,后者适用于大规模系统,其实现的关键为获得系统故障有关数据,从而保证了预测精准性与合理性.  相似文献   

11.
大规模并行处理机系统中寻径算法对互连网络的通信性能和系统性能起着至关重要的作用,而star互连网络作为超立方体网络的最好替代之一,其寻径问题的解决变得非常重要。在有条件的容错模型基础上,对寻径时的规则进行了研究,提出了一种基于自适应规则的容错寻径算法。对算法的正确性以及容错性进行了分析。经仿真实验证明了该算法具有较高的成功概率。在边失效独立的情况下,对star网络终端对间通信可靠性进行了分析,推导出了其约束下界,并给予了证明。  相似文献   

12.
计算机系统容错技术研究   总被引:2,自引:1,他引:1  
针对计算机系统中软、硬件可靠性问题的不同特点,讨论容错技术的最新发展现状,分析计算机系统中的各种容错方法,包括传统的冗余设计、错误回卷恢复机制以及当前研究较多的一般化容错设计方法等,研究目前已有的一些容错方法在反应延迟、容错成本、精确量化、异构同步、可靠性建模等方面存在的缺陷以及待解决关键问题,并对如何进一步更好地完善和使用这些容错方法进行总结。  相似文献   

13.
芯片级系统的在线测试技术   总被引:1,自引:1,他引:0  
在线测试是基本容错技术之一.把在线测试技术概括为差错控制码、重复与比较、在线监督等3类,对其发展历史进行了回顾,重点是20世纪90年代以来的成果,包括芯片设计方案、原型及产品.研究结果表明,在线测试技术已经融入了高性能处理机芯片的设计之中.  相似文献   

14.
Fault-tolerant computing: fundamental concepts   总被引:2,自引:0,他引:2  
Nelson  V.P. 《Computer》1990,23(7):19-25
The basic concepts of fault-tolerant computing are reviewed, focusing on hardware. Failures, faults, and errors in digital systems are examined, and measures of dependability, which dictate and evaluate fault-tolerance strategies for different classes of applications, are defined. The elements of fault-tolerance strategies are identified, and various strategies are reviewed. They are: error detection, masking, and correction; error detection and correction codes; self-checking logic; module replication for error detection and masking; protocol and timing checks; fault containment; reconfiguration and repair; and system recovery  相似文献   

15.
Fault-tolerant systems have found wide applications in military,industrial and commercial areas.Most of these systems are constructed by multiple-modular redundancy or error control coding techniques,They need some fault-tolerant specific components (such as voter,switcher,encoder,or decoder) to implement error-detecting or error-correcting functions.However, the problem of error detection location or correction for fault-tolerance specific components them-selves has not been solved properly so far.Thus ,the dependability of a whole fault-tolerant system will be greatly affected.This paper presents a theory of robust fault-masking digital circuits for characterizing fault-tolerant systems with the ability of concurrent error location and a new scheme of dual-modular redundant systems with partially robust fault-masking prperty.A Basic robust fault-masking circuit is composed of a basic functional circuit and an error-locting corrector,Such a circuit not only has the ability of concurrent error correction,but also has the ability of concurrent error location.According to this circuit model ,for a partially robust fault-making dual-modular redundant system,two redundant modules based on alternating-complementary logic consist of the basic functional circuit.An error-correction specific circuit named as alternating-complementary corrector is used as the error-locating corrector.The performance(such as hardware complexity, time delay) of the scheme is analyzed.  相似文献   

16.
相联存储器是集成电路中对软错误最敏感的部件之一,但是其结构特点决定了不能使用错误保护码等传统容错方法进行保护。提出了一种容软错误的相联存储器结构TM CAM,通过采用三值匹配线机制和仔细设计的三值灵敏放大器,能够检测相联存储器中的任意一位错误,其结构简单高效。基于该结构,还提出了TM CAM的访问算法。实验表明,TM CAM能够以很小的开销有效地缓解相联存储器中的软错误问题。  相似文献   

17.
Homogeneous processor arrays are emerging in tera-scale computation and effective fault tolerance techniques are essential to improving the reliability of such complex integrated circuits. We study the degradable processor arrays to achieve fault tolerance by employing reconfiguration. Three bypass schemes and three rerouting schemes are proposed to reconfigure three-dimensional processor arrays with defective processors to achieve target arrays without faults. A heuristic algorithm is proposed to construct a target array on the selected rows and columns. It is also proved that the proposed greedy plane rerouting algorithm (GPR) produces maximum target array. In addition, the problem of constructing the communication efficient array is considered in this paper. An algorithm is proposed to refine the communication among processors within the target array constructed by GPR. Experimental study shows that the proposed algorithm GPR produces target arrays with higher harvest and lower degradation on the host arrays with fault density no more than 5%. In addition, the communication performance is significantly optimized by reducing the number of long interconnects, and the average improvement is about 34% for all cases considered in this paper.  相似文献   

18.
Radiation-induced single bit upsets (SBUs) and multi-bit upsets (MBUs) are more prominent in Field Programmable Gate Arrays (FPGAs) due to the presence of a large number of latches in the configuration memory (CM) of FPGAs. At the same time, SBUs and MBUs in the CM can permanently or temporarily affect the hardware circuit implemented on FPGA. Hence, error mitigation and recovery techniques are necessary to protect the FPGA hardware from permanent faults arising due to such SBUs and MBUs. Different existing techniques used to mitigate the effect of soft errors in FPGA have high overhead and their implementations are also quite complex. In this paper, we have proposed efficient single bit as well as multi-bit error correcting methods to correct errors in the CM of FPGAs using simple parity equations and Erasure code. These codes are easy to implement, and the needed decoding circuits are also simple. Use of Dynamic Partial Reconfiguration (DPR) along with a simple hardware scheduling algorithm based download manager helps to perform the error correction in the CM without suspending the operations of the other hardware blocks. We propose a first of its kind methodology for novel transient fault correction using efficient error correcting codes with hardware scheduling for FPGAs. To validate the design we have tested the proposed methodology with Kintex FPGA. We have also measured different parameters like fault recovery time, power consumption, resource overhead and error correction efficiency to estimate the performance of our proposed methods.  相似文献   

19.
宇宙射线辐射所导致的瞬态故障一直是航天计算面临的最主要挑战之一.而随着集成电路制造工艺的持续进步,现代处理器的性能在大幅度提高的同时,其可信性也正日益面临着瞬态故障的严重威胁.当前针对瞬态故障的容错技术可大致分为两类:基于硬件实现和基于软件实现.相比较前者,后者由于在实现成本和灵活性等方面的优势而备受关注.本文首先概述...  相似文献   

20.
集成电路制造工艺的飞速发展,使得集成电路的特征尺寸不断减少和集成度不断提高,造成集成电路对工作环境的影响越来越敏感,发生软错误的几率不断增加,对可靠性造成重要影响。随着微处理器进入了多核时代,丰富的片上资源给软错误加固带来了很好的机遇。本文针对多核处理器中I/O系统软错误,提出了一种基于多核处理器的软件Scrub方法对软错误进行加固。测试结果表明,我们提出的软错误容错方法可以大大提高I/O系统的可靠性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号