期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王伟成罗宇《计算机工程与科学》2011,33(3):51

星载计算机需要容错技术来满足在外太空运行的可靠性要求。目前的星载计算机多机系统通常设计为主从结构,集中于一个主节点上进行容错策略控制,这种结构存在着一点失效即瘫痪的隐患。为此,本文提出一种分布式架构下的星载并行容错计算机系统,将集中控制的容错部件分布化于各个节点之上,提高了系统的容错可靠性,在此架构上提出了计算节点、容错部件和I/O等容错策略,并给出了相应的模型及模拟测试结果,为进行类似项目的开发研究提供了有价值的指导和参考。相似文献

2.

面向分布式流体系结构的多副本积极容错技术

李鑫林宇斐郭晓威《计算机工程与科学》2015,37(12):2233-2241

随着互联网环境下计算系统规模的不断扩大,分布式流体系结构的可靠性问题面临着严峻的挑战。以多模冗余容错技术为基础,针对软错误提出了一种面向分布式流体系结构的多副本积极容错技术TREFT,利用三个程序副本进行高效的检错与纠错。在分布式流体系结构原型系统上的实验结果表明,该技术能有效提高系统的可靠性,具有较低的容错成本,平均增加10.77%的容错开销。相似文献

3.

TS-1．1小卫星星务计算机RAM纠检错电路的设计与实现 总被引：4，自引：0，他引：4

曲峰崔刚杨孝宗唐心悦《计算机工程与科学》2002,24(2):70-72

星载嵌入式容错计算机的可靠运行在很大程度上依赖于系统中存储模块的可靠设计。本文针对空间环境的故障形式，提出了采用EDAC（纠检错设计）技术对哈大工研制的TS－1．1小卫星存储模块进行设计的方法，介绍了利用纠检错处理芯片进行的对EDAC控制电路的优化设计，并可靠地实现了应用于TS－1．1卫星系统中的存储模块容错设计。相似文献

4.

可靠性公布式仿真时钟同步通信协议的研究与实现

刘逢清翁冠男《计算机应用研究》2000,17(4):25-27,30

针对硬件式冗余容错系统的可靠性测评问题,提出了分布式仿真的思想,基于该思想进行可靠性的评估和预测,提供了并行工作的优越性和灵活性,并重点介绍了分布式仿真系统设计中至关重要的时钟同步通信协议的设计与实现过程,包括分布式仿真的可靠性模型、时钟包的格式以及时钟同步算法等。相似文献

5.

可靠性分布式仿真时钟同步通信协议的研究与实现

刘逢清翁冠男王慧强黄少滨《计算机应用研究》2000,17(4):25-27

针对硬件式冗余容错系统的可靠性测评问题,提出了分布式仿真的思想;基于该思想进行可靠性的评估和预测,提供了并行工作的优越性和灵活性;并重点介绍了分布式仿真系统设计中至关重要的时钟同步通信协议的设计与实现过程,包括分布式仿真的可靠性模型、时钟包的格式以及时钟同步算法等。相似文献

6.

基于PTP的多节点微震数据同步采集技术研究

谢静庹先国毛小波荣文钲《计算机测量与控制》2015,23(9):3195-3198

为了同步微震监测系统中各分布式采集节点时钟和提高其精度,提出一种基于PTP(precision time protocol)时钟协议的微震数据同步采集设计方案。该方案将计算机时钟作为系统主时钟,以STM32为处理器,IP178CH为网卡驱动设计时钟分配器,并在其中植入PTP时钟协议,然后通过时钟分配器向网络中各采集节点周期性发送同步信号,最后通过时间偏差和网络延迟时间对每个节点的RTC时钟进行校准,使其与主时钟保持一致,从而实现了节点数据同步采集,其时钟同步精度达到了μs级。 相似文献

7.

基于RTLinux/Linux的容错计算机联锁控制系统设计与实现 总被引：1，自引：0，他引：1

董昱郑丽英李敬文王海龙《计算机测量与控制》2005,13(2):145-147

计算机联锁控制系统作为车站关键基础信号设备，不仅要具有高度的安全性、可靠性、实时性、可维护性、可用性，强大、快速的处理能力以及良好的可扩展性，还应具有良好的性能价格比。基于RTLinux／Linux的容错计算机联锁系统采用软硬件多级混合容错技术，确保系统可靠性和安全性的实现；利用RTLinux的实时多任务处理能力，提供系统在分布式环境下实时通信能力；利用源代码公开的特点，保证系统具有良好的可扩展性及良好的性能价格比。相似文献

8.

超步透导的回卷恢复

丁俊童维勤《小型微型计算机系统》2002,23(6):731-735

工作站机群系统已成为分布式并行处理发展的主流方向之一 .随着机群系统应用领域的逐渐拓展和规模的不断扩大 ,人们对其可靠性的要求日益提高 .设计高可靠的群机系统 ,需要着重研究其系统容错技术 .本文叙述了并行异构环境回卷恢复和检查点派生 .实现透明的可移植容错和负载均衡能力 .避免调整检查点就可以构成全局一致性状态 .不仅使 BSP应用程序自治容错能力 ,而且能够在机群 (Clusters)间迁移 ,保持系统负载均衡 .重点介绍检查点设置、检查点派生、卷回、进程迁移技术相似文献

9.

通用并行与分布式计算机联机监测系统 OM的设计与实现

李伟彭澄廉吴百锋赵立勇秦怀阳王海洪《计算机工程》1998,24(12):56-58

监测技术对并行与分布式计算机的性能评估及调试都是至关重要的。联机监测是在采集数据的同时进行观察分析，可以监机器及其软件的内部动态行为，提高性能评估及调试的效率。ＯＭ是一种通用并行与分布式计算机联机监测系统，它采用自行设计的ＴＡＢ描述语言来实现其通用性。介绍了ＯＭ的设计、实现及其在华北计算机所ＭＰＰ机的应用实践。相似文献

10.

分布并行系统的并行程序设计环境 总被引：1，自引：0，他引：1

温钰洪沈美明《小型微型计算机系统》1995,16(2):40-44

分布式并行计算机系统中，由于没有共享内存以支持处理机间的数据交换，因而需采用ｍｅｓｓａｇｅｐａｓｓｉｎｇ的方式实现并行计算中处理机间的数据通讯，并行程序设计环境作为程序员使用并行计算机系统工具，对于并行处理技术以及并行计算机系统的发展与推广应用都有重要的作用，本文将分布基于ｍｅｓｓａｇｅｐａｓｓｉｎｇ的并行计算机系统中的并行程序设计环境的基本问题，并介绍几种典型的并行程序设计环境。相似文献

11.

并行分布式计算机样机的监测测试

彭澄廉吴百锋李伟王海洪《计算机学报》1999,22(8):840-844

介绍了一个基于联机实时监测的方案,它采用了作者研制的ＭＳ－１监测系统。该系统是一个具有同步实时时钟的分布式监测系统,采用事件驱动的软硬件混合监测方式,联机实时监测软件ＯＭ把监测系统的控制与监测数据的采集和观测分析结合起来,完成了联机监测与分析,用来及时提供系统的内部状态信息和动态行为。相似文献

12.

并行和分布式计算机监测系统的实现原理 总被引：10，自引：2，他引：10

吴百锋彭澄廉赵立勇《计算机学报》1998,21(4):296-301

通用分布式监测系统ＭＳ－１是一种面向并行和分布式计算机系统而设计的行为监测和分析系统。它基于事件驱动的监测原理，并采用软硬件混合实现方式和扩充插ＰＣ机联网的分布式结构。相似文献

13.

Building a global clock for observing computations in distributed memory parallel computers

Jean-Marc Jzquel Claude Jard 《Concurrency and Computation》1996,8(1):71-89

A common time reference (i.e. global clock) is needed for observing the behavior of a distributed algorithm on a distributed computing system. The paper presents a pragmatic algorithm to build a global clock on any distributed system, which is optimal for homogeneous distributed memory parallel computers (DMPCs). In order to observe and sort concurrent events in common DMPCs, we need a global clock with a resolution finer than the message transfer time variance, which is better than what deterministic and fault-tolerant algorithms can obtain. Thus a statistical method is chosen as a building block to derive an original algorithm valid for any topology. Its main originality over related approaches is to cope with the problem of clock granularity in computing frequency offsets between local clocks to achieve a resolution comparable with the resolution of the physical clocks. This algorithm is particularly well suited for debugging distributed algorithms by means of trace recordings because after its acquisition step it does not induce message overhead: the perturbation induced on the execution remains as small as possible. It has been implemented on various DMPCs: Intel iPSC/2 hypercube and Paragon XP/S, Transputer-based networks and Sun networks, so we can provide some data about its behavior and performances on these DMPCs. 相似文献

14.

Approximate Query Answering Using Data Warehouse Striping

Jorge R. Bernardino Pedro S. Furtado Henrique C. Madeira 《Journal of Intelligent Information Systems》2002,19(2):145-167

This paper presents and evaluates a simple but very effective method to implement large data warehouses on an arbitrary number of computers, achieving very high query execution performance and scalability. The data is distributed and processed in a potentially large number of autonomous computers using our technique called data warehouse striping (DWS). The major problem of DWS technique is that it would require a very expensive cluster of computers with fault tolerant capabilities to prevent a fault in a single computer to stop the whole system. In this paper, we propose a radically different approach to deal with the problem of the unavailability of one or more computers in the cluster, allowing the use of DWS with a very large number of inexpensive computers. The proposed approach is based on approximate query answering techniques that make it possible to deliver an approximate answer to the user even when one or more computers in the cluster are not available. The evaluation presented in the paper shows both analytically and experimentally that the approximate results obtained this way have a very small error that can be negligible in most of the cases. 相似文献

15.

通用并行与分布式计算机联机监测系统OM的设计与实现

李伟彭澄廉吴百锋赵立勇秦怀阳王海洪《新电脑》1998,(6)

监测技术对并行与分布式计算机的性能评估及调试都是至关重要的。联机监测是在采集数据的同时进行观察分析，可以监视机器及其软件的内部动态行为，提高性能评估及调试的效率。OM是一种通用并行与分布式计算机联机监测系统，它采用自行设计的TAB描述语言来实现其通用性。介绍了OAI的设计、实现及其在华北计算所MPP机的应用实践。相似文献

16.

Communication Benchmarking and Performance Modelling of MPI Programs on Cluster Computers

D.?A.?Grove Email author P.?D.?Coddington 《The Journal of supercomputing》2005,34(2):201-217

This paper gives an overview of two related tools that we have developed to provide more accurate measurement and modelling of the performance of message-passing communication and application programs on distributed memory parallel computers. MPIBench uses a very precise, globally synchronised clock to measure the performance of MPI communication routines. It can generate probability distributions of communication times, not just the average values produced by other MPI benchmarks. This allows useful insights to be made into the MPI communication performance of parallel computers, and in particular how performance is affected by network contention. The Performance Evaluating Virtual Parallel Machine (PEVPM) provides a simple, fast and accurate technique for modelling and predicting the performance of message-passing parallel programs. It uses a virtual parallel machine to simulate the execution of the parallel program. The effects of network contention can be accurately modelled by sampling from the probability distributions generated by MPIBench. These tools are particularly useful on clusters with commodity Ethernet networks, where relatively high latencies, network congestion and TCP problems can significantly affect communication performance, which is difficult to model accurately using other tools. Experiments with example parallel programs demonstrate that PEVPM gives accurate performance predictions on commodity clusters. We also show that modelling communication performance using average times rather than sampling from probability distributions can give misleading results, particularly for programs running on a large number of processors. 相似文献

17.

计算机网络群组通信研究

白成杰白成林《计算机与网络》1999,(24)

计算机网络的发展使通过网络相连的计算机集合成为一个相互协调的统一整体,并为人类群体成员间的协作配合提供了新的工具。目前计算机网络中有关群组通信的研究十分活跃,是计算机网络研究的关键技术之一。群组通信为分布式文件系统、分布式数据库系统、并行计算、容借系统和计算机协同工作系统等各种分布式应用系统提供所需的通信服务。文中给出了群组通信的体系结构,并对群组通信中的点到多点通信、群同步等问题进行了研究。相似文献

18.

Parallel C语言级容错机制的设计与实现

下载免费PDF全文

何王全方燕飞魏迪董恩铭漆锋滨《计算机工程与应用》2018,54(17):41-49

大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。相似文献

19.

基于FPGA的故障修复演化技术研究

王洁康俊杰周宽久《计算机工程与科学》2018,40(12):2120-2125

演化硬件的自修复特性能够有效解决电路系统的可修复性故障,但演化硬件存在电路演化速度慢、演化成功率不高的缺陷,如何在修复约束期限内完成电路演化成为关键难点。提出一种基于演化硬件的实时系统容错架构,通过建立故障树实时监测电路故障,利用故障补偿机制维持系统正常运行,并采用演化硬件技术修复电路故障,实现故障的在线实时修复。采用FPGA构建容错系统测试环境,通过随机故障注入对比验证不同演化算法的自修复能力,实验结果表明,在实时性约束下故障电路的修复率达到95%,有效提升了系统的稳定性和可靠性。相似文献

20.

分布交互式仿真中的高性能时钟设计问题研究

薛芳侠姚益平谢虹闫了了《计算机仿真》2006,23(5):115-118

时空一致性是分布交互式仿真的关键问题,联网仿真的计算机之间的的时间同步必须达到一定的精度,而计算机的时钟分辨率是制约仿真系统时间同步精度的重要因素。在Windnws2000／NT操作系统下PC机系统时钟的分辨率较低,且时间漂移率较高,因此在使用PC机和Windows2000／NT操作系统的分布交互式仿真系统中,如果使用系统时钟,时间同步精度不可能很高,如果为每台PC机加装高性能外部时钟的话,不但会增加系统成本,而且也不利于系统扩展。该文提出了一种基于PC机性能计数器的高分辨率、低时间漂移时钟的设计方案,解决了分布交互式仿真系统基于PC机自身资源获取高性能时钟的问题。相似文献