首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
谢延红 《计算机应用》2011,31(9):2563-2566
为了高效与方便地聚集异构环境下的网络资源,提出一种基于.NET的通用计算资源共享环境GCRSE。GCRSE在体系结构上利用了节点功能角色的方式,由服务器功能实体、自愿机功能实体和客户机功能实体组成。它利用.NET的Web services技术,通过网页的方式提交、执行与传输并行分布式应用相关的任务和子任务。在编程模型上支持普通的主—从模式的编程模式和具有子任务递归迭代的分治模式编程。自愿机端的心跳消息和面向子任务的容错方式可以达到可靠性高的效果。GCRSE的测试环境通过局域网内的若干台自愿机组成,选择了具有数据依赖的分布式旅行商(TSP)问题进行测试,结果表明对于分布式计算中大量的子任务GCRSE环境可以很快地完成,具有高效性、可扩展性和通用性的特点。  相似文献   

2.
描述了面向互联网的计算资源共享平台下的新型容错机制.该框架采用服务器端、调度节点,志愿机的层次网络体系结构,把调度节点的主-从备份容错与志愿机端的面向子任务的容错结合起来,保证了系统的最终计算结果不受影响.通过运行电力系统潮流计算的并行程序,对该系统的稳定性与可扩展性进行实验,小规模测试验证了该容错机制的正确性与高效性.  相似文献   

3.
目前人们已经提出了很多分布式互斥算法.为简化问题,这些算法多数要求假设系统的节点与通信均可靠,因此不存在容错处理问题.部分在先假定节点与通信可靠的基础上讨论的算法,为达到其结论的逻辑严密性,补充了节点与通信不可靠时的容错处理,但这些容错处理方式都是作为其分布式互斥算法的补充提出来的,有较大程度的理想化成分,基本上没用进行充分的性能分析.本文根据分布式互斥算法节点容错处理方式的不同,将其分为两类并对其时消息复杂度的影响进行详细讨论.在此基础上,提出一种混合的分布式互斥节点容错处理方法,以降低非稳定环境下分布式互斥算法的平均消息复杂度.  相似文献   

4.
王一拙  陈旭  计卫星  苏岩  王小军  石峰 《软件学报》2016,27(7):1789-1804
任务并行程序设计模型已成为并行程序设计的主流,其通过发掘任务并行性来提高并行计算机的系统性能.提出一种支持容错的任务并行程序设计模型,将容错技术融入到任务并行程序设计模型中,在保证性能的同时提高系统可靠性.该模型以任务为调度、执行、错误检测与恢复的基本单位,在应用级实现容错支持.采用一种Buffer-Commit计算模型支持瞬时错误的检测与恢复;采用应用级无盘检查点实现节点故障类型永久错误的恢复;采用一种支持容错的工作窃取任务调度策略获得动态负载均衡.实验结果表明,该模型以较低的性能开销提供了对硬件错误的容错支持.  相似文献   

5.
随着大数据和机器学习的火热发展,面向机器学习的分布式大数据计算引擎随之兴起.这些系统既可以支持批量的分布式学习,也可以支持流式的增量学习和验证,具有低延迟、高性能的特点.然而,当前的一些主流系统采用了随机的任务调度策略,忽略了节点的性能差异,因此容易导致负载不均和性能下降.同时,对于某些任务,如果资源要求不满足,则会导致调度失败.针对这些问题,提出了一种异构任务调度框架,能够保证任务的高效执行和被执行.具体来讲,该框架针对任务调度模块,围绕节点的异构计算资源,提出了概率随机的调度策略resource-Pick_kx和确定的平滑加权轮询算法.Resource-Pick_kx算法根据节点性能计算概率,进行概率随机调度,性能高的节点概率越大,任务调度到此节点的可能性就越高.平滑加权轮询算法在初始时根据节点性能设置权重,调度过程中平滑加权,使任务调度到当下性能最高的节点上.此外,对于资源不满足要求的任务场景,提出了基于容器的纵向扩容机制,自定义任务资源,创建节点加入集群,重新完成任务的调度.通过实验在benchmark和公开数据集上测试了框架的性能,相比于原有策略,该框架性能提升了10%-20...  相似文献   

6.
提出与描述了一个基于结构化对等网络的高效分布式任务调度策略HDTS(High-Efficient Distributed Task Scheduling)。HDTS建立在结构化对等网络的应用层覆盖网络上,保证了系统的非集中性、可扩展性、自组织性,以及规模大的优点。HDTS把基于Chord风格的对等网络协议和容错及高效的多播调度策略结合起来,允许分布式计算的各种大量的子任务在对等网络的节点上高效的调度、分配、执行。除了支持主-从风格的并行计算外,系统允许具有数据依赖的分布式旅行商算法正确的执行,使系统具有通用性和开放性。测试结果表明:HDTS具有正确性与高效性,可以作为对等网络上计算资源高效共享与聚集的可行方案。  相似文献   

7.
高性能计算和云计算的飞速发展对高性能互连网络的设计提出了越来越高的要求:除了要保证高带宽、低延迟和高可靠性等特性,还要面临成本和系统规模的挑战.该文针对这些特性和挑战提出了一种低开销的基于cHPP体系结构的超节点网络接口控制器:(1)设计了兼容PCIe的网络通信协议,降低协议转换开销、减少通信延迟并增强系统可扩展性能;(2)采用PCIe高速通信接口并支持用户级通信提高软硬件交互效率,面向MPI编程模型抽象出高效通信原语(如NAP、PUT和GET)加速大数据传输;(3)硬件支持I/O虚拟化实现超节点内对网络接口控制器的高效共享.为了对该文的设计进行功能和性能验证,文章基于FPGA实现了系统原型,实验结果显示最低延迟为1.242μs,有效数据带宽可达3.19 GB/s.  相似文献   

8.
实时容错分布式计算机系统   总被引:1,自引:0,他引:1  
王和平  赵根学 《计算机工程》2003,29(8):145-147,188
介绍了一个由3个节点通过FDD连接而成的实时容错分布式计算机系统。它的每个节点是一个多机容错操作系统,具有分布处理和实时计算能力,此外,它具有多级重构及实时文件管理功能,并为用户提供了良好的配置工具,方便用户对系统的使用和开发。  相似文献   

9.
分布式互斥是分布式系统的重要问题.根据树拓扑网络的特点,提出了新型的分布式互斥算法TNDME.算法的运行范围限制在根节点到请求节点之间,采用循径方法生成分布式互斥仲裁集;采用Lamport逻辑时戳保证消息的时序性;算法采用"最大残存树"探测方法进行系统的容错处理.描述了算法的模型、主要思想、数据结构、消息结构以及伪代码,并证明了算法的正确性.理论性能分析与仿真对比证明,算法具有较低的消息复杂度、较短的响应延迟以及较好的容错性能.  相似文献   

10.
综合航电开放式软件设计技术   总被引:2,自引:1,他引:1  
综合航电开放式软件设计技术是新一代航电系统支持平台机载实时容错分布式计算机系统的重点,它的设计直接或间接地关系到新一代综合航电系统的性能和成本.针对先进综合航电系统的特点、性能要求,对目前机载计算机软件系统存在的可靠性、安全性低,不易移植,成本高,层次分割不清晰,功能独立性差,对系统容错支持能力弱等缺陷,提出了"三层栈结构"的软件设计新思想,通过标准接口(物理接口和逻辑接口)使得层与层,模块与模块之间得以分开,实现了功能模块化、软硬件隔离性、软件的再利用性、可剪裁性、易维护性,以适应不断增长的航空电子系统任务能力需求,为新一代航电系统支持平台机载实时容错分布式计算机系统的开发、研制提供了可靠的保证.  相似文献   

11.
提出了因特网上基于节点角色的计算资源共享平台——RB-CRSP。设计时充分考虑节点的角色性和功能性,把因特网上的网络资源按照角色划分为服务器端节点、协调节点、工作机节点与客户机节点四类实体,通过配合RB-CRSP的应用编程模式,完成并行分布式计算。分析了RB-CRSP中的自适应资源调度策略,该策略考虑了节点的硬件信息与可信誉机制,实现了平台的负载均衡性;在动态的因特网环境下,利用面向工作机的容错方式保证了平台的可靠性。案例程序选择了典型的并行BenchMark程序:N皇后问题,测试结果表明,RB-CRSP可以方便聚集异构环境下的空闲计算资源,平台的性能与机器硬件条件和可靠性密切相关。  相似文献   

12.
拜占庭容错算法是一类能够容忍各种形式的软件错误和安全漏洞的容错算法,对云计算的可靠性保障有着重要意义.与其他容错算法相比,拜占庭容错算法稳定性更高,但是其性能表现低下,不能满足当前系统对高吞吐、低延时的需求.在网计算是一种以数据为中心的体系结构,它用网络承担部分计算功能,使数据在流动过程中获得处理,从而提高系统性能.为解决拜占庭容错系统的问题,提出了一种基于在网计算的拜占庭容忍共识算法优化方案,将算法的一部分处理任务卸载到网卡上执行,利用网卡和处理器形成的多级流水线提升系统吞吐量.由于仅使用在网计算的方案在特定场景下效果不佳,因此,使用多线程方法来提升优化方案的可扩展性.同时,对算法进行了详细的系统评测,实验结果表明:相对于普通的拜占庭容错系统,使用在网计算与多线程结合的优化方案能够获得46%的吞吐率提升以及65%的延迟下降,证明了基于在网计算的拜占庭容忍共识算法优化方案的可行性与有效性.  相似文献   

13.
基于对端重叠网络的通用大规模计算资源共享环境的构造   总被引:16,自引:1,他引:16  
大规模计算资源共享是网格计算和其它基于Internet的计算模式的首要目标之一 .作为计算网格的一个主要分支 ,自愿计算环境在大规模计算模式中正在扮演着越来越重要的角色 .目前的自愿计算环境大多是专用和集中控制的 ,因而存在着某些可用性和可扩展性的问题 .该文构造了一个通用和可扩展的自愿计算环境 :Paradrop per .该环境的可扩展性得益于一个自组织的对端重叠网络 ( peer to peeroverlaynetwork) ;通用性得益于统一的计算和任务描述手段以及建立在该网络之上的计算任务调度、容错机制和界面友好的使用平台 .该文首先对自愿计算的特点以及Paradropper计算平台做了简要介绍 ,然后重点阐述该环境下计算网络的构造和基于该网络的计算任务调度算法 ,对计算网络的若干特性 (诸如高聚合性和低搜索路径 )以及调度的效能进行了仿真分析 ,最后 ,通过若干示例应用对计算平台的功能进行了测试 .仿真结果说明 ,该文构造的计算网络表现出明显的自组织特性 ,具有较好的可扩展性和自组织能力 ,能为计算资源的调度提供很好的支持 .小规模测试结果初步说明 ,该文构造的计算环境为Internet环境下的单程序多数据 (SPMD)的易并行计算应用提供了一个可行的思路 .  相似文献   

14.
移动边缘计算(mobile edge computing, MEC)已逐渐成为有效缓解数据过载问题的手段, 而在高人流密集的场景中, 固定在基站上的边缘服务器可能会因网络过载而无法提供有效的服务. 考虑到时延敏感型的通信需求, 双层无人机(unmanned aerial vehicle, UAV)的高机动性和易部署性成为任务计算卸载的理想选择, 其中配备计算资源的顶层无人机(top-UAV, T-UAV)可以为抓拍现场画面的底层UAV (bottom-UAV, B-UAV)提供卸载服务. B-UAV搭载拍摄装置, 可以选择本地计算或将部分任务卸载给T-UAV进行计算. 文中构建了双层UAV辅助的MEC系统模型, 并提出了一种DDPG-CPER (deep deterministic policy gradient offloading algorithm based on composite prioritized experience replay)新型计算卸载算法. 该算法综合考虑了决策变量的连续性以及在T-UAV资源调度和机动性等约束条件下优化了任务执行时延, 提高了处理效率和响应速度, 以保证现场观众对比赛的实时观看体验. 仿真实验结果表明, 所提算法表现出了比DDPG等基线算法更快的收敛速度, 能够显著降低处理延迟.  相似文献   

15.
We present a new approach to fault tolerance for High Performance Computing system. Our approach is based on a careful adaptation of the Algorithm-Based Fault Tolerance technique [K. Huang, J. Abraham, Algorithm-based fault tolerance for matrix operations, IEEE Transactions on Computers (Spec. Issue Reliable & Fault-Tolerant Comp.) 33 (1984) 518–528] to the need of parallel distributed computation. We obtain a strongly scalable mechanism for fault tolerance. We can also detect and correct errors (bit-flip) on the fly of a computation. To assess the viability of our approach, we have developed a fault-tolerant matrix–matrix multiplication subroutine and we propose some models to predict its running time. Our parallel fault-tolerant matrix–matrix multiplication scores 1.4 TFLOPS on 484 processors (cluster jacquard.nersc.gov) and returns a correct result while one process failure has happened. This represents 65% of the machine peak efficiency and less than 12% overhead with respect to the fastest failure-free implementation. We predict (and have observed) that, as we increase the processor count, the overhead of the fault tolerance drops significantly.  相似文献   

16.
Network latency is an adverse factor for computations performed across the network. Overlapping computation with communication is an important technique for hiding latency. It has been shown that network latency cannot be effectively hidden without considering the order of sending data [C.-C. Lin, Strategies for achieving high performance incremental computing on a network environment, in: Proc.18th Int’l Conf. on Advanced Information Networking and Applications 1, 2004, pp. 113–118]. However, finding a data-sending order for the input to a task which minimizes the remote execution time for any network traffic pattern is NP-hard [C.-C. Lin, D.-W. Wang, T.-S. Hsu, Bounds on the client-server incremental computing, IEICE Trans. Fundamentals E89-A (5) (2006) 1198–1206]. Thus, heuristic algorithms are often employed to search an optimal input stream. The performance of algorithms relies on an effective mechanism for guiding the search toward a promising direction. In this paper, the computation-progress graph is proposed for transforming an input stream of a task to its corresponding pattern of progressive computations. Then, the assessing function is defined for assigning scores to the found input streams based on the computation-progress graph. Based on the scores, the promising search directions can be determined. Finally, the effectiveness of our assessing function is also demonstrated by the search of the optimal orders for computing the product of two polynomials, matrix multiplication and FFT.  相似文献   

17.
在单专用能量站为多个用户无线供能的场景下,为缩短任务处理时延,设计了一种新型多用户协作计算方案。建立了关于匹配决策和资源分配的优化问题,在用户间一对一匹配情况下提出了一种基于交替优化和匈牙利算法的高性能求解方案和一种基于重构线性化方法的低复杂度求解方案;针对一对多匹配情况提出了一种改进的贪婪算法。实验结果表明,在用户间一对一匹配时所提方案能够较对比方案降低最多12.6%的任务处理时延;一对多匹配情况下所提方案节省了5%的任务处理时延,即所提方案能有效保障用户端的时延需求。  相似文献   

18.
The recursive training algorithm for the optimal interpolative (OI) classification network is extended to include distributed fault tolerance. The conventional OI Net learning algorithm leads to network weights that are nonoptimally distributed (in the sense of fault tolerance). Fault tolerance is becoming an increasingly important factor in hardware implementations of neural networks. But fault tolerance is often taken for granted in neural networks rather than being explicitly accounted for in the architecture or learning algorithm. In addition, when fault tolerance is considered, it is often accounted for using an unrealistic fault model (e.g., neurons that are stuck on or off rather than small weight perturbations). Realistic fault tolerance can be achieved through a smooth distribution of weights, resulting in low weight salience and distributed computation. Results of trained OI Nets on the Iris classification problem show that fault tolerance can be increased with the algorithm presented in this paper.  相似文献   

19.
杨术  陈子腾  崔来中  明中行  程路  唐小林  萧伟 《软件学报》2021,32(12):3945-3959
随着大数据、机器学习等技术的发展,网络流量与任务的计算量也随之快速增长.研究人员提出了内容分发网络(CDN)、边缘计算等平台技术,但CDN只能解决数据存储,而边缘计算存在着难以管理和不能跨集群进行资源调度等问题.容器化技术广泛应用在边缘计算场景中,但目前,边缘计算采取的容器编排策略普遍比较低效,导致任务的计算延迟仍然过长.提出了功能分发网络FDN (function delivery network),一方面为用户提供了访问边缘计算资源的统一接口和容器化的计算平台,无需进行繁琐的计算资源配置;另一方面,FDN平台优化系统的资源利用和任务的计算延迟,能将任务所需的容器编排到合适的边缘计算集群.开发了一种基于启发式的容器编排策略,实现了跨集群的容器编排功能,进一步优化了执行的计算延迟.基于Openwhisk软件实现了FDN,并在中国移动的网络中部署了该系统,而且对FDN和容器编排策略进行测试.实验结果表明,FDN计算平台能够降低任务的计算延迟;同时,启发式容器编排策略的性能相比传统的算法有了较大的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号