首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 455 毫秒
1.
基于自主计算的集群管理软件的设计与实现   总被引:1,自引:0,他引:1  
论文分析了集群管理领域的研究现状以及自主计算的相关概念和技术,在分析集群计算环境管理需求的基础上,给出了一种以JMX管理标准为基础的基于规则的自主管理体系结构,并设计了节点代理服务模块和管理服务器的功能结构.论文提出了一种基于自主计算技术的集群节点监控管理服务机制,给出了基于规则语言的管理决策引擎的实现方法,最后,论文通过在浪潮天梭TS10000集群服务器的自主Tomcat集群的自恢复控制实例,验证了该软件的可用性和有效性,并对下一步的研究方向进行了探讨.  相似文献   

2.
为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.  相似文献   

3.
通过对目前通信市场和行业客户需求进行前瞻性调研和分析,研究了满足应急需求的多媒体集群调度系统,分析了多媒体集群调度系统的整体架构,对系统的功能模块进行划分,系统包括的功能模块有集群对讲、语音调度、移动视频调度、视频会议、统一通讯录、GIS功能和API模块。设计了系统的拓扑结构和多媒体数据传输与控制模式。最后对用户管理服务模块、多媒体语音调度模块、媒体移动视频调度模块、多分辨率、音视频会议、文件传输的技术参数进行说明。  相似文献   

4.
为了提高集群绘制系统的错误处理能力,该文实现了在集群绘制系统实现自配置、自恢复、自优化和自保护的方法。该方法特别针对集群绘制系统自恢复的功能,根据集群绘制系统的特点,提出了检查点和回卷恢复机制方法。集群绘制系统TH-CRS(ts inghua cluster rendering system)实现了自主计算的各种属性,能够根据资源和环境的变化作出自我调整。实验结果表明,使用该文提出的方法,集群绘制系统能够具有较好的错误处理能力,同时绘制速度可达到普通并行绘制系统的90%。  相似文献   

5.
集群知识系统是集群核心能力的主要源泉和载体。其运行环境在很大程度上影响集群的运行绩效和竞争能力。从社会资本的视角考察了集群知识系统的运行环境,并从结构、认知和关系三个维度分析了集群社会资本对环境的影响和作用机理,为进一步提出优化集群知识系统环境的具体对策奠定基础。  相似文献   

6.
随着互联网的快速发展和大数据时代的来临,传统数据库的局限性开始逐渐显现,而支持海量数据存储和高并发访问的分布式数据库系统越来越流行.在此背景下阿里巴巴集团研发了一款适用于海量数据存储的分布式数据库系统(OceanBase),并提供单集群和多集群两种部署模式.但多集群部署模式下的可用性较低,无法满足关键性应用的需求,包括:发生故障时不支持主备集群的自动切换;主备集群之间无法保证日志的强同步.针对上述问题,本文分析了传统数据库的高可用方案,针对OceanBase架构的特点,结合了Raft算法的思想,设计并实现了基于时间戳的分布式选举模块、自动化的集群切换模块和基于QUORUM策略的日志强同步模块.经实验验证,以上模块的实现能够提高系统整体的可用性.  相似文献   

7.
分布式实时系统的软件故障注入   总被引:1,自引:0,他引:1  
针对分布式实时系统的可信验证的难题,建立通用故障模型,将故障模型分为:内存故障、CPU故障、通信故障和服务故障4种。提出一种建立在分布式实时系统环境中的软件故障注入系统结构,它分为3个层次:目标系统、通信网络、软件故障注入系统。软件故障注入系统分3个部分进行设计,软件故障注入器、数据收集模块和故障数据分析模块。对基于该结构的软件故障注入过程进行了说明,实现软件故障注入系统并做了相应的实验分析,实验检测到故障多数为通信故障、内存故障和CPU故障,其覆盖率分别为37.68%、15.47%和15.17%。实验证明这种体系结构很适合分布式实时环境的应用,同时也为进一步研究软件可信验证提供了理论基础和实例依据。  相似文献   

8.
随着互联网的快速发展和大数据的来临,基于数据密集型应用的集群计算框架不断涌现,并且这些计算框架都只面向某一类特定领域的应用.基于这一特点,互联网公司往往需要部署和运行多个计算框架,从而为每个应用选择最优的计算框架.因此,资源统一管理和调度系统作为集群共享平台被提出来.集群资源统一管理和调度系统需要同时支持多种不同计算框架,如何管理集群计算资源和不同计算框架间的资源公平分配成为关键技术难点.不同计算框架的作业是异构的,如何在不同框架间进行作业调度,以充分利用集群资源和提高系统吞吐量,成为了新的挑战.本文针对现有的资源管理系统和应用需求特点,研究和分析了集群资源管理和调度的关键技术,并对现有的集群资源管理技术存在的问题和未来发展进行了探讨.  相似文献   

9.
现有系统进行主动配电网资源集群控制时,受脉冲宽度调制(pulse width modulation,PWM)波频率的影响而无法进行有效调压,存在主动配电网响应偏差较大的问题,因此设计基于模糊理论的主动配电网资源集群控制系统.系统硬件配置包括集群管理模块、调压模块,集群管理模块由集群管理主站、集群管控装置、高级应用子系统以及数据采集与监视控制(su-pervisory control and data acquisition,SCADA)系统构成,调压模块由调压装置构成.在硬件设计的基础上,通过集群划分实现配电网分区、主导节点选择以及集群资源划分,并通过多目标优化方法对电网资源进行多目标优化,根据优化结果通过主动配电网资源集群控制策略实现主动配电网资源集群控制.实验结果证明,在输出功率为3 000~6000 W范围内,所设计系统的响应偏差较小,且运行效率较高,实现了性能提升.  相似文献   

10.
针对集群系统节点数较多,安装配置工作繁杂及个别计算节点死机难以检测的情况,采用XCAT管理集群的系统安装与环境配置、PBS管理作业的调度、GANGLIA监控集群资源的方法能很好的解决集群面临的管理和资源合理利用问题,大大的减轻了集群管理员的负担,使集群最大限度的发挥其计算优势。  相似文献   

11.
针对下一代网络管理系统平台,实现了一种基于RMI和Java技术的分布式故障管理系统.这种系统具有平台无关性、分布式部署性和重复使用性,提供了一个可扩展的故障管理框架.通过这个框架,研究人员可以在事件、关联器和报警编程接口的帮助下,开展基础性工作.  相似文献   

12.
计算技术在降低企业信息基础设施的投资, 提高信息系统的可用性和容错性的同时, 存在平台搭建困难, 运维成本增高的问题。为简化搭建云计算平台的复杂度, 通过对云计算基础架构进行研究, 全面剖析OpenStack 系统建构, 结合网络结构、业务集成以及服务器资源规划探讨云架构的可行性及技术架构, 进而提出通用云基础设施管理平台建设方法, 简化了云计算平台搭建的复杂度, 并在云计算平台之上提出故障事件自动触发和事件跟踪流程, 提升了云计算平台运行维护的复杂度。  相似文献   

13.
基于云计算的教学资源管理是未来教学资源管理的发展方向。文章从云计算、系统功能模块、系统基本结构、系统编程模式和系统计算模式等方面对教学资源管理系统进行构建研究,为建设基于云计算的教学资源管理系统提供技术支持。  相似文献   

14.
蔡兴文 《科学技术与工程》2012,12(35):9540-9544
为了简化对地观测地面系统遥感数据并行处理软件的开发工作,在分析遥感数据处理流程、并行任务调度和容错策略的基础上,设计了遥感数据并行处理框架。该框架集成了遥感数据预处理并行任务调度、消息和数据交换、故障管理等公共功能,并设计实现了简单易用的插件接口规范,以支持多载荷、多种遥感数据预处理功能的扩展以实现并行处理,具有较好的通用性和功能扩展性。最后基于消息传递接口(MPI)技术,在集群上实现了遥感数据处理并行框架,并在此框架上实现遥感数据预处理的并行系统,完成了系统并行性能测试与分析,结果表明该框架在简化遥感数据预处理并行功能开发的同时还能满足遥感数据并行处理效率要求。  相似文献   

15.
Virtualization is the most important technology in the unified resource layer of cloud computing systems.Static placement and dynamic management are two types of Virtual Machine(VM) management methods.VM dynamic management is based on the structure of the initial VM placement,and this initial structure will affect the efficiency of VM dynamic management.When a VM fails,cloud applications deployed on the faulty VM will crash if fault tolerance is not considered.In this study,a model of initial VM fault-tolerant placement for star topological data centers of cloud systems is built on the basis of multiple factors,including the service-level agreement violation rate,resource remaining rate,power consumption rate,failure rate,and fault tolerance cost.Then,a heuristic ant colony algorithm is proposed to solve the model.The service-providing VMs are placed by the ant colony algorithms,and the redundant VMs are placed by the conventional heuristic algorithms.The experimental results obtained from the simulation,real cluster,and fault injection experiments show that the proposed method can achieve better VM fault-tolerant placement solution than that of the traditional first fit or best fit descending method.  相似文献   

16.
准确的计算机时统计是大型计算机集群执行计费政策的基础。使用wall time而非CPU time来统计计算机时是一种比较公平的方式。文中提到的利用LSF API结合C语言和Shell脚本语言进行编程,可以实现多样化、可定制的计算机时统计和报表制作,为高性能计算中心和超级计算中心的管理带来便利。  相似文献   

17.
基于Linux的集群管理系统设计与实现   总被引:2,自引:0,他引:2  
基于Linux的LVS集群系统缺乏全面的管理系统,影响了其集群规模、运行的稳定性等.设计了一套集群管理系统,包括集群运行状态的监控、集群节点的快速安装与恢复、集群的动态调度、管理界面4部分,并对未来集群功能的升级扩展做出准备.整个系统借鉴了其他成熟系统的设计思想,结合现有的各种开源项目及自由软件自主开发.系统已经在大连理工大学VOD视频点播系统的realserver LVS集群中部分实现,系统的稳定性和可操作性都有明显提高.  相似文献   

18.
随着计算机网络的规模越来越大,结构越来越复杂,网络出现故障的机率也越来越高,为了保证网络连续可靠地运行,一个好的网络故障管理系统就成为了网络管理员急需的管理工具.首先介绍了SNMP协议的工作原理,分析了基于SNMP的网络故障管理系统的几个关键技术,最后实现了基于SNMP的网络故障管理系统的设计,最终实现帮助网络管理员更加有效地管理网络、提高网络运行效率、保障网络正常运行的目的.  相似文献   

19.
并行处理是提高计算能力的一种方法,通过网络相互连接的工作站和PC构成一个庞大的资源,以多计算机互连为基础的集群成为一种新的高效的大规模并行计算工具.本文讨论了基于消息传递机制的并行处理系统MCC的设计和实现方案.MCC系统提供了消息队列管理、节点管理、任务管理等功能,为用户提供了一个良好的并行程序开发和设计的环境.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号