首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 202 毫秒
1.
【背景】传统集群监控软件在性能、灵活性、可扩展性上无法满足超过10000节点的超大规模计算集群以及多集群系统的监控管理需求。【目的】亟需设计研发新型集群监控系统,提升超大规模计算集群和多集群的运行管理能力与效率。【方法】本文采用总分架构设计,利用消息中间件、分布式存储、REST技术实现了一种超大规模计算集群监控系统。【结果】该系统支持监控指标自定义、数据主动上发、自动告警等功能,具有良好的横向扩展能力。已部署于多套计算集群中,满足上万节点和设备的监控需求,日均采集数据逾200GB。【局限】由于监控指标繁多、监控数据量庞大,针对业务场景的数据关联分析能力有待提升。【结论】本文工作满足了超大规模计算集群及异地多集群系统的自动运管需求,采用的方法对更大规模集群甚至E级计算系统的运管工具的研发具有积极借鉴意义。  相似文献   

2.
郭小雪  秦勇  袁奕 《计算机工程》2010,36(11):101-104
针对传统带宽链路接入系统不支持IPv6、接入链路数少及负载调度能力弱等问题,设计一种能够支持IPv6的链路接入系统架构,提出基于内核级的链路计算方法及分布式并行处理模型,以支持超大规模链路接入,研究多处理节点负载均衡及流量控制方法。实验结果表明,该系统能够获得良好的性能。  相似文献   

3.
为了优化大规模集群运行MapReduce作业时的通信效率和减少shuffle数据传输量,首先采用存储局部性换取通信局部性的策略建立一个分布式协同数据映射模型;其次通过随机抽样和机器学习方法来提取作业数据的局部性特征,实现map计算数据的有效部署;最后,利用软件定义网络的全局灵活控制能力,优选通信链路好的节点并将计算任务映射到该类节点中。实验表明对于中间数据混洗密集类作业有较好的优化效果,通信延迟降低了4.3%~5.8%。该方案能减少shuffle流量和数据迁移延迟,并且适合各种调度策略和网络拓扑结构。  相似文献   

4.
正申请号:201310159281.0【公开号】CN103227996A【公开日】2013.07.31【分类号】H04W16/18(2009.01)I;H04W84/18(2009.01)I【申请日】2013.05.02【申请人】南京邮电大学【发明人】刘林峰;张宁申;宋斯宇;曹云凤【摘要】本发明公开了面向多样化覆盖需求的水下无线传感器网络拓扑控制方法,属于水下无线传感器网络拓扑控制的技术领域。本发明针对水下无线传感器网络中节点的多样化覆盖需求问题,首先计算每个节点的覆盖能力,根据覆盖能力大小按照从高到低顺序进行排序,依次调整每个节点的感知半径来满足周围邻居节点的覆盖要求,然  相似文献   

5.
一种用于志愿者计算的层次消息通信网络   总被引:1,自引:0,他引:1  
构造一个用于志愿者计算的消息通信网络,该网络把志愿者计算平台P2HP中的所有节点按角色划分为监控服务器节点,调度服务器节点,计算节点和数据服务器,形成一个可扩展的层次网络拓扑结构.充分考虑到节点的负载和任务的划分与子任务调度的特点,管理着节点的加入和退出;定义全局统一消息通信协议来完成节点的通信和监控.测试结果表明,作为P2HP的支撑网络,它具有扩展性好、高效性、应用无关性等特点,能够适合多种应用的需求.  相似文献   

6.
随着基于Hadoop平台的大数据技术的不断发展和实践的深入,Hadoop YARN资源调度策略在异构集群中的不适用性越发明显。一方面,节点资源无法动态分配,导致优势节点的计算资源浪费、系统性能没有充分发挥;另一方面,现有的静态资源分配策略未考虑作业在不同执行阶段的差异,易产生大量资源碎片。基于以上问题,提出了一种负载自适应调度策略。监控集群执行节点和提交作业的性能信息,利用实时监控数据建模、量化节点的综合计算能力,结合节点和作业的性能信息在调度器上启动基于相似度评估的动态资源调度方案。优化后的系统能够有效识别集群节点的执行能力差异,并根据作业任务的实时需求进行细粒度的动态资源调度,在完善YARN现有调度语义的同时,可作为子级资源调度方案架构在上层调度器下。在Hadoop 2.0上实现并测试该策略,实验结果表明,作业的自适应资源调度策略显著提高了资源利用率,集群并发度提高了2到3倍,时间性能提升了近10%。  相似文献   

7.
针对基于物联网的智能抄表系统节点众多、可靠性要求高、网络拓扑多变的特点,提出了一种用于智能抄表系统的高效时分多址E-TDMA协议。该协议基于Mesh网络架构,采用分布式协同调度的方式局部调整节点的时隙分配,并能进行网络拓扑调整。此外,E-TDMA还提供差异服务。采用NS2对协议进行仿真比较,结果显示,E-TDMA具有更好的性能,为基于物联网的智能抄表系统提供了高效的信道接入和可靠的质量保证。  相似文献   

8.
张志超 《软件》2012,33(12)
为了有效防止电动汽车加电站网络的告警风暴,提高告警监控的有效性和准确性,需要研究出有效的告警压缩机制,以快速找出根源性告警、合并重复告警和过滤无用告警.本文首先描述系统的架构,然后根据不同层次的特点,详细分析了告警压缩规则的方法.通过告警压缩机制在深圳某公司的应用和对告警数量的统计,表明了压缩机制的实用性和有效性.  相似文献   

9.
分布式控制具有重量轻、模块化程度高和可靠性高等特点,是未来航空发动机电子控制系统的发展方向之一。基于时间触发总线TTP/C构建了分布式控制原型系统,根据发动机控制需求将系统划分为监控节点和智能节点的架构,制定了集群级和节点级的TTP/C通信协议。基于Simulink模型设计了智能节点应用软件,基于VxWorks设计了监控节点应用软件。经过系统试验,表明基于TTP/C通信总线的分布式原型系统能够满足发动机分布式控制通信要求,具有实时性好、可靠性高的特点。  相似文献   

10.
针对现有分布式循环自调度方案在异构云平台中存在负载不平衡等问题,提出一种基于多层架构的分层分布式动态循环调度方案。首先,通过HPLS算法来评估计算环境中各Worker节点的计算速度。然后,在传统自调度方案中融入节点计算速度,构建一种能够处理异构环境的调度方案,提高负载平衡能力。最后,将计算系统构建成一个由SuperMaster,Master和Worker节点组成的多层架构,利用层次化方法来解决传统Master-Worker架构中单个Master节点的瓶颈问题,用来提高任务分配效率。仿真实验结果表明,提出的方案能够有效提高云平台的计算效率。  相似文献   

11.
高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下。SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案。在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性。  相似文献   

12.
针对大数据流式计算平台原生的调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图(directed acyclic graph,DAG),并将每个任务槽(task slot)抽象为节点,为计算节点的性能评估奠定基础;其次,通过建立性能评估模型将有向无环图中带性能权值的节点导入性能评估模型,进行归一化处理得到节点性能的优劣;再将评估参数传入禁忌调度算法(tabu search for schedule,TBS)进行作业路径优化,从而得出最优作业路径;最后,使用Flink平台提供的CustomPatitionerWrapper接口将数据分配到最优作业路径包含的节点中,完成计算负载的均衡分配,从而提升Flink平台的整体性能。实验结果表明:通过禁忌调度算法优化后的负载均衡策略与原生的Flink平台相比,平均计算延迟降低了10~20 ms,资源利用率显著提高,平均吞吐量提升约15%,有效证明了负载均衡策略的有效性和优化效果。  相似文献   

13.
网络并行计算系统中基于多处理机任务的资源调度模型   总被引:4,自引:0,他引:4  
简要描述了网络并行计算系统中任务调度问题和经典的多处理机任务调度研究现状,并将两者结合到一起建立网络并行计算系统中的新型调度模型,较详细地论述了多处理机任务的定义,然后还讨论了该模型求解的近似调度策略及其近似优化问题,给出了其特例Pm|fix|Cmax问题的最优调度的时间跨度下界。  相似文献   

14.
针对天水市城区供水工程线路长、控制节点多、布局分散、传统的管理模式对关键节点的控制和计量难度都很大、还耗费大量的人力和财力的问题,提出通过水利信息化的手段,建设覆盖全项目的信息网络平台,形成标准规范的安全运行体系,建成相应的应用系统和分析平台为调度和工程管理提供解决方案,并据方案论述网络总体架构、拓扑结构和系统组成。2019 年应用结果表明该系统通过应用自动化报表,加快数据统计、分析、汇总的速度,提高数据采集和提取的精确性和可靠度,提高灌区工作人员的管理水平和工作质量, 实现水资源调度的准确性、时效性。  相似文献   

15.
【目的】本文主要分析人工智能和大数据应用随着迅速增大的数据规模,给计算机系统带来的主要挑战,并针对计算机系统的发展趋势给出了一些面向人工智能和大数据亟待解决的高效能计算的若干研究方向。【文献范围】本文广泛查阅国内外在超级计算和高性能计算平台进行大数据和人工智能计算的最新研究成果及解决的挑战性问题。【方法】大数据既为人工智能提供了日益丰富的训练数据集合,但也给计算机系统的算力提出了更高的要求。近年来我国超级计算机处于世界的前列,为大数据和人工智能的大规模应用提供了强有力的计算平台支撑。【结果】而目前以超级计算机为代表的高性能计算平台大多采用CPU+加速器构成的异构并行计算系统,其数量众多的计算核心能够为人工智能和大数据应用提供强大的计算能力。【局限性】由于体系结构复杂,在充分发挥计算能力和提高计算效率方面存在较大挑战。尤其针对有别于科学计算的人工智能和大数据领域,其并行计算效率的提升更为困难。【结论】因此需要从底层的资源管理、任务调度、以及基础算法设计、通信优化,到上层的模型并行化和并行编程等方面展开高效能计算的研究,全面提升人工智能和大数据应用在高性能计算平台上的计算能效。  相似文献   

16.
针对P2P视频点播系统的扩展性问题,从媒体源服务器、索引服务器两方面考虑,提出一种混合式拓扑结构的P2PVOD系统的设计模型。在mesh结构系统普遍采用的gossip拓扑层之上构建一层有结构的P2P网络拓扑,使得DHT可以用于拖动操作后的合作节点定位,以有效减轻索引服务器的压力。在该混合式拓扑的基础上进行多服务节点数据调度算法的设计,能很好地适应网络的异构性与节点的动态性,并有效降低媒体源服务器的负载,同时满足系统扩展性与视频服务质量的需求。  相似文献   

17.
本文描述了神威E级原型机的互连网络和消息机制.神威E级原型机是继神威蓝光、神威?太湖之光之后神威家族的第三代计算机.该计算机作为一台E级计算机的原型机,峰值性能3.13PFlops,其最大的特色之一就是采用28Gbps传输技术,设计开发了新一代的神威高阶路由器和神威高性能网络接口两款芯片,在传统胖树的基础上,设计了双轨...  相似文献   

18.
高可用性冗余实时集群系统的设计与构建   总被引:4,自引:0,他引:4  
白欣  宋博  左继章  向建军 《计算机工程》2004,30(2):25-27,35
根据实时集群系统的高可用性和实时性要求,考虑集群系统的网络拓扑结构和网络传输性能对系统实时性能的影响,文章设计和构建了一个高可用性冗余实时集群系统,对系统的网络拓扑结构设计进行了阐述,估算了网络的数据传输性能,并讨论了系统并行计算的实现和冗余机组调度策略。经实际测试证明,系统具有较高的可用性和实时性,可作为周期性、高强度、多源浮点信息处理平台。  相似文献   

19.
基于学习方式对Hadoop作业调度的改进研究   总被引:1,自引:0,他引:1  
余正样 《计算机科学》2012,39(101):220-222,256
随着并行计算、分布式计算和网格计算技术的发展,云计算作为一种新的模型被提出来,发展极为迅速。Hadoop作为一个开源的云计算系统,得到了广泛的运用。作业调度是Hadoop平台的核心问题之一,通过对Hadoop中已有调度算法的了解和分析后,基于学习的方式,利用过去的节点历史记录和作业属性来不断地改进作业调度;应用了基于特征加权的朴素贝叶斯分类器算法来改进任务的分配调度,并通过实验进行了验证,结果表明它对任务分配调度执行效率有一定的提高。  相似文献   

20.
车辆实时监管正面临着不断增长的大规模车辆监测数据的实时处理需求,需要采用分布式的并行计算架构来提升大规模车辆监测数据处理的性能,支撑多样化的车辆监测数据处理任务,应对支撑环境的伸缩性需求。在这种架构下,对系统中不同计算节点间的车辆监测数据处理任务的调度提出了更高的要求。针对这一要求,并结合流式到达及历史积累的车辆监测数据的持续化处理需求以及大规模车辆监测数据实时处理中内存敏感的特征,提出一种基于路由表的并行任务调度算法。该算法基于车辆监测数据时空属性以及各计算节点的内存信息建立路由表,并以路由表的形式来进行任务的并行划分和分配调度,从而使得各计算节点达到负载均衡的状态。实验表明该算法能够使计算节点间的负载差异缩小到12%以内。此外,该算法在某市车辆监管实时系统中的实际应用也证明了其有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号