首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 202 毫秒
1.
随着现代互联网数据中心的规模越来越大,数据中心面临着能耗、可靠性、可管理性与可扩展性等方面的挑战。同时,数据中心承载的服务多样,既有在线Web服务,也有离线批处理任务。在线任务要求较低的延迟,而离线任务要求较高的吞吐量。为了提高服务器利用率,降低数据中心能耗,当前数据中心往往将在线任务和离线任务混合部署到同一个计算集群中。在混部场景下,如何同时满足在线和离线任务的不同要求,是目前面临的关键挑战。分析了阿里巴巴于2018年发布的含有4034台服务器的混部计算集群在8天内的日志数据(cluster-trace-v2018),从静态配置信息、动态混部运行状态、离线批处理作业DAG依赖结构等出发,揭示其负载特征,包括任务倾斜与容器部署的相关关系等,根据任务依赖关系与关键路径,提出了相应的任务调度优化策略。  相似文献   

2.
童俊杰  赫罡  符刚 《计算机科学》2016,43(Z6):249-254
随着云计算数据中心规模和数量的日益增长,以及虚拟化技术的普遍采用,虚拟机放置问题逐步成为产业界和学术界研究的热点。虚拟机放置策略和方法的选择对数据中心的能耗,物理资源的利用率和虚拟机性能具有重大影响。合理的放置方法和策略在保证上层应用和业务不受影响的同时,能有效降低云计算数据中心的能耗,提升物理资源利用率,减少物理资源的浪费。阐述了虚拟机放置问题中的3个基本要素:优化目标、约束限制和实现方法,并基于已有的研究工作进行归纳与总结。最后,结合已有成果,展望了未来的研究方向和亟待解决的关键问题。  相似文献   

3.
为了在降低成本和减少能耗的同时提高云数据中心的资源利用率,目前许多云数据中心都采用了在线服务和离线任务混合部署的方式.虽然混合部署的方式能为数据中心带来许多益处,但它增加了任务调度的复杂性,同时对保障服务的高可靠、低延迟带来了一系列的挑战.深入分析了阿里巴巴数据中心中某一个含有4034台服务器的集群在8天时间内所有在线...  相似文献   

4.
赵家程  崔慧敏  冯晓兵 《软件学报》2013,24(11):2558-2570
普遍认为,云计算和多核处理器将会统治计算领域的未来.但是,目前云计算数据中心的计算资源使用率非常低,其主要原因在于多核处理器上存在严重且不可预知的性能干扰.为了保证关键应用程序的QoS,只能禁止这些关键程序与其他程序共同运行,导致了资源的过度分配.为了提高数据中心的利用率,分析多核间的性能干扰成为一个关键的问题.观察到程序遭受的核间性能干扰可以表示为内存子系统总压力的线性分段函数,而与构成压力的具体应用程序无关.以此观察为基础,提出了一种基于统计学习的多核间性能干扰分析方法,使用主成分线性回归的方法获得干扰模型,可以精确且定量地预测任意程序由于内存子系统资源竞争导致的性能下降.实验结果表明,平均预测误差仅为1.1%.  相似文献   

5.
包云岗 《集成技术》2013,2(6):71-81
在当今信息时代,随着移动设备、互联网应用以及云计算模式的快速发展,数据中心已成为社会基础设施。然 而数据中心面临资源利用率与应用服务质量之间的矛盾,一方面通过多个应用同时在数据中心部署实现资源共享能有效 提高资源利用率,另一方面多个应用共享资源又会出现相互干扰,严重影响应用的服务质量。因此,目前企业不得不采 用预留额外资源以保障延迟敏感的关键应用服务质量,这导致数据中心的利用率很低。并且,随着多核技术的发展,单 个服务器内的资源越来越多,其上混合部署的应用数目也在不断增加,更加剧这种矛盾。如何解决资源利用率与应用 服务质量之间的矛盾,是数据中心面临的核心挑战之一,同时也为计算机系统结构研究带来很多机遇。文章主要介绍 了数据中心所面临的上述矛盾以及一些研究进展,最后介绍了资源可编程体系结构 PARD(Programmable Architecture of Resourcing on-Demand)思想,从硬件上支持资源容量隔离与性能隔离,从而保障多应用混合环境下关键应用的服务质量, 允许更大程度混合部署应用以提高数据中心资源利用率。  相似文献   

6.
多数据中心任务调度策略的目的是把计算任务分配到各个数据中心的不同服务器上,以促进资源利用率和能效的提升,为此提出了基于深度强化学习的多数据中心一体化调度策略。所提策略分为数据中心选择和数据中心内部任务分配两个阶段。在多数据中心选择阶段,整合算力资源以提高总体资源利用率,首先采用具有优先经验回放的深度Q网络(PER-DQN)在以数据中心为节点的网络中获取到达各个数据中心的通信路径;然后计算资源使用成本和网络通信成本,并依据这两个成本之和最小的原则选择最优的数据中心。在数据中心内部任务分配阶段,首先在所选数据中心内部,划分计算任务并遵循先到先服务(FCFS)原则将任务添加到调度队列中;然后结合计算设备状态和环境温度,采用基于双深度Q网络(Double DQN)的任务分配算法获得最优分配策略,以选择服务器执行计算任务,避免热点的产生,并降低制冷设备的能耗。实验结果表明,基于PER-DQN的数据中心选择算法相较于计算资源优先(CRF)、最短路径优先(SPF)路径选择方法的平均总成本分别下降了3.6%、10.0%;基于Double DQN的任务部署算法相较于较轮询调度(RR)、贪心调度(Gree...  相似文献   

7.
为解决在线流量和离线流量共用一个数据中心传输网络,且2种类型的流量在链路中的分配模式固定不变而导致的链路利用率低的问题,提出了一种基于在线流量预测的离线流量调度方式.首先使用结合了 EWMA方法和贝叶斯拐点检测算法的Sliding-k算法对链路中需要优先保障的在线流量进行预测,使预测既能在网络环境突然变化时灵敏响应,又能在网络平稳时减少不必要的重调整.根据预测结果计算出离线流量的可用剩余空间,实现动态的带宽分配之后,使用能够同时考虑流量截止时间和流量大小2个维度的SEDF算法对离线流量进行调度.实验结果表明:Sliding-k能够同时满足网络突变和网络无变化情况下的预测需求,并且能够提高传统EWMA方法的准确率,它和SEDF的结合能够提高数据中心链路的利用率.  相似文献   

8.
数据中心工作负载混合部署在显著提升云数据中心的资源利用率的同时,也增加了调度的复杂性和作业的失效率.以阿里云发布的数据中心日志数据集cluster-trace-v2018为例,从离线批处理工作负载角度出发,详细地分析了不同类型工作负载在成功率和资源利用上的特征.主要发现如下:1)少量类型作业的失效会影响集群整体作业成功率并造成集群资源的浪费;2)伏羲分布式调度系统在任务故障切换执行时间上满足高斯分布,在任务调度延迟方面满足齐夫分布;3)通过分析失败实例在集群节点上的分布,发现集群作业发生失败在空间上具有随机性,且失败的实例很容易再次发生失败,而在时间上集群整体失败率则存在不平衡性;4)以任务实例的失效为基准,计算了集群节点的平均无故障时间,大部分节点的平均无故障时间在1000 s左右,小部分节点的任务实例失效率低,其平均无故障时间可达10000 s以上.  相似文献   

9.
异构云平台中能源有效的虚拟机部署研究   总被引:1,自引:0,他引:1  
周东清  佀庆乾 《计算机科学》2015,42(3):81-84, 116
能源消耗已经成为数据中心操作成本的重要组成部分,虚拟化技术是降低数据中心能源消耗的有效方法之一.为了降低数据中心过高的能源消耗,利用虚拟化技术,结合数据中心中物理机的异构性和虚拟机所需资源的多维性,提出了一个衡量不同类型物理机性能的模型和一个衡量多维资源利用率的模型,在此基础上提出了一个异构云平台下能源有效的虚拟机部署算法.仿真实验表明,与MBFD算法及BFD算法相比,该算法不仅可以有效地降低系统的能源消耗,而且还提高了资源利用率,减少了资源的浪费.  相似文献   

10.
针对计算负载的时变性和复杂性导致虚拟集群的资源利用率不高的问题,为提高虚拟集群资源的全局利用率,采用弹性资源管理策略来吸收多种计算模式混杂时的资源需求突变。在Docker容器技术的支持下提出一个根据作业需求变化的动态部署模型。该模型根据资源的动态需求变化,实时调整虚拟集群的计算形态,具体包括计算节点的类型及规模。该模型不仅实现用户作业执行环境的动态定制,而且达到错峰计算的目的。仿真实验表明,该模型使得虚拟节点CPU利用率提升5.3%,并且优化了计算作业的执行效率。该动态部署模型适合应用到数据中心或大规模集群中,能够有效提高计算资源的利用率。  相似文献   

11.
本文考虑当前研究都忽略的边缘节点计算资源对任务分析延迟、准确度相悖的影响所带来的权衡问题,提出一种动态配置视频分析任务在边缘的带宽和计算资源的分配策略,通过资源在线分配,实现延迟与准确度的最佳权衡。方案通过优化带宽与计算资源目标,最大化目标函数,即在降低延迟的情况下最大化准确率。其中由于显示数据集缺乏,利用模拟、仿真技术,通过最小化误差函数法获得了准确度函数拟合;同时利用梯度估计法,找到目标函数的梯度下降方向,通过不断迭代来求解最小值,以解决神经网络不可知性带来的无法直接获得梯度的问题。最终通过仿真对照试验验证了算法的优越性,能够高效降低网络负荷,提高整体资源利用率及性能水平。本文同时讨论了以边缘-云协作的架构提高资源利用率,并提出了未来研究方向。  相似文献   

12.
Many application level qualities are functions of available computation resources. Recent studies have handled the computation resource allocation problem to maximize the overall application quality. However, such QoS problems are fundamentally multi-dimensional optimization problems that require extensive computation. Therefore, online usage of optimization procedures may significantly reduce the computation resource available for applications. This raises the question of how to best use the optimization procedures for dynamic real-time task sets. In dynamic real-time systems, it is important to improve the performance by re-allocating the resources adapting to dynamic situations. However, the overhead of changing task parameters (i.e., algorithms and frequencies) for resource re-allocation is non-negligible in many applications. Thus, too frequent change of resource allocation may not be desirable. This paper proposes a method called service classes configuration to address the QoS problem with dynamic arrival and departure of tasks. The method avoids online usage of optimization procedures by offline designing templates (called service classes) of resource allocation, which will be adaptively used depending on online situations. The service classes are designed by best trading-off the accuracy of dynamic adaptation against the overhead of resource re-allocation. A simplified radar application is used as an illustrative example.  相似文献   

13.
数据中心主机负载预测对于数据中心的资源调度和节能具有重要意义,但是目前缺乏一个通用模型以准确预测所有类型数据中心的主机负载情况。为了使主机负载预测模型具有一定的自适应性,提出一种基于深度循环神经网络编码器-解码器的多步在线预测模型。通过线上实时采集的能耗数据进行在线训练,同时设计一个在线监控模块,对模型的预测准确性进行实时监控和调整,使得该模型在不同数据中心中均能获得较准确的预测值。利用Google开源的时长为29天的数据中心主机负载数据集进行实验,结果表明,该模型的预测准确性接近离线训练,其预测性能优于ESN和LSTM模型。  相似文献   

14.
Many industrial applications with real-time demands are composed of mixed sets of tasks with a variety of requirements. These can be in the form of standard timing constraints, such as period and deadline, or complex, e.g., to express application specific or nontemporal constraints, reliability, performance, etc. As many algorithms focus on specific sets of task types and constraints only, system design has to focus on those supported by a particular algorithm, at the expense of the rest. In this paper, we present a method to deal with a combination of mixed sets of tasks and constraints: periodic tasks with complex and simple constraints, soft and firm aperiodic, and sporadic tasks. We propose the use of an offline scheduler to manage complex timing and resource constraints of periodic tasks and transform these into a simple EDF model with start-times and deadlines. At run-time, the execution of the offline scheduled tasks is flexibly shifted in order to allow for feasible inclusion of dynamically arriving sporadic and aperiodic tasks. Sporadic tasks are guaranteed offline based on their worst-case activation frequencies. At run-time, this pessimism is reduced by the online algorithm which uses the exact knowledge about sporadic arrivals to reclaim resources and improve response times and acceptance of firm aperiodic tasks.  相似文献   

15.
In Infrastructure-as-a-Service (IaaS) cloud computing, computational resources are provided to remote users in the form of leases. For a cloud user, he/she can request multiple cloud services simultaneously. In this case, parallel processing in the cloud system can improve the performance. When applying parallel processing in cloud computing, it is necessary to implement a mechanism to allocate resource and schedule the execution order of tasks. Furthermore, a resource optimization mechanism with preemptable task execution can increase the utilization of clouds. In this paper, we propose two online dynamic resource allocation algorithms for the IaaS cloud system with preemptable tasks. Our algorithms adjust the resource allocation dynamically based on the updated information of the actual task executions. And the experimental results show that our algorithms can significantly improve the performance in the situation where resource contention is fierce.  相似文献   

16.
Autonomous management of a multi-tier Internet service involves two critical and challenging tasks, one understanding its dynamic behaviors when subjected to dynamic workloads and second adaptive management of its resources to achieve performance guarantees. We propose a statistical machine learning based approach to achieve session slowdown guarantees of a multi-tier Internet service. Session slowdown is the relative ratio of a session’s total queueing delay to its total processing time. It is a compelling performance metric of session-based online transactions because it directly measures user-perceived relative performance and it is independent of the session length. However, there is no analytical model for session slowdown on multi-tier servers. We first conduct training to learn the statistical regression models that quantitatively capture an Internet service’s dynamic behaviors as relationships between various service parameters. Then, we propose a dynamic resource provisioning approach that utilizes the learned regression models to efficiently achieve session slowdown guarantee under dynamic workloads. The approach is based on the combination of offline training and online monitoring of the Internet service behavior. Simulations using the industry standard TPC-W benchmark demonstrate the effectiveness and efficiency of the regression based resource provisioning approach for session slowdown oriented performance guarantee of a multi-tier e-commerce application.  相似文献   

17.
提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法.采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型.在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行顺序的调度.在一个分布式GPU集群实例上的实验表明,该方法相比其他基准策略能够实现更高的QoS保证率和集群资源利用率.  相似文献   

18.
针对多任务操作系统的可重构资源管理,提出了一种管理模型和在线调度算法,具体实现了把任务分配给基于块划分的可重构器件。一方面,可重构器件由一个主CPU控制,主CPU运行在线调度器和放置器;另一方面,可重构器件由具有相同垂直尺寸的固定大小的块构成,但块可以有不同的宽度,目的是为了在资源和任务之间实现更好的匹配;同时在在线调度器和放置器运行两个函数fSPLIT和fSELECT来实现任务在可重构器件上的配置和调度。仿真结果表明,提出的资源管理模型和调度算法不仅能够实现任务集平均响应时间的最小化和有效调度,而且相比于其他调度算法,还能获得更高的资源利用率。  相似文献   

19.
多服务移动边缘计算网络环境中的不同服务的缓存要求、受欢迎程度、计算要求以及从用户传输到边缘服务器的数据量是随时间变化的。如何在资源有限的边缘服务器中调整总服务类型的缓存子集,并确定任务卸载目的地和资源分配决策,以获得最佳的系统整体性能是一个具有挑战性的问题。为了解决这一难题,首先将优化问题转换为马尔可夫决策过程,然后提出了一种基于软演员—评论家(soft actor-critic,SAC)的深度强化学习算法来同时确定服务缓存和任务卸载的离散决策以及上下带宽和计算资源的连续分配决策。算法采用了将多个连续动作输出转换为离散的动作选择的有效技巧,以应对连续—离散混合行动空间所带来的关键设计挑战,提高算法决策的准确性。此外,算法集成了一个高效的奖励函数,增加辅助奖励项来提高资源利用率。广泛的数值结果表明,与其他基线算法相比,提出的算法在有地减少任务的长期平均完成延迟的同时也具有良好的稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号