首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通过近端策略优化(proximal policy optimization)方法进行训练。仿真实验表明,所提出的算法具有良好的收敛能力,并且在不同环境下的表现均优于所对比的六个基线算法,证明了该方法的有效性和可靠性。  相似文献   

2.
叶芳泽  沈炜 《计算机时代》2022,(11):55-58+64
关于计算机系统与网络中的资源管理问题的研究无处不在,其中计算集群的调度算法一直是研究的热点。目前大多数解决方案为启发式调度算法,但启发式算法无法全面地感知系统中调度作业之间的关联性,而深度强化学习可以通过数据自主学习这些潜在的关联性。本文使用了一种基于动作分支架构改进的深度强化学习调度算法,在Spark调度模型中取得了不错的效果。该算法通过将一个完整的调度过程分解为相对独立的分支动作,从而简化各个动作设计过程并有效降低动作空间的维度。实验结果表明,在相同的训练时间内,该模型取得了较好的调度性能。  相似文献   

3.
工业互联网中设备任务的处理需要大量计算资源,有低时延需求的任务显著增多.边缘计算将算力等资源放置到靠近需求一侧,为任务处理提供有效支撑.但由于边缘计算资源有限,无法同时满足设备任务的低时延和高完成率需求.如何确定合理的卸载决策与任务调度,仍然存在巨大挑战.针对以上问题,本文提出了一种基于深度学习的动态优先级任务调度算法DPTSA,首先根据动态优先级选择待处理任务,通过神经网络产生任务调度决策,然后通过交叉变异等操作产生一组可行解,再筛选最优解存储到经验缓冲区,最后通过经验缓冲区样本优化神经网络参数.基于Google的Brog任务调度数据集的实验结果表明,相比于4种基准算法, DPTSA在任务等待时间和任务完成率方面都有出色表现.  相似文献   

4.
电子政务云中心的任务调度一直是个复杂的问题。大多数现有的任务调度方法依赖于专家知识,通用性不强,无法处理动态的云环境,通常会导致云中心的资源利用率降低和服务质量下降,任务的完工时间变长。为此,提出了一种基于演员评论家(actor-critic,A2C)算法的深度强化学习调度方法。首先,actor网络参数化策略并根据当前系统状态选择调度动作,同时critic网络对当前系统状态给出评分;然后,使用梯度上升的方式来更新actor策略网络,其中使用了critic网络的评分来计算动作的优劣;最后,使用了两个真实的业务数据集进行模拟实验。结果显示,与经典的策略梯度算法以及五个启发式任务调度方法相比,该方法可以提高云数据中心的资源利用率并缩短离线任务的完工时间,能更好地适应动态的电子政务云环境。  相似文献   

5.
刘先锋  梁赛  李强  张锦 《计算机工程》2022,48(11):30-38
现有基于云边协同的深度神经网络(DNN)推理仅涉及边缘设备同构情况下的静态划分策略,未考虑网络传输速率、边缘设备资源、云服务器负载等变化对DNN推理计算最佳划分点的影响,以及异构边缘设备集群间DNN推理任务的最佳卸载策略。针对以上问题,提出基于深度强化学习的自适应DNN推理计算划分和任务卸载算法。以最小化DNN推理时延为优化目标,建立自适应DNN推理计算划分和任务卸载的数学模型。通过定义状态、动作空间和奖励,将DNN推理计算划分和任务卸载组合优化问题转换为马尔可夫决策过程下的最优策略问题。利用深度强化学习方法,从经验池中学习动态环境下边缘设备与云服务器间DNN推理计算划分和异构边缘集群间任务卸载的近似最优策略。实验结果表明,与经典DNN推理算法相比,该算法在异构动态环境下的DNN推理时延约平均降低了28.83%,能更好地满足DNN推理的低时延需求。  相似文献   

6.
移动边缘计算(MEC)技术已成为云无线接入网(C-RAN)提供近距离服务的一个很有前途的例子,从而减少了服务延迟,节约了能源消耗.本文考虑一个多用户MEC系统,解决了计算卸载策略和资源分配策略问题.我们将延迟总成本和能耗作为优化目标,在一个动态的环境中获得一个最优的策略.提出了一个基于深度强化学习的优化框架来解决资源分配问题,利用深度神经网络(DNN)对批评者的价值函数进行估计,从当前状态直接提取信息,不需要获取准确的信道状态.从而降低了优化目标的状态空间复杂度.参与者使用另一个DNN来表示参数随机策略,并在批评者的帮助下改进策略.仿真结果表明,与其它方案相比,该方案显著降低了总功耗.  相似文献   

7.
8.
移动边缘计算(Mobile Edge Computing,MEC)把计算和存储等资源部署在网络边缘以满足某些对延迟要求苛刻的应用.用户设备可以通过无线网络将计算任务整体或者部分卸载到边缘服务器执行从而降低延迟和本地耗能,进而获得良好的用户体验.现有传统优化算法在MEC卸载决策和资源分配方面是可行的,但传统优化算法并不很...  相似文献   

9.
边缘计算作为云计算技术的延伸,可通过增强边缘网络计算能力为用户提供低时延高质量服务。边缘计算中,需要将服务部署于资源受限的边缘服务器,并根据需求合理分配计算资源,以提高边缘服务器的资源利用率。因此,提出基于深度强化学习的服务资源分配方法,利用反正切函数两次映射建立计算资源分配函数,并基于真实数据集进行仿真实验。实验结果表明,该方法能够在保证低时延的情况下,合理分配计算资源。  相似文献   

10.
郭晓东  郝思达  王丽芳 《计算机应用研究》2023,40(9):2803-2807+2814
车辆边缘计算允许车辆将计算任务卸载到边缘服务器,从而满足车辆爆炸式增长的计算资源需求。但是如何进行卸载决策与计算资源分配仍然是亟待解决的关键问题。并且,运动车辆在连续时间内进行任务卸载很少被提及,尤其对车辆任务到达随机性考虑不足。针对上述问题,建立动态车辆边缘计算模型,描述为7状态2动作空间的Markov决策过程,并建立一个分布式深度强化学习模型来解决问题。另外,针对离散—连续混合决策问题导致的效果欠佳,将输入层与一阶决策网络嵌套,提出一种分阶决策的深度强化学习算法。仿真结果表明,所提算法相较于对比算法,在能耗上保持了较低水平,并且在任务完成率、时延和奖励方面都具备明显优势,这为车辆边缘计算中的卸载决策与计算资源分配问题提供了一种有效的解决方案。  相似文献   

11.
机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。  相似文献   

12.
王凌  潘子肖 《控制与决策》2021,36(11):2609-2617
流水车间调度是应用背景最为广泛的调度问题,其智能算法研究具有重要的学术意义和应用价值.以最小化最大完工时间为目标,提出求解流水车间调度的一种基于深度强化学习与迭代贪婪算法的框架.首先,设计一种新的编码网络对问题进行建模,解决了传统模型受问题规模影响而难以扩展的缺陷,井利用强化学习训练模型以获取优良输出结果;然后,提出一...  相似文献   

13.
Human-Robot Collaboration (HRC) presents an opportunity to improve the efficiency of manufacturing processes. However, the existing task planning approaches for HRC are still limited in many ways, e.g., co-robot encoding must rely on experts’ knowledge and the real-time task scheduling is applicable within small state-action spaces or simplified problem settings. In this paper, the HRC assembly working process is formatted into a novel chessboard setting, in which the selection of chess piece move is used to analogize to the decision making by both humans and robots in the HRC assembly working process. To optimize the completion time, a Markov game model is considered, which takes the task structure and the agent status as the state input and the overall completion time as the reward. Without experts’ knowledge, this game model is capable of seeking for correlated equilibrium policy among agents with convergency in making real-time decisions facing a dynamic environment. To improve the efficiency in finding an optimal policy of the task scheduling, a deep-Q-network (DQN) based multi-agent reinforcement learning (MARL) method is applied and compared with the Nash-Q learning, dynamic programming and the DQN-based single-agent reinforcement learning method. A height-adjustable desk assembly is used as a case study to demonstrate the effectiveness of the proposed algorithm with different number of tasks and agents.  相似文献   

14.
针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能.  相似文献   

15.
郭方洪  何通  吴祥  董辉  刘冰 《控制理论与应用》2022,39(10):1881-1889
随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度.  相似文献   

16.
新起的智能交通系统在改善交通流量,优化燃油效率,减少延误和提高整体驾驶经验方面有望发挥重要作用。现今,交通拥堵是困扰人类的一个极其严重的问题,特别是一些城市交通密集的十字路口处可能会更加严重。对信号控制系统的奖励机制进行了改进,将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励,并且通过密集采样策略与多路口信号控制相结合的方式,运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件(SUMO)完成,从实验结果表明,改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。  相似文献   

17.
目前对于随机工期的分布式资源受限多项目调度问题(SDRCMPSP)的研究较少且大多数为静态调度方案,无法针对环境的变化实时地对策略进行调整优化,及时响应频繁发生的动态因素。为此建立了最小化总拖期成本为目标的随机资源受限多项目动态调度DRL模型,设计了相应的智能体交互环境,采用强化学习中的DDDQN算法对模型进行求解。实验首先对算法的超参数进行灵敏度分析,其次将最优组合在活动工期可变和到达时间不确定两种不同条件下对模型进行训练及测试,结果表明深度强化学习算法能够得到优于任意单一规则的调度结果,有效减少随机资源受限多项目期望总拖期成本,多项目调度决策优化提供良好的依据。  相似文献   

18.
季颖  王建辉 《控制与决策》2022,37(7):1675-1684
提出一种基于深度强化学习的微电网在线优化调度策略.针对可再生能源的随机性及复杂的潮流约束对微电网经济安全运行带来的挑战,以成本最小为目标,考虑微电网运行状态及调度动作的约束,将微电网在线调度问题建模为一个约束马尔可夫决策过程.为避免求解复杂的非线性潮流优化、降低对高精度预测信息及系统模型的依赖,设计一个卷积神经网络结构学习最优的调度策略.所提出的神经网络结构可以从微电网原始观测数据中提取高质量的特征,并基于提取到的特征直接产生调度决策.为了确保该神经网络产生的调度决策能够满足复杂的网络潮流约束,结合拉格朗日乘子法与soft actor-critic,提出一种新的深度强化学习算法来训练该神经网络.最后,为验证所提出方法的有效性,利用真实的电力系统数据进行仿真.仿真结果表明,所提出的在线优化调度方法可以有效地从数据中学习到满足潮流约束且具有成本效益的调度策略,降低随机性对微电网运行的影响.  相似文献   

19.
在现代处理器中,存储控制器是处理器芯片对片外存储器进行访问的管理者和执行者,其中对访存过程的调度算法会对实际访存性能产生十分重要的影响。针对已有调度算法在不同负载特征下自适应性不足的问题,提出了一种基于强化学习方法的ALHS算法,通过对访存调度中页命中优先时的连续页命中上限次数进行自适应调整,习得最优策略。多种不同典型访存模式的模拟结果显示,相比传统的FR-FCFS,ALHS算法运行速度平均提升了10.98%,并且可以获得近似于最优策略的性能提升,表明该算法能够自主探索环境并自我优化。  相似文献   

20.
王童  李骜  宋海荦  刘伟  王明会 《控制与决策》2022,37(11):2799-2807
针对现有基于深度强化学习(deep reinforcement learning, DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning, HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号