首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
移动边缘计算(MEC)系统中,因本地计算能力和电池能量不足,终端设备可以决定是否将延迟敏感性任务卸载到边缘节点中执行。针对卸载过程中用户任务随机产生且系统资源动态变化问题,提出了一种基于异步奖励的深度确定性策略梯度(asynchronous reward deep deterministic policy gradient,ARDDPG)算法。不同于传统独立任务资源分配采用顺序等待执行的策略,该算法在任务产生的时隙即可执行资源分配,不必等待上一个任务执行完毕,以异步模式获取任务计算奖励。ARDDPG算法在时延约束下联合优化了任务卸载决策、动态带宽分配和计算资源分配,并通过深度确定性策略梯度训练神经网络来探索最佳优化性能。仿真结果表明,与随机策略、基线策略和DQN算法相比,ARDDPG算法在不同时延约束和任务生成率下有效降低了任务丢弃率和系统的时延和能耗。  相似文献   

2.
无人机(UAV)灵活机动、易于部署,可以辅助移动边缘计算(MEC)帮助无线系统提高覆盖范围和通信质量,但UAV辅助MEC系统研究中存在计算延迟需求和资源管理等挑战。针对UAV为地面多个终端设备提供辅助计算服务的时延问题,提出一种基于双延迟深度确定性策略梯度(TD3)的时延最小化任务卸载算法(TD3-TOADM)。首先,将优化问题建模为在能量约束下的最小化最大计算时延的问题;其次,通过TD3-TOADM联合优化终端设备调度、UAV轨迹和任务卸载比来最小化最大计算时延。仿真实验分析结果表明,与分别基于演员-评论家(AC)、深度Q网络(DQN)以及深度确定性策略梯度(DDPG)的任务卸载算法相比,TD3-TOADM得到的计算时延减小了8.2%以上。可见TD3-TOADM能获得低时延的最优卸载策略,具有较好的收敛性和鲁棒性。  相似文献   

3.
针对传统深度强化学习(deep reinforcement learning,DRL)中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习(MADRL)的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据多跳的问题,建立了灾害应急场景下基于MADRL的任务卸载模型;然后,针对传统DRL由高维动作空间导致的收敛缓慢问题,利用自适应差分进化算法(ADE)的变异和交叉操作探索动作空间,提出了自适应参数调整策略调整ADE的迭代次数,避免DRL在训练初期对动作空间的大量无用探索;最后,为进一步提高传统DRL经验重放组中的数据利用率,加入优先级经验重放技术,加速网络训练过程。仿真结果表明,ADE-DDPG算法相比改进的深度确定性策略梯度网络(deep deterministic policy gradient,DDPG)节约了35%的整体开销,验证了ADE-DDPG在性能上的有效性。  相似文献   

4.
当计算任务被转移到移动边缘计算(MEC)服务器上时,通过服务缓存能够降低获取和初始化服务应用程序的实时时延和带宽成本。此外,体验质量是驱动卸载决策的关键因素,有效利用有限的计算资源能够提升用户满意度。考虑一个边缘服务器帮助移动用户执行一系列计算任务的场景,建立混合整数非线性规划问题,提出一种基于深度确定性策略梯度(DDPG)的算法来联合优化服务缓存位置、计算卸载决策和资源分配,从而提高用户对服务的体验质量,最大化用户使用计算资源所节约的成本。仿真结果表明,该算法在提高用户体验质量和节约成本方面较使用无缓存策略、随机选择策略和无缓存随机选择策略的算法性能更优。  相似文献   

5.
在多用户多任务场景下, 使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策, 已经不能满足用户对决策效率和资源利用率的要求. 因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求, 但是这些算法大多只考虑卸载优先的策略, 这种策略使用户设备(UE)被大量闲置. 我们提高了移动边缘计算(MEC)服务器和用户设备(UE)的资源利用率, 降低计算卸载的错误率, 提出了一种本地优先和改进TD3(twin delayed deep deterministic policy gradient)算法相结合的决策卸载模型, 并设计了仿真实验, 通过实验证明该模型确实可以提高MEC服务器和UE的资源利用率并降低错误率.  相似文献   

6.
为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。  相似文献   

7.
针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep de-terministic policy gradient,DDPG)算法来优化对话策略.在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略.实验结果表明,该方法能够加快模型的收敛速度,提升任务成功率.  相似文献   

8.
时圣苗  刘全 《自动化学报》2022,48(7):1816-1823
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能.  相似文献   

9.
针对传统智能优化算法处理不确定复杂环境下多UAV集结航路规划存在计算量大、耗时长的问题,提出了一种基于互惠速度障碍法(reciprocal velocity obstacle,RVO)的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。引入互惠速度障碍法指导UAV对不确定环境内障碍进行避碰,有效提高了目标actor网络的收敛速度,增强了算法的学习效率。设计了一种基于综合代价的奖励函数,将多UAV航路规划中的多目标优化问题转化为DDPG算法的奖励函数设计问题,该设计有效解决了传统DDPG算法易产生局部最优解的问题。基于Pycharm软件平台通过仿真验证了该算法的性能,并与多种算法进行对比。仿真实验表明,RVO-DDPG算法具有更快的决策速度和更好的实用性。  相似文献   

10.
移动边缘计算(mobile edge computing, MEC)已逐渐成为有效缓解数据过载问题的手段, 而在高人流密集的场景中, 固定在基站上的边缘服务器可能会因网络过载而无法提供有效的服务. 考虑到时延敏感型的通信需求, 双层无人机(unmanned aerial vehicle, UAV)的高机动性和易部署性成为任务计算卸载的理想选择, 其中配备计算资源的顶层无人机(top-UAV, T-UAV)可以为抓拍现场画面的底层UAV (bottom-UAV, B-UAV)提供卸载服务. B-UAV搭载拍摄装置, 可以选择本地计算或将部分任务卸载给T-UAV进行计算. 文中构建了双层UAV辅助的MEC系统模型, 并提出了一种DDPG-CPER (deep deterministic policy gradient offloading algorithm based on composite prioritized experience replay)新型计算卸载算法. 该算法综合考虑了决策变量的连续性以及在T-UAV资源调度和机动性等约束条件下优化了任务执行时延, 提高了处理效率和响应速度, 以保证现场观众对比赛的实时观看体验. 仿真实验结果表明, 所提算法表现出了比DDPG等基线算法更快的收敛速度, 能够显著降低处理延迟.  相似文献   

11.
为满足自适应巡航系统跟车模式下的舒适性需求并兼顾车辆安全性和行车效率,解决已有算法泛化性和舒适性差的问题,基于深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),提出一种新的多目标车辆跟随决策算法.根据跟随车辆与领航车辆的相互纵向运动学特性,建立车辆跟随过程的马尔可夫决策过程(Markov decision process,MDP)模型.结合最小安全距离模型,设计一个高效、舒适、安全的车辆跟随决策算法.为提高模型收敛速度,改进了DDPG算法经验样本的存储方式和抽取策略,根据经验样本重要性的不同,对样本进行分类存储和抽取.针对跟车过程的多目标结构,对奖赏函数进行模块化设计.最后,在仿真环境下进行测试,当测试环境和训练环境不同时,依然能顺利完成跟随任务,且性能优于已有跟随算法.  相似文献   

12.
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络。为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值。实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路。  相似文献   

13.
水下高速航行体由于空泡特性导致其数学模型存在强非线性和强不确定性,经典控制方法如线性二次型调节控制(linear quadratic regulator, LQR)、切换控制等很难实现有效控制。针对水下高速航行体模型难以准确解耦或线性化处理;经典控制方法难以充分考虑水下环境复杂多变性以及在应对扰动时控制器可能会出现过饱和现象的问题,采用智能控制中的强化学习算法,使用在不基于准确模型的条件下与环境不断探索与交互得到控制策略的策略,完成了深度确定性策略梯度(deep deterministic policy gradient,DDPG)智能体控制器的设计。实验结果证明,设计的控制器能够保证水下高速航行体纵向运动的稳定控制,在执行器不超过饱和范围内能够应对扰动并完成下潜控制任务,具有较强的鲁棒性和更好的适应性。  相似文献   

14.
针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏...  相似文献   

15.
针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。  相似文献   

16.
随着许多计算密集型应用的出现,移动设备因其有限的计算能力无法满足用户时延、能耗等需求。移动边缘计算(MEC)通过无线信道将用户的任务计算卸载到MEC服务器,从而显著减少任务响应时延和能耗。针对多用户任务卸载问题,提出了基于稳定匹配的多用户任务卸载策略(MUTOSA),在保证用户的时延要求下达到能耗最小化。首先,在综合考虑时延与能耗的基础上,对独立任务场景下的多用户任务卸载问题进行建模;然后,基于博弈论的稳定匹配中的延迟接收思想,提出了一种调整策略;最后,通过不断迭代,解决了多用户任务卸载问题。实验结果表明,该策略相较于基准策略和启发式策略能够满足更多用户的时延要求,平均提高约10%的用户满意度,并能减少约50%的用户设备总能耗。所提策略在保证用户时延要求的同时有效地减少了能耗,可以有效地提高用户对于时延敏感型应用的体验。  相似文献   

17.
移动边缘计算(Mobile Edge Computing, MEC)用于增强低功耗网络的数据处理能力,目前已成为一种高效的计算范例。文中考虑了由多个终端(Mobile Terminal, MT)组成的边云协同系统及其资源分配策略。为降低MTs的时延总和,采用多种卸载模式,提出了基于深度强化学习的任务卸载算法,该算法将深度神经网络(Deep Neural Network, DNN)作为一个可伸缩的解决方案来实现,从经验中学习多进制卸载模式来最小化时延总和。仿真结果表明,与深度Q网络(Deep Q Network, DQN)算法及深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法相比,所提算法在最大性能增益上提升显著。此外,从仿真结果中可以看出,所提算法具有较好的收敛性,该算法的结果接近穷举搜索得到的最优解。  相似文献   

18.
针对车联网(IoV)中存在大量的车辆卸载任务计算需求,而本地端边缘服务器运算能力有限的问题,提出一种移动边缘计算分层协同资源配置机制(HRAM)。所提算法以多层式的架构合理分配与有效利用移动边缘计算(MEC)服务器的运算资源,减少不同MEC服务器之间的数据多跳转发时延,并优化卸载任务请求时延。首先构建IoV边缘计算系统模型、通信模型、决策模型和计算模型;然后利用层次分析法(AHP)进行多因素综合考虑以确定卸载任务迁移的目标服务器;最后提出动态权值的任务路由策略,调用整体网络的通信能力以缩短卸载任务的请求时延。仿真实验结果表明,HRAM算法相较于任务卸载单层式资源分配(RATAOS)算法和任务卸载多层式资源分配(RATOM)算法,分别降低了40.16%和19.01%的卸载任务请求时延;且所提算法在满足卸载任务最大可容忍时延的前提下,能够满足更多卸载任务的计算需求。  相似文献   

19.
移动边缘计算(MEC)服务器通过向用户提供计算资源获得收益。对MEC服务器而言,如何在计算资源受限的情况下提高自身收益至关重要,为此提出一种通过优化计算任务执行次序提高MEC服务器收益的策略。首先,将MEC服务器收益最大化问题建模为以任务执行次序为优化变量的优化问题;然后提出了一种基于分支定界法的算法求解任务执行次序。仿真结果表明,采用所提算法获得的MEC服务器平均收益分别比大任务优先(LTF)算法、低延迟任务优先(LLTF)算法和先到先服务(FCFS)算法提高了11%、14%和21%。在保证卸载用户服务质量(QoS)同时,所提策略可以显著提高服务器的收益。  相似文献   

20.
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号