首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
平均奖赏强化学习算法研究   总被引:7,自引:0,他引:7  
高阳  周如益  王皓  曹志新 《计算机学报》2007,30(8):1372-1378
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.  相似文献   

2.
针对粒子群算法在求解复杂多峰函数时存在早熟、易陷入局部最优、全局收敛性能差等缺陷,考虑种群结构、多模式学习和个体间博弈等因素,提出了具有博弈概率选择的多子群粒子群算法.该算法从改善群体多样性、提升个体搜索能力的角度出发,构建了动态多种群结构,并针对每个子群构建不同的学习策略(极端学习、复合学习、邻域学习和随机学习),子群间进行最优信息共享,形成异构多子群的多源学习方式;将进化博弈思想引入群体搜索过程中,个体通过收益矩阵和扎根概率进行策略概率选择,进入适合个体能力提升的子群进行学习.基于12个标准测试函数,针对算法中重要参数子群规模L的取值进行了组合实验,结果表明L取值N/2或N/3时,种群适应度分布及中位值具有明显优势;针对算法性能测试,利用不同维度下的标准测试函数与7种同类型算法进行对比实验,实验结果显示,改进算法在最优值、求解稳定性及收敛特征上整体优于对比算法,说明多源学习和博弈概率选择策略可以有效改善粒子群算法的性能.  相似文献   

3.
延迟容忍网络环境复杂,自体集数据规模较大造成的时空上的巨大消耗而难以处理,导致传统网格入侵匹配的数据分类过程收敛速度慢、局部最优等缺陷.为了提高网格入侵特征匹配效率,提出一种基于重复博弈的自体集网络入侵检测中的高效寻优算法.算法利用了入侵数据特征在空间上的相对集中性,在分类概率计算中,加入一种约束计算过程的博弈因子,在概率匹配过程中,通过数据博弈消除多次概率对比,并加入博弈约束计算最优反应函数,将最优反应函数求解过程看作是一个博弈的过程,计算分类优化达到的极大值.仿真结果表明,改进算法的分类匹配时间复杂度有了一定程度的降低,优化效果较为明显.  相似文献   

4.
深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定.  相似文献   

5.
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数。基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数。将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能。  相似文献   

6.
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数.  相似文献   

7.
针对动态在线任务分配策略难以有效利用历史数据进行学习、同时未考虑当前决策对未来收益的影响的问题,提出基于深度强化学习的空间众包任务分配策略.首先,以最大化长期累积收益为优化目标,基于马尔科夫决策过程从单个众包工作者的角度建模,将任务分配问题转化为对状态动作价值Q的求解及工作者与任务的一对一分配.然后采用改进的深度强化学习算法对历史任务数据进行离线学习,构建关于Q值的预测模型.最后,动态在线分配过程中实时预测Q值,作为KM(Kuhn-Munkres)算法的边权,实现全局累积收益的最优分配.在出租车真实出行数据集上的实验表明,当工作者数量在一定规模内时,文中策略可提高长期累积收益.  相似文献   

8.
在边缘计算切换策略中,针对马尔可夫决策过程(Markov decision process,MDP)传输时延高且环境适应能力差等问题,提出了一种融合模糊逻辑与马尔可夫决策过程的边缘计算切换策略。采用模糊逻辑算法将系统参数模糊化,并且将模糊值引入适应度函数,保证系统参数能够有效融合;利用差分进化算法求解适应度函数最大值,从而选取出该环境的最优规则,提高边缘计算对环境的适应能力;将适应度函数引入MDP,提高系统综合性能。该方案将移动智能设备作为任务卸载发起方,将边缘服务器作为任务卸载对象,对一维MDP切换策略、一维仅时延MDP切换策略、二维MDP切换策略、模糊逻辑MDP切换策略、最小距离切换算法和最小时延切换算法进行仿真。仿真结果表明,模糊逻辑MDP的边缘计算切换策略的任务执行平均时长为608.8 s,较一维MDP切换策略、一维仅时延MDP切换策略、二维MDP切换策略、最小距离切换算法和最小时延切换算法分别降低了27.2%、8.6%、37.1%、41%和22.3%。该方案在提高了基于MDP的边缘计算切换策略的环境适应性的同时,大幅降低了边缘计算的传输时延。  相似文献   

9.
基于博弈策略强化学习的函数优化算法   总被引:2,自引:0,他引:2  
该文提出了一种基于博弈论的函数优化算法。算法将优化问题的搜索空间映射为博弈的策略组合空间,优化目标函数映射为博弈的效用函数,通过博弈策略的强化学习过程智能地求解函数优化问题。文章给出了算法的形式定义及描述,然后在一组标准的函数优化测试集上进行了仿真运算,验证了算法的有效性。  相似文献   

10.
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.  相似文献   

11.
基于Markov对策的多Agent强化学习模型及算法研究   总被引:19,自引:0,他引:19  
在MDP,单Agent可以通过强化学习来寻找问题的最优解。但在多Agent系统中,MDP模型不再适用。同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题。文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法。理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解。  相似文献   

12.
如何消除数据中心的局部热点是困扰数据中心行业的关键问题之一.本文采用主动地板(AVT)来抑制局部机架热点现象,并将数据中心AVT控制问题抽象为马尔可夫决策过程,设计了基于深度强化学习的主动地板最优控制策略.该策略基于模型深度强化学习方法,克服了传统无模型深度强化学习方法采样效率低的缺陷.大量仿真实验结果表明,与经典无模型(PPO)方法相比,所提出的方法可迅速收敛到最优控制策略,并可以有效抑制机架热点现象.  相似文献   

13.
Aiming at human-robot collaboration in manufacturing, the operator's safety is the primary issue during the manufacturing operations. This paper presents a deep reinforcement learning approach to realize the real-time collision-free motion planning of an industrial robot for human-robot collaboration. Firstly, the safe human-robot collaboration manufacturing problem is formulated into a Markov decision process, and the mathematical expression of the reward function design problem is given. The goal is that the robot can autonomously learn a policy to reduce the accumulated risk and assure the task completion time during human-robot collaboration. To transform our optimization object into a reward function to guide the robot to learn the expected behaviour, a reward function optimizing approach based on the deterministic policy gradient is proposed to learn a parameterized intrinsic reward function. The reward function for the agent to learn the policy is the sum of the intrinsic reward function and the extrinsic reward function. Then, a deep reinforcement learning algorithm intrinsic reward-deep deterministic policy gradient (IRDDPG), which is the combination of the DDPG algorithm and the reward function optimizing approach, is proposed to learn the expected collision avoidance policy. Finally, the proposed algorithm is tested in a simulation environment, and the results show that the industrial robot can learn the expected policy to achieve the safety assurance for industrial human-robot collaboration without missing the original target. Moreover, the reward function optimizing approach can help make up for the designed reward function and improve policy performance.  相似文献   

14.
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。  相似文献   

15.
双轮驱动移动机器人的学习控制器设计方法*   总被引:1,自引:0,他引:1  
提出一种基于增强学习的双轮驱动移动机器人路径跟随控制方法,通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用基于核的最小二乘策略迭代算法(KLSPI)实现控制器参数的自学习优化。与传统表格型和基于神经网络的增强学习方法不同,KLSPI算法在策略评价中应用核方法进行特征选择和值函数逼近,从而提高了泛化性能和学习效率。仿真结果表明,该方法通过较少次数的迭代就可以获得优化的路径跟随控制策略,有利于在实际应用中的推广。  相似文献   

16.
在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题.  相似文献   

17.
We exhibit an important property called the asymptotic equipartition property (AEP) on empirical sequences in an ergodic multiagent Markov decision process (MDP). Using the AEP which facilitates the analysis of multiagent learning, we give a statistical property of multiagent learning, such as reinforcement learning (RL), near the end of the learning process. We examine the effect of the conditions among the agents on the achievement of a cooperative policy in three different cases: blind, visible, and communicable. Also, we derive a bound on the speed with which the empirical sequence converges to the best sequence in probability, so that the multiagent learning yields the best cooperative result.  相似文献   

18.
A combined short-term learning (STL) and long-term learning (LTL) approach to solving mobile-robot navigation problems is presented and tested in both the real and virtual domains. The LTL phase consists of rapid simulations that use a genetic algorithm to derive diverse sets of behaviours, encoded as variable sets of attributes, and the STL phase is an idiotypic artificial immune system. Results from the LTL phase show that sets of behaviours develop very rapidly, and significantly greater diversity is obtained when multiple autonomous populations are used, rather than a single one. The architecture is assessed under various scenarios, including removal of the LTL phase and switching off the idiotypic mechanism in the STL phase. The comparisons provide substantial evidence that the best option is the inclusion of both the LTL phase and the idiotypic system. In addition, this paper shows that structurally different environments can be used for the two phases without compromising transferability.  相似文献   

19.
车辆跟驰行为决策研究对于车辆跟驰驾驶技术的发展至关重要,以深度强化学习方法研究车辆低速跟驰场景,提出了一种改进型DDPG决策算法,该算法在DDPG算法的基础上,结合了CBF控制器以进行安全补偿控制与策略探索指导;同时,设计了符合低速跟驰期望目标的奖励函数。在对比实验中,通过高斯过程模型模拟跟驰车队系统,分别用DDPG算法和DDPG-CBF改进算法控制其中一辆车的跟驰行为,实验结果表明,相比于DDPG算法,DDPG-CBF改进算法可以更有效地保证跟驰决策的安全性,同时具有更高的学习效率,能够应用于车辆低速跟驰场景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号