首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 109 毫秒
1.
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。  相似文献   

2.
一种多步Q强化学习方法   总被引:1,自引:0,他引:1  
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。  相似文献   

3.
强化学习算法研究   总被引:2,自引:0,他引:2  
针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在莱状态下选择动作的策略以及无导师在线学习等特性.在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna,Prioritized Sweeping、Sarsa)的基础上,对TS(λ)、Q_learning的算法进行分析,并将其应用到实验中.实验结果表明,强化学习中的TS(λ)、Q_learning等算法在不同情况下都能高效地解决避障等问题.  相似文献   

4.
针对现有移动机器人路径规划方法存在的收敛速度慢和难以进行在线规划的问题,研究了一种基于状态聚集SOM网和带资格迹Q学习的移动机器人路径动态规划方法——SQ(λ);首先,设计了系统的总体闭环规划模型,将整个系统分为前端(状态聚集)和后端(路径规划);然后,在传统的SOM基础上增加输出层构建出三层的SOM网实现对移动机器人状态的聚集,并给出了三层SOM网的训练算法;最后,基于聚集的状态提出了一种基于带资格迹和探索因子自适应变化的改进Q学习算法实现最优策略的获取,并能根据改进Q学习算法的收敛速度自适应地控制前端SOM输出层神经元的增减,从而改进整体算法的收敛性能;仿真实验表明:文中设计的SQ(λ)能有效地实现移动机器人的路径规划,较其它算法相比,具有收敛速度快和寻优能力强的优点,具有较大的优越性。  相似文献   

5.
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep [Q] Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep [Q] Network)算法。利用公测平台OpenAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。  相似文献   

6.
固定长度经验回放对Q学习效率的影响   总被引:1,自引:0,他引:1  
提出了一种固定长度经验回放的思想,并将该思想与一步Q和pengQ(λ)学习算法相结合,得到了相应的改进算法。该文采用不同的回放长度L将改进的算法应用在网格环境和汽车爬坡问题中进行了仿真。结果表明,改进的一步Q学习算法在两个例子中都比原算法具有更好的学习效率。改进的PengQ(λ)学习在马尔呵夫环境中对选择探索动作非常敏感。增大L几乎不能提高学习的效率,甚至会使学习效率变差;但是在具有非马尔可夫属性的环境中对选择探索动作比较不敏感,增大L能够显著提高算法的学习速度。实验结果对如何选择适当的L有着指导作用。  相似文献   

7.
Q学习算法在库存控制中的应用   总被引:9,自引:0,他引:9  
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习 方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的 有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法 在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型 未知的工程控制问题中的应用潜力.  相似文献   

8.
分析了量子行为粒子群优化算法,着重研究了算法中的收缩扩张参数及其控制方法,针对不同的参数控制策略对算法性能的影响特点,提出将Q学习方法用于算法的参数控制策略,在算法搜索过程中能够自适应调整选择参数,提高算法的整体优化性能;并将改进后的Q学习量子粒子群算法与固定参数选择策略,线性下降参数控制策略和非线性下降参数控制策略方法通过CEC2005 benchmark测试函数进行了比较,对结果进行了分析。  相似文献   

9.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.  相似文献   

10.
基于SA-FQL算法的区域交通控制方法   总被引:1,自引:1,他引:0       下载免费PDF全文
将模拟退火算法的Metropolis准则用于平衡模糊Q学习中探索和扩张之间的关系,提出基于Metropolis准则的模糊Q学习算法Simulated Annealing Fuzzy Q-learning(SA-FQL)。利用SA-FQL算法优化区域的公共周期,在给定周期的基础上再用SA-FQL算法优化区域中各干线相邻两路口的相位差,最后根据交通流量确定各路口的绿信比。TSIS仿真结果表明,相比基于Q学习和模糊Q学习的控制方法,该方法能显著提高学习速度和交通效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号