首页 | 官方网站   微博 | 高级检索  
     

一种多步Q强化学习方法
引用本文:陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150.
作者姓名:陈圣磊  吴慧中  韩祥兰  肖亮
作者单位:南京理工大学计算机科学与技术系,南京,210094
摘    要:Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。

关 键 词:强化学习  MQ算法  Q学习  Q(λ)算法

A Multi-step Q Reinforcement Learning Algorithm
CHEN Sheng-Lei,WU Hui-Zhong,HAN Xiang-Lan,XIAO Liang.A Multi-step Q Reinforcement Learning Algorithm[J].Computer Science,2006,33(3):147-150.
Authors:CHEN Sheng-Lei  WU Hui-Zhong  HAN Xiang-Lan  XIAO Liang
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号