首页 | 官方网站   微博 | 高级检索  
     

基于TD(λ)的自然梯度强化学习算法
引用本文:陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189.
作者姓名:陈圣磊  谷瑞军  陈耿  薛晖
作者单位:1. 南京审计学院信息科学学院,南京,211815
2. 东南大学计算机科学与工程学院,南京,210096
基金项目:本文受国家自然科学基金项目(70971067,60905002),江苏省高校自然科学重大基础研究项目(08KJA520001),江苏省六大人才高峰项目(2007148)资助。
摘    要:近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法。TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度。车杆平衡系统仿真实验验证了所提算法的有效性。

关 键 词:策略梯度,自然梯度,TD(λ),资格迹

Natural Gradient Reinforcement Learning Algorithm with TD(λ)
CHEN Sheng-lei,GU Rui-jun,CHEN Geng,XUE Hui.Natural Gradient Reinforcement Learning Algorithm with TD(λ)[J].Computer Science,2010,37(12):186-189.
Authors:CHEN Sheng-lei  GU Rui-jun  CHEN Geng  XUE Hui
Affiliation:(School of Information Science,}anjing Audit University, Nanjing 211815,China);(School of Computer Science and Engineering, Southeast University, Nanjing 210096,China)
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号