首页 | 官方网站   微博 | 高级检索  
     

基于多估计器平均值的深度确定性策略梯度算法
引用本文:李琳,李玉泽,张钰嘉,魏巍.基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报(工学版),2022(2):15-21.
作者姓名:李琳  李玉泽  张钰嘉  魏巍
摘    要:为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDP G-MME)算法.基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算法首先计算2个评论家输出值的最小值和剩余(k-2)个评论家输出值的平均值,再取两者的平...

关 键 词:强化学习  行动者-评论家  低估计  多估计器  策略梯度
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号