基于多估计器平均值的深度确定性策略梯度算法 |
| |
引用本文: | 李琳,李玉泽,张钰嘉,魏巍.基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报(工学版),2022(2):15-21. |
| |
作者姓名: | 李琳 李玉泽 张钰嘉 魏巍 |
| |
摘 要: | 为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDP G-MME)算法.基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算法首先计算2个评论家输出值的最小值和剩余(k-2)个评论家输出值的平均值,再取两者的平...
|
关 键 词: | 强化学习 行动者-评论家 低估计 多估计器 策略梯度 |
|
|