基于多估计器平均值的深度确定性策略梯度算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多估计器平均值的深度确定性策略梯度算法

引用本文：	李琳,李玉泽,张钰嘉,魏巍.基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报(工学版),2022(2):15-21.

作者姓名：	李琳李玉泽张钰嘉魏巍

摘要：	为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDP G-MME)算法.基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算法首先计算2个评论家输出值的最小值和剩余(k-2)个评论家输出值的平均值,再取两者的平...
关键词：	强化学习行动者-评论家低估计多估计器策略梯度