基于自适应调节策略熵的元强化学习算法 Meta-reinforcement Learning Algorithm Based on Automating Policy Entropy期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于自适应调节策略熵的元强化学习算法

引用本文：	陆嘉猷,凌兴宏,刘全,朱斐.基于自适应调节策略熵的元强化学习算法[J].计算机科学,2021,48(6):168-174.

作者姓名：	陆嘉猷凌兴宏刘全朱斐

作者单位：	苏州大学计算机科学与技术学院江苏苏州215006;苏州大学计算机科学与技术学院江苏苏州215006;苏州大学文正学院江苏苏州215104

摘要：	传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务.元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法.基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策略熵来优化策略.然而,目前以最大熵强化学习框架为基础的元强化学习算法普遍采用固定的温度参数,这在面对元强化学习的多任务场景时是不合理的.针对这一问题,提出了自适应调节策略熵(Automating Policy Entropy,APE)算法.该算法首先通过限制策略的熵,将原本的目标函数优化问题转换为受限优化问题,然后将受限优化问题中的对偶变量作为温度参数,通过拉格朗日对偶法求解得到其更新公式.根据得到的更新公式,温度参数将在每一轮元训练结束之后进行自适应调节.实验数据表明,所提算法在Ant-Fwd-Back和Walker-2D上的平均得分提高了200,元训练效率提升了82％;在Humanoid-Di-rec-2D上的策略收敛所需的训练步数为23万,收敛速度提升了127％.实验结果表明,所提算法具有更高的元训练效率和更好的稳定性.
关键词：	元学习强化学习最大熵
Meta-reinforcement Learning Algorithm Based on Automating Policy Entropy

LU Jia-you,LING Xing-hong,LIU Quan,ZHU Fei.Meta-reinforcement Learning Algorithm Based on Automating Policy Entropy[J].Computer Science,2021,48(6):168-174.

Authors:	LU Jia-you LING Xing-hong LIU Quan ZHU Fei

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏