基于内在动机的深度强化学习探索方法综述 |
| |
引用本文: | 曾俊杰,秦龙,徐浩添,张琪,胡越,尹全军.基于内在动机的深度强化学习探索方法综述[J].计算机研究与发展,2023(10):2359-2382. |
| |
作者姓名: | 曾俊杰 秦龙 徐浩添 张琪 胡越 尹全军 |
| |
作者单位: | 国防科技大学系统工程学院 |
| |
基金项目: | 国家自然科学基金项目(62103420,62103428,62306329);;湖南省自然科学基金项目(2021JJ40702,2023JJ40676)~~; |
| |
摘 要: | 近年来,深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.
|
关 键 词: | 深度强化学习 探索 内在动机 内在奖励 启发式 |
|
|