首页 | 官方网站   微博 | 高级检索  
     

基于任务空间网格分割的强化学习算法
引用本文:祖立鹏,王文学.基于任务空间网格分割的强化学习算法[J].小型微型计算机系统,2023(12):2633-2639.
作者姓名:祖立鹏  王文学
作者单位:1. 中国科学院沈阳自动化研究所机器人学国家重点实验室;2. 中国科学院沈阳自动化研究所;3. 中国科学院大学;4. 中国科学院机器人与智能制造创新研究院
基金项目:国家自然科学基金项目(61925307,61821005,91748212)资助;
摘    要:强化学习中设计合理的奖励函数具有重要的意义,但这也是具有挑战性的,尤其是在实际机器人控制任务中.因此,能够在稀疏奖励的环境中探索有效的强化学习算法是当前持续关注的问题.目前虽然已经有许多在稀疏奖励下的强化学习算法研究,但从结果来看,这些算法在机器人的控制精度以及训练时间等方面均需要很大程度的优化和提升.本文提出了一种基于任务空间网格分割的强化学习算法,能够在稀疏奖励函数下,以较快的训练速度实现较高控制精度的机器人的任务成功率.该算法首先优化行为克隆损失函数梯度的系数,来获得更快的训练收敛效果;随后基于任务空间分割的策略获取优质示范样本补充到示范样本库中来实现更高的任务成功率.仿真实验结果表明,该算法在机械臂抓取控制任务中能够有效地提高训练速度和任务成功率,在5mm控制精度要求下平均任务成功率可达到90%以上.

关 键 词:强化学习  模仿学习  空间网格分割  稀疏奖励函数  机械臂抓取
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号