排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
强化学习中设计合理的奖励函数具有重要的意义,但这也是具有挑战性的,尤其是在实际机器人控制任务中.因此,能够在稀疏奖励的环境中探索有效的强化学习算法是当前持续关注的问题.目前虽然已经有许多在稀疏奖励下的强化学习算法研究,但从结果来看,这些算法在机器人的控制精度以及训练时间等方面均需要很大程度的优化和提升.本文提出了一种基于任务空间网格分割的强化学习算法,能够在稀疏奖励函数下,以较快的训练速度实现较高控制精度的机器人的任务成功率.该算法首先优化行为克隆损失函数梯度的系数,来获得更快的训练收敛效果;随后基于任务空间分割的策略获取优质示范样本补充到示范样本库中来实现更高的任务成功率.仿真实验结果表明,该算法在机械臂抓取控制任务中能够有效地提高训练速度和任务成功率,在5mm控制精度要求下平均任务成功率可达到90%以上. 相似文献
1