首页 | 官方网站   微博 | 高级检索  
     

Keepaway抢球任务中基于策略重用的迁移学习算法
引用本文:李学俊,陈士洋,张以文,李龙澍.Keepaway抢球任务中基于策略重用的迁移学习算法[J].计算机科学,2015,42(4):190-193, 225.
作者姓名:李学俊  陈士洋  张以文  李龙澍
作者单位:安徽大学计算机科学与技术学院 合肥230601
基金项目:本文受安徽省自然科学基金项目(1408085MF132),安徽大学青年骨干教师培养(02303301)资助
摘    要:在RoboCup Keepaway中,球员使用强化学习能获得很好的高层策略.然而由于Keepaway任务的状态空间巨大,强化学习需要探索很多步才能收敛,学习过程十分耗时.针对这一问题,对于5v4规模的Keepaway任务,将策略重用技术应用于抢球球员高层决策的强化学习中,以实现迁移学习.首先合理设计了球员在4v3和5v4任务间的迁移学习方案及状态与动作空间的映射,然后提出了基于策略重用的迁移学习算法.实验表明,对于5v4任务,在训练时间约束下,迁移学习比强化学习获得了更短的任务完成时间和更高的抢断成功率,从而学习到了较优的高层策略.因此,为达到相同策略水平,迁移学习所需的训练时间明显比强化学习少.

关 键 词:机器人足球  Keepaway  抢球策略  策略重用  迁移学习

Transfer Learning Algorithm between Keepaway Tasks Based on Policy Reuse
LI Xue-jun,CHEN Shi-yang,ZHANG Yi-wen and LI Long-shu.Transfer Learning Algorithm between Keepaway Tasks Based on Policy Reuse[J].Computer Science,2015,42(4):190-193, 225.
Authors:LI Xue-jun  CHEN Shi-yang  ZHANG Yi-wen and LI Long-shu
Affiliation:School of Computer Science and Technology,Anhui University,Hefei 230601, China,School of Computer Science and Technology,Anhui University,Hefei 230601, China,School of Computer Science and Technology,Anhui University,Hefei 230601, China and School of Computer Science and Technology,Anhui University,Hefei 230601, China
Abstract:
Keywords:RoboCup soccer  Keepaway  Stealing police  Policy reuse  Transfer learning
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号