Keepaway抢球任务中基于策略重用的迁移学习算法 Transfer Learning Algorithm between Keepaway Tasks Based on Policy Reuse期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Keepaway抢球任务中基于策略重用的迁移学习算法

引用本文：	李学俊,陈士洋,张以文,李龙澍.Keepaway抢球任务中基于策略重用的迁移学习算法[J].计算机科学,2015,42(4):190-193, 225.

作者姓名：	李学俊陈士洋张以文李龙澍

作者单位：	安徽大学计算机科学与技术学院合肥230601

基金项目：	本文受安徽省自然科学基金项目(1408085MF132),安徽大学青年骨干教师培养(02303301)资助

摘要：	在RoboCup Keepaway中,球员使用强化学习能获得很好的高层策略.然而由于Keepaway任务的状态空间巨大,强化学习需要探索很多步才能收敛,学习过程十分耗时.针对这一问题,对于5v4规模的Keepaway任务,将策略重用技术应用于抢球球员高层决策的强化学习中,以实现迁移学习.首先合理设计了球员在4v3和5v4任务间的迁移学习方案及状态与动作空间的映射,然后提出了基于策略重用的迁移学习算法.实验表明,对于5v4任务,在训练时间约束下,迁移学习比强化学习获得了更短的任务完成时间和更高的抢断成功率,从而学习到了较优的高层策略.因此,为达到相同策略水平,迁移学习所需的训练时间明显比强化学习少.
关键词：	机器人足球 Keepaway 抢球策略策略重用迁移学习
Transfer Learning Algorithm between Keepaway Tasks Based on Policy Reuse

LI Xue-jun,CHEN Shi-yang,ZHANG Yi-wen and LI Long-shu.Transfer Learning Algorithm between Keepaway Tasks Based on Policy Reuse[J].Computer Science,2015,42(4):190-193, 225.

Authors:	LI Xue-jun CHEN Shi-yang ZHANG Yi-wen and LI Long-shu

Affiliation:	School of Computer Science and Technology,Anhui University,Hefei 230601, China,School of Computer Science and Technology,Anhui University,Hefei 230601, China,School of Computer Science and Technology,Anhui University,Hefei 230601, China and School of Computer Science and Technology,Anhui University,Hefei 230601, China

Abstract:

Keywords:	RoboCup soccer Keepaway Stealing police Policy reuse Transfer learning
本文献已被万方数据等数据库收录！
	点击此处可从《计算机科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏