首页 | 官方网站   微博 | 高级检索  
     

基于分区缓存区重放与多线程交互的多智能体深度强化学习算法
引用本文:柴来,张婷婷,董会,王楠.基于分区缓存区重放与多线程交互的多智能体深度强化学习算法[J].计算机学报,2021,44(6):1140-1152.
作者姓名:柴来  张婷婷  董会  王楠
作者单位:陆军工程大学计算机与军用软件工程教研室 南京210007;陆军工程大学计算机与军用软件工程教研室 南京210007;东南大学仪器科学与工程学院 南京210096;中国电子科技集团公司第二十八研究所 南京210007
摘    要:近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR-MPI).首先,该算法使用分区缓存区的经验重放形式,通过划分奖励空间来区分正面经验、负面经验与中性经验,并在训练时使用分层随机的采样方式抽取这些经验数据.其次,算法运用多线程的交互方式促进了智能体与环境的试错过程,通过智能体的多个克隆体并行的学习并整合它们的学习经验来训练网络模型的参数.然后,为了构建PBR-MPI算法的适用场景,本文根据目前多智能体系统(Multi-Agent System,MAS)的最新研究进展,将多智能体的信息交互方式归纳总结为集中式信息交互、全信息交互和欠信息交互三大类.最后,将新算法与其它的多智能体DRL算法分别在三种不同的信息交互场景中进行对比实验,用于验证和评价PBR-MPI的有效性及整体性能.实验结果表明,在智能体个数为5的多智能体目标追踪任务中,缓存区数为3、线程数为5的PBR-MPI算法的学习收敛速度平均提高了21%,训练效率平均提升了34%,并且在综合性能的评估中新算法的整体性能改善了50%.

关 键 词:分区缓存区重放  多线程交互  深度强化学习  多智能体  信息交互  行为决策

Multi-Agent Deep Reinforcement Learning Algorithm Based on Partitioned Buffer Replay and Multiple Process Interaction
CHAI Lai,ZHANG Ting-Ting,DONG Hui,WANG Nan.Multi-Agent Deep Reinforcement Learning Algorithm Based on Partitioned Buffer Replay and Multiple Process Interaction[J].Chinese Journal of Computers,2021,44(6):1140-1152.
Authors:CHAI Lai  ZHANG Ting-Ting  DONG Hui  WANG Nan
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号