首页 | 官方网站   微博 | 高级检索  
     

基于BP神经网络的双层启发式强化学习方法
引用本文:刘智斌,曾晓勤,刘惠义,储荣. 基于BP神经网络的双层启发式强化学习方法[J]. 计算机研究与发展, 2015, 0(3): 579-587
作者姓名:刘智斌  曾晓勤  刘惠义  储荣
作者单位:1. 曲阜师范大学信息科学与工程学院山东日照 276826; 河海大学计算机与信息学院南京 210098
2. 河海大学计算机与信息学院南京 210098
基金项目:国家自然科学基金项目(60971088,60571048)
摘    要:强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法NNH‐QL ,改变了传统强化学习过程的盲目性.作为定性层,高层由BP神经网络构成,它不需要由外界提供背景知识,利用Shaping技术,将在线获取的动态知识对底层基于表格的Q学习过程进行趋势性启发.算法利用资格迹技术训练神经网络以提高学习效率.NN H‐QL方法既发挥了标准Q学习的灵活性,又利用了神经网络的泛化性能,为解决较大状态空间下的强化学习问题提供了一个可行的方法.实验结果表明:该方法能够较好地提高强化学习的性能且具有明显的加速效果.

关 键 词:NN H-QL  强化学习  Q学习  神经网络  路径规划

A Heuristic Two-layer Reinforcement Learning Algorithm Based on BP Neural Ne two rks
Liu Zhibin , Zeng Xiaoqin , Liu Huiyi , Chu Rong. A Heuristic Two-layer Reinforcement Learning Algorithm Based on BP Neural Ne two rks[J]. Journal of Computer Research and Development, 2015, 0(3): 579-587
Authors:Liu Zhibin    Zeng Xiaoqin    Liu Huiyi    Chu Rong
Affiliation:Liu Zhibin;Zeng Xiaoqin;Liu Huiyi;Chu Rong;School of Information Science and Engineering,Qufu Normal University;College of Computer and Information,Hohai University;
Abstract:
Keywords:NNH-QL  reinforcement learning  Q-learning  neural networks  path planning
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号