共查询到10条相似文献,搜索用时 109 毫秒
1.
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。 相似文献
2.
3.
4.
针对现有移动机器人路径规划方法存在的收敛速度慢和难以进行在线规划的问题,研究了一种基于状态聚集SOM网和带资格迹Q学习的移动机器人路径动态规划方法——SQ(λ);首先,设计了系统的总体闭环规划模型,将整个系统分为前端(状态聚集)和后端(路径规划);然后,在传统的SOM基础上增加输出层构建出三层的SOM网实现对移动机器人状态的聚集,并给出了三层SOM网的训练算法;最后,基于聚集的状态提出了一种基于带资格迹和探索因子自适应变化的改进Q学习算法实现最优策略的获取,并能根据改进Q学习算法的收敛速度自适应地控制前端SOM输出层神经元的增减,从而改进整体算法的收敛性能;仿真实验表明:文中设计的SQ(λ)能有效地实现移动机器人的路径规划,较其它算法相比,具有收敛速度快和寻优能力强的优点,具有较大的优越性。 相似文献
5.
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep [Q] Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep [Q] Network)算法。利用公测平台OpenAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。 相似文献
6.
固定长度经验回放对Q学习效率的影响 总被引:1,自引:0,他引:1
提出了一种固定长度经验回放的思想,并将该思想与一步Q和pengQ(λ)学习算法相结合,得到了相应的改进算法。该文采用不同的回放长度L将改进的算法应用在网格环境和汽车爬坡问题中进行了仿真。结果表明,改进的一步Q学习算法在两个例子中都比原算法具有更好的学习效率。改进的PengQ(λ)学习在马尔呵夫环境中对选择探索动作非常敏感。增大L几乎不能提高学习的效率,甚至会使学习效率变差;但是在具有非马尔可夫属性的环境中对选择探索动作比较不敏感,增大L能够显著提高算法的学习速度。实验结果对如何选择适当的L有着指导作用。 相似文献
7.
Q学习算法在库存控制中的应用 总被引:9,自引:0,他引:9
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习
方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的
有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法
在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型
未知的工程控制问题中的应用潜力. 相似文献
8.
分析了量子行为粒子群优化算法,着重研究了算法中的收缩扩张参数及其控制方法,针对不同的参数控制策略对算法性能的影响特点,提出将Q学习方法用于算法的参数控制策略,在算法搜索过程中能够自适应调整选择参数,提高算法的整体优化性能;并将改进后的Q学习量子粒子群算法与固定参数选择策略,线性下降参数控制策略和非线性下降参数控制策略方法通过CEC2005 benchmark测试函数进行了比较,对结果进行了分析。 相似文献
9.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 相似文献
10.
将模拟退火算法的Metropolis准则用于平衡模糊Q学习中探索和扩张之间的关系,提出基于Metropolis准则的模糊Q学习算法Simulated Annealing Fuzzy Q-learning(SA-FQL)。利用SA-FQL算法优化区域的公共周期,在给定周期的基础上再用SA-FQL算法优化区域中各干线相邻两路口的相位差,最后根据交通流量确定各路口的绿信比。TSIS仿真结果表明,相比基于Q学习和模糊Q学习的控制方法,该方法能显著提高学习速度和交通效率。 相似文献