首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境,对于动态可变环境缺乏处理能力.本文提出一种结合LSTM强化学习动态环境路径规划算法.首先,本文以环境图像作为输入,最大限度了保证了原始的信息来源.而后构建了自动编码器用来对环境图像进行特征降维,降低了整体模型的复杂程度.最后采用深度强化学习算法DDPG进行路径规划,其中Actor部分采用LSTM的网络构建,使Actor在决策时可以参考前序信息,做到有预测的避开动态障碍.最后通过实验证明了本文算法的可行性和高效性.  相似文献   

2.
现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低.  相似文献   

3.
郑延斌  李波  安德宇  李娜 《计算机应用》2015,35(12):3491-3496
针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能;最后,针对出租车问题在栅格环境中对所提算法进行了仿真实验。为了使算法贴近真实环境,增加算法的可移植性,在三维仿真环境中对该算法进行验证,实验结果表明该算法收敛速度快,收敛过程稳定。  相似文献   

4.
为了加深服务机器人对环境的理解,实现安全高效的智能空间导航,建立了一种信息更为丰富的环境模型——危险度地图;并针对智能空间环境部分未知的特点,设计了分层的路径规划方法.静态规划层根据已知环境信息,采用改进的粒子群优化算法规划初始最优路径,动态规划层利用基于动态危险度地图的改进A*算法进行避障.该方法克服了常规算法只追求路径最短的缺点,增加了对路径危险度的评价,规划出的路径既安全又较短;且该方法实现简单,实时性好.仿真结果验证了该方案的可行性.  相似文献   

5.
一种动态环境下移动机器人的路径规划方法   总被引:26,自引:2,他引:26  
朴松昊  洪炳熔 《机器人》2003,25(1):18-21
本文提出了在动态环境中,移动机器人的一种路径规划方法,适用于环境中存 在已知和未知、静止和运动障碍物的复杂情况.采用链接图法建立了机器人工作空间模型, 整个系统由全局路径规划器和局部路径规划器两部分组成.在全局路径规划器中,应用遗传 算法规划出初步全局优化路径.在局部路径规划器中,设计了三种基本行为:跟踪全局路径 的行为、避碰的行为和目标制导的行为,采用基于行为的方法进一步优化路径.其中,避碰 的行为是通过强化学习得到的.仿真和实验结果表明所提方法简便可行,能够满足移动 机器人导航的高实时性要求.  相似文献   

6.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

7.
分层强化学习中的动态分层方法研究   总被引:1,自引:0,他引:1  
分层强化学习中现有的自动分层方法均是在对状态空间进行一定程度探测之后一次性生成层次结构,不充分探测不能保证求解质量,过度探测则影响学习速度,为了克服学习算法性能高度依赖于状态空间探测程度这个问题,本文提出一种动态分层方法,该方法将免疫聚类及二次应答机制融入Sutton提出的Option分层强化学习框架,能对Option状态空间进行动态调整,并沿着学习轨迹动态生成Option内部策略,以二维有障碍栅格空间内两点间最短路径规划为学习任务进行了仿真实验,结果表明,动态分层方法对状态空间探测程度的依赖性很小,动态分层方法更适用于解决大规模强化学习问题.  相似文献   

8.
嵌入式环境中分层路径规划算法的改进   总被引:2,自引:1,他引:1       下载免费PDF全文
苗洋  陈奇 《计算机工程》2010,36(14):243-245
针对分层路径规划算法对上下层道路的对应关系存储耗费大量存储空间的问题,提出一种适合嵌入式环境的改进分层算法。通过在各个层次内部引入道路等级信息提高计算速度,在运算过程中动态切换搜索层次和等级达到减少分层数和数据量的目的。对比实验表明,改进算法在扩展节点数和路径规划时间方面均优于其他3种算法,且能满足嵌入式环境中高效路径规划的需求。  相似文献   

9.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。  相似文献   

10.
提出了一种新的基于动态信息模型的LPN路径规划算法。在规划方法中结合障碍物的动态信息在动态环境中能表现出更好的性能。针对原有动态信息模型的不足进行了分析和改进,提出了新的动态信息模型,并结合LPN梯度算法进行路径规划。通过仿真实验与在RoboCup中型组机器人上的测试表明了该方法的有效性。  相似文献   

11.
为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.  相似文献   

12.
面向Option的k-聚类Subgoal发现算法   总被引:3,自引:0,他引:3  
在学习过程中自动发现有用的Subgoal并创建Option,对提高强化学习的学习性能有着重要意义.提出了一种基于k-聚类的Subgoal自动发现算法,该算法能通过对在线获取的少量路径数据进行聚类的方法抽取出Subgoal.实验表明,该算法能有效地发现所有符合要求的Subgoal,与Q-学习和基于多样性密度的强化学习算法相比,用该算法发现Subgoal并创建Option的强化学习算法能有效提高Agent的学习速度.  相似文献   

13.
近年来强化学习愈发体现其强大的学习能力,2017年AlphaGo在围棋上击败世界冠军,同时在复杂竞技游戏星际争霸2和DOTA2中人类的顶尖战队也败于AI之手,但其自身又存在着自身的弱点,在不断的发展中瓶颈逐渐出现。分层强化学习因为能够解决其维数灾难问题,使得其在环境更为复杂,动作空间更大的环境中表现出更加优异的处理能力,对其的研究在近几年不断升温。对强化学习的基本理论进行简要介绍,对Option、HAMs、MAXQ这3种经典分层强化学习算法进行介绍,之后对近几年在分层的思想下提出的分层强化学习算法从3个方面进行综述,并对其进行分析,讨论了分层强化学习的发展前景和挑战。  相似文献   

14.
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。  相似文献   

15.
未知环境中移动机器人柔性的行为决策是完成各种任务的前提.目前的机器人行为决策方法在面对动态变化的环境时柔性较差,机器人难以获得持续稳定的学习能力.本文作者曾尝试通过集成小脑监督学习和基底神经节的强化学习来实现移动机器人动态环境下的柔性行为决策,但所提算法适应动态环境的能力有限.在前期工作基础上,本文设计了更有生物学意义的好奇度指标代替原来的警觉度指标,通过模拟蓝斑活动在基音模式和阶段模式之间的动态切换,实现移动机器人环境探索–利用的动态自适应调节.同时,设计随外部环境变化的自适应调节因子,实现移动机器人动态环境中基于小脑监督学习和基底神经节强化学习的柔性行为决策,使机器人可以获得持续稳定的学习能力.动态环境和实际环境中的实验结果验证了本文所提算法的有效性.  相似文献   

16.
基于内部回归神经网络的强化学习   总被引:1,自引:0,他引:1  
王瑞霞  孙亮  阮晓刚 《控制工程》2005,12(2):138-141
在强化学习和动态规划算法的基础上,提出一种不需要预测模型的改进的强化学习算法:该学习算法在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效控制不稳定的非线性系统:该学习算法的网络结构采用内部回归神经网络,这样可以增强网络本身处理动态信息的能力,使其更适合复杂系统的稳定控制。应用到一级倒立摆物理实体的控制.实验结果表明了该学习算法在性能上优于其他同类强化学习算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号