首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 78 毫秒
1.
强化学习方法在移动机器人导航中的应用   总被引:1,自引:0,他引:1  
路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力.  相似文献   

2.
目的寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法.方法针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断TD(λ)的Q学习算法,并在计算机上实现了该算法.结果与结论在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断TD(λ)的Q学习能够加速算法收敛.  相似文献   

3.
为解决单向快速探索随机树(rapid exploring random tree,RRT)算法路径规划效率低且易陷入局部极小点的问题,提出了一种自适应启发式多快速探索随机树(adaptive heuristic multiple rapid exploring random tree,AHMRRT)路径规划算法.一方面,基于多随机树构建策略的AHMRRT算法可以在起始点、目标点、子目标点生成4棵随机树,同时进行扩展搜索,从而提高路径规划效率;另一方面,通过在单棵随机树生长过程中添加自适应启发式偏置因子,AHMRRT算法可以根据环境中障碍物的情况自适应地改变新节点的生成策略.探索自由空间时,该算法可以在偏置因子的作用下迅速向目标点扩展以提高搜索效率;探索多障碍物空间时,该算法将调用随机采样函数以防止落入局部最优.在仿真实验中,设计了4种环境下AHMRRT算法与随机概率目标快速探索随机树(probability goal RRT,PGRRT)、双向快速探索随机树(bidirectional RRT,BRRT)算法的对比实验,仿真实验结果证明了该算法的可行性和高效性.  相似文献   

4.
针对物流配送中的选址-路径问题,在车辆路径安排时加入了碳排放的考虑,建立了包含碳排放、配送成本和客户满意度的多目标优化模型,提出了一种基于禁忌搜索的超启发式算法.在超启发式算法的框架中,构建了一系列基于问题特征的底层启发式算子,设计了禁忌搜索作为高层启发式策略.以某地区物流配送实例进行仿真实验,通过超启发式算法和NSGA-II算法比较证明,所提算法可以更好地解决选址路径的多目标问题,能较快地找到更优解,达到较高的搜索效率和算法稳定性.与传统的启发式算法相比,该算法具有很好的通用性,可以很容易推广到其他选址-路径变种问题上.  相似文献   

5.
介绍了一种应用在静态交通中最短路径规划的改进启发式A-star算法,首先对该算法中的关键步骤进行了描述和分析,然后针对传统采用数组或链表模式实现算法时占用资源过多或效率不高的情况,提出采用哈希表来优化算法,最后以湖北省的路径规划为实例对算法进行了测试和分析,证明引入哈希表对路网数据进行存储和检索,能实现规划数据的快速查找和计算,大幅度提高算法执行效率,减少实现的复杂度.  相似文献   

6.
针对核电站水下机器人在核环境中的任务要求,采用启发式搜索和分块遍历算法,分别研究了机器人的点对点全局路径规划以及完全覆盖路径规划,并应用Lab VIEW Robotics、Robot Basic对机器人规划进行了仿真与分析。从仿真结果可知,算法可以有效提高作业效率,为机器人完成作业任务打下了基础。  相似文献   

7.
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法.  相似文献   

8.
针对传统Q-learning算法在路径规划中存在收敛速度慢、难以平衡探索与利用的关系等问题,采用改进后的势场对Q-learning算法的Q表初值进行优化,引入多步长策略减少算法的迭代次数和路径中的拐点个数,加入动态调节贪婪因子平衡探索与利用的关系。仿真结果证明,与Q-learnig算法相比,改进后的IMD-Q-learnig算法可将最优路径长度缩短79.09%,拐点个数减少46.67%,算法效率提升88.40%。  相似文献   

9.
针对无线传感网中能源高效的实时数据收集问题,提出了包含节点聚簇、路径规划、合并路径和数据收集4个阶段的移动数据收集协议和节省开销及近邻2个启发式路径规划算法,构建了满足时延且移动开销最小的数据收集路径.仿真结果表明,提出的路径规划算法在节约网络能耗、保证时延要求和减少移动开销等方面都更具优势.  相似文献   

10.
针对传统的采样类轨迹规划算法存在随机性、计算效率低等问题,根据机械臂运动学约束,给出关于关节空间的启发式采样轨迹规划算法。采用拉格朗日法建立二自由度机械臂的动力学模型,以角加速度为采样对象,通过积分器采集角速度与角度位移进行转矩的实时检测,结合启发式采样算法,实现给定目标位姿的轨迹自动规划;且对机械臂两关节在不同负载下的运动位置、速度在MATLAB中进行仿真,并与传统的B-spline轨迹规划方法比较。结果表明,启发式采样算法可实现不同负载下给定目标位姿路径的自动规划,且在时效性及路径规划上具有优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号