首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 239 毫秒
1.
针对智能车路径规划过程中常存在动态环境感知预估不足的问题,使用基于蒙特卡罗深度策略梯度学习(Monte Carlo prediction deep deterministic policy gradient, MCPDDPG)的智能车辆路径规划方法,设计一种基于环境感知预测、行为决策和控制序列生成的框架,实现实时的决策和规划,并输出连续的车辆控制序列.首先,利用序贯蒙特卡罗预估他车行为状态量;然后,设计基于强化Q学习的行为决策方法,使智能车辆实时预知碰撞风险,采取合理的规避策略;最后,构建深度策略梯度学习网络框架,获取智能车辆规划路径的最优轨迹序列.实验结果表明,所提方法能够缓解环境感知的预估不足问题,提升智能车辆行为决策的快速性,保障路径规划的主动安全,并输出连续的轨迹序列,为智能车辆导航控制提供前提.  相似文献   

2.
利用深度强化学习技术实现无信号灯交叉路口车辆控制是智能交通领域的研究热点。现有研究存在无法适应自动驾驶车辆数量动态变化、训练收敛慢、训练结果只能达到局部最优等问题。文中研究在无信号灯交叉路口,自动驾驶车辆如何利用分布式深度强化方法来提升路口的通行效率。首先,提出了一种高效的奖励函数,将分布式强化学习算法应用到无信号灯交叉路口场景中,使得车辆即使无法获取整个交叉路口的状态信息,只依赖局部信息也能有效提升交叉路口的通行效率。然后,针对开放交叉路口场景中强化学习方法训练效率低的问题,使用了迁移学习的方法,将封闭的8字型场景中训练好的策略作为暖启动,在无信号灯交叉路口场景继续训练,提升了训练效率。最后,提出了一种可以适应所有自动驾驶车辆比例的策略,此策略在任意比例自动驾驶车辆的场景中均可提升交叉路口的通行效率。在仿真平台Flow上对TD3强化学习算法进行了验证,实验结果表明,改进后的算法训练收敛快,能适应自动驾驶车辆比例的动态变化,能有效提升路口的通行效率。  相似文献   

3.
考虑车辆之间的相互影响和交通环境的不确定性,且混行交叉口的路况较为复杂,导致驾驶轨迹跟踪控制误差较大。为此提出混行交叉口下智能车辆驾驶轨迹跟踪控制方法。构建智能车辆驾驶模型,在IDM场景计算车辆加速度,确定车速和安全距离。利用线性时变模型将智能车辆驾驶轨迹线性时变表达,并建立轨迹预测方程,求出预测时域状态量和输出量;构建驾驶轨迹限制条件,引入前轮转角的控制量、控制增量与重心偏移角度,通过构建目标函数,计算实际控制量,通过设定理想时间,获取时域内外纵速度,结合欧拉积分完成驾驶轨迹跟踪控制。仿真结果表明,所提方法驾驶轨迹跟踪控制误差小,保证智能车辆安全稳定运行。  相似文献   

4.
为适应复杂环境下目标跟踪机器人高效运动规划需求,本文提出一种基于多智能体强化学习的专家型策略梯度(ML-DDPG) 方法。为此首先构建了基于最小化任务单元的分布式多Actor-Critic网络架构;随后针对机器人主动障碍清除和目标跟踪任务建立了强化学习运动学模型和视觉样本预处理机制,由此提出一种专家型策略引导的最优目标价值估计方法;进一步通过并行化训练与集中式经验共享,提升了算法的训练效率;最后在不同任务环境下测试了ML-DDPG 算法的目标跟踪与清障性能表现,和其它算法对比验证了其在陌生环境中良好的迁移与泛化能力。  相似文献   

5.
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。  相似文献   

6.
多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前,多个机器人之间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图,给多机器人系统在非结构环境下的协调与协作带来了挑战。针对上述问题,本文提出了不依赖精确地图的分布式异构多机器人导航避障方法,建立了基于深度强化学习的多特征策略梯度优化算法,并考虑了人机协同环境下的社会范式,使分布式机器人能够通过与环境的试错交互,学习最优的导航避障策略;并在Gazebo仿真环境下进行了最优策略的训练学习,同时将模型移植到多个异构实体机器人上,将机器人控制信号解码,进行真实环境测试。实验结果表明:本文提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略,为分布式异构多机器人在动态环境下的应用提供了一种技术参考。  相似文献   

7.
无人车辆轨迹规划与跟踪控制的统一建模方法   总被引:1,自引:0,他引:1  
无人车辆的轨迹规划与跟踪控制是实现自动驾驶的关键.轨迹规划与跟踪控制一般分为两个部分,即先根据车辆周边环境信息以及自车运动状态信息规划出参考轨迹,再依此轨迹来调节车辆纵横向输出以实现跟随控制.本文通过对无人车辆的轨迹规划与跟踪进行统一建模,基于行车环境势场建模与车辆动力学建模,利用模型预测控制中的优化算法来选择人工势场定义下的局部轨迹,生成最优的参考轨迹,并在实现轨迹规划的同时进行跟踪控制.通过CarSim与MATLAB/Simulink的联合仿真实验表明,该方法可在多种场景下实现无人车辆的动态避障.  相似文献   

8.
林谦  余超  伍夏威  董银昭  徐昕  张强  郭宪 《软件学报》2024,35(2):711-738
近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程中.通过在虚拟仿真环境中以较低成本获取大量训练样本进行策略训练,并将学习策略迁移至真实环境,能有效缓解真实机器人训练中存在的安全性、可靠性以及实时性等问题.然而,由于仿真环境与真实环境存在差异,仿真环境中训练得到的策略直接迁移到真实机器人往往难以获得理想的性能表现.针对这一问题,虚实迁移强化学习方法被提出用以缩小环境差异,进而实现有效的策略迁移.按照迁移强化学习过程中信息的流动方向和智能化方法作用的不同对象,提出一个虚实迁移强化学习系统的流程框架,并基于此框架将现有相关工作分为3大类:基于真实环境的模型优化方法、基于仿真环境的知识迁移方法、基于虚实环境的策略迭代提升方法,并对每一分类中的代表技术与关联工作进行阐述.最后,讨论虚实迁移强化学习研究领域面临的机遇和挑战.  相似文献   

9.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

10.
人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型(2D模型)再复杂模型(3D模型)的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。  相似文献   

11.
针对海上无人救援过程中遇险目标的漂移及如何快速靠近的问题,提出一种基于深度强化学习理论的目标追踪算法,使无人搜救船在与环境交互的过程中学习到自主驾驶追踪漂移遇险目标的最优驾驶决策。在SART的辅助下,通过自主学习能够使搜救船以最短的时间追踪到漂移遇险目标。在Gazebo物理仿真器中建立三维仿真环境,基于ROS系统分别设计直线漂移轨迹和不规则漂移轨迹仿真实验,通过多次自主学习训练,验证所提方法的有效性。  相似文献   

12.
由于无人仓多搬运机器人协同作业线路较为复杂,导致协同作业轨迹控制难度增加,为了保证多搬运机器人能够按照规划路线执行搬运作业,提出了无人仓多搬运机器人协同作业轨迹自动控制方法;采用栅格图建模法,结合无人仓内货架的实际分布情况,建立无人仓环境场景;从组成结构、运动学以及动力学3个方面,构建搬运机器人的数学模型;遵循就近原则分配多机器人搬运任务,规划多搬运机器人的协同作业轨迹,根据多搬运机器人实时位姿的自动检测结果计算控制量,利用作业轨迹自动控制器的安装与运行,完成无人仓多搬运机器人协同作业轨迹的自动控制任务;实验结果表明,在该方法应用后,多搬运机器人在无人仓中的作业轨迹与规划轨迹基本相同,计算得出的平均位置控制误差和姿态角控制误差分别为2.27 cm和0.05°,搬运机器人的碰撞次数能被控制在规定范围内,实际应用效果好。  相似文献   

13.
近年来, 无人机在物流、通信、军事任务、灾害救援等领域中展现出了巨大的应用潜力, 然而无人机的续航 能力是制约其使用的重大因素, 在无线充电技术不断突破和发展的背景下, 本文基于深度强化学习方法, 提出了一 种考虑无线充电的无人机路径在线优化方法, 通过无线充电技术提高无人机的任务能力. 首先, 对无人机功耗模型 和无线充电模型进行了构建, 根据无人机的荷电状态约束, 设计了一种基于动态上下文向量的深度神经网络模型, 通过编码器和解码器的模型架构, 实现无人机路径的直接构造, 通过深度强化学习方法对模型进行离线训练, 从而 应用于考虑无线充电的无人机任务路径在线优化. 文本通过与传统优化方法和深度强化学习方法进行实验对比, 所提方法在CPU算力和GPU算力下分别实现了4倍以及100倍以上求解速度的提升.  相似文献   

14.
迭代学习模型预测控制(Iterative learning model predictive control,ILMPC)具备较强的批次学习能力及突出的时域跟踪性能,在批次过程控制中发挥了重要作用.然而对于具有强非线性的快动态批次过程,传统的迭代学习模型预测控制很难实现计算效率与跟踪精度之间的平衡,这给其应用带来了挑战.对此本文提出一种高效迭代学习预测函数控制策略,将原非线性系统沿参考轨迹线性化得到二维跟踪误差预测模型,并在控制器设计中补偿所产生的线性化误差,构造优化目标函数为真实跟踪误差的上界.为加强优化计算效率,在时域上结合预测函数控制以降低待优化变量维数,从而有效降低计算负担.结合终端约束集理论,分析了迭代学习预测函数控制的时域稳定性及迭代收敛性.通过对无人车和典型快速间歇反应器的仿真实验验证所提出算法的有效性.  相似文献   

15.
针对一款具有波纹管外形的充气伸长型气动软体驱动器(简称“气动波纹管驱动器”),提出一种基于宽度学习系统的无模型跟踪控制方法,使该驱动器有效跟踪期望轨迹.首先,介绍气动波纹管驱动器结构,以及气动波纹管驱动器整体实验平台工作原理.根据驱动器实时位置信息提出一种基于宽度学习系统的跟踪控制方法,受PID跟踪控制方法中积分项作用的启发,所提出控制方法不仅采用系统跟踪误差作为宽度学习系统的输入之一,还将跟踪误差对时间的积分项作为另一输入以消除期望轨迹与实际轨迹间的恒定偏差.然后,采用宽度学习系统计算得到控制气压,同时,利用基于梯度下降法的学习律在线调整宽度学习系统权值,进而减小驱动器跟踪误差.最后,通过实验验证所提出方法的有效性.所提出方法无需建立驱动器模型,能够简化控制器设计步骤,且与深度神经网络控制方法相比,能在避免计算量过大的前提下实现较高的跟踪控制精度.  相似文献   

16.
This paper presents an improved Adaptive–Reinforcement Learning Control methodology for the problem of unmanned air vehicle morphing control. The reinforcement learning morphing control function that learns the optimal shape change policy is integrated with an adaptive dynamic inversion control trajectory tracking function. An episodic unsupervised learning simulation using the Q-learning method is developed to replace an earlier and less accurate Actor-Critic algorithm. Sequential Function Approximation, a Galerkin-based scattered data approximation scheme, replaces a K-Nearest Neighbors (KNN) method and is used to generalize the learning from previously experienced quantized states and actions to the continuous state-action space, all of which may not have been experienced before. The improved method showed smaller errors and improved learning of the optimal shape compared to the KNN.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号