首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
基于节点生长k-均值聚类算法的强化学习方法   总被引:3,自引:0,他引:3  
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略.  相似文献   

2.
连续状态自适应离散化基于K-均值聚类的强化学习方法   总被引:5,自引:1,他引:5  
文锋  陈宗海  卓睿  周光明 《控制与决策》2006,21(2):143-0148
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点.  相似文献   

3.
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法.围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型...  相似文献   

4.
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。  相似文献   

5.
神经网络增强学习的梯度算法研究   总被引:11,自引:1,他引:11  
徐昕  贺汉根 《计算机学报》2003,26(2):227-233
针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法,该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近,对算法的收敛性和近似最优策略的性能进行了理论分析,通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能。  相似文献   

6.
针对目前无人机航迹规划成本高、精度差和稳定性不足等问题,提出一种精英引领自适应樽海鞘群算法。首先,分别引入精英质心对立学习和精英引导惯性权重机制对樽海鞘领导者和跟随者更新方式进行改进,提升樽海鞘群算法的全局搜索能力和收敛速度,并设计种群个体角色自适应调整机制均衡算法的全局搜索和局部开发;然后建立无人机二维航迹空间模型和航迹成本模型,将航迹规划转换为多维函数优化问题,并利用精英引领自适应樽海鞘群算法求解无人机航迹规划问题,以综合考虑威胁成本和燃料成本的航迹目标函数评估个体位置适应度,对航迹规划最优方案迭代求解。在两个不同复杂性的威胁场景下进行的仿真实验结果表明,与人工势场(APF)、樽海鞘群算法(SSA)、人工蜂群算法(ABA)和改进樽海鞘群算法(ISSA)相比,所提算法的最优航迹平均成本分别可以降低78.68%、61.77%、42.76%和19.36%,验证了所提算法的有效性。  相似文献   

7.
在多约束复杂环境下,多数无人飞行器(UAV)航迹规划方法无法从历史经验中获得先验知识,导致对多变的环境适应性较差。提出一种基于深度强化学习的航迹规划策略自学习方法,利用飞行约束条件设计UAV的状态及动作模式,从搜索宽度和深度2个方面降低航迹规划搜索规模,基于航迹优化目标设计奖惩函数,利用由卷积神经网络引导的蒙特卡洛树搜索(MCTS)算法学习得到航迹规划策略。仿真结果表明,该方法自学习得到的航迹规划策略具有泛化能力,相对未迭代训练的网络,该策略仅需17%的NN-MCTS仿真次数就可引导UAV在未知飞行环境中满足约束条件并安全无碰撞地到达目的地。  相似文献   

8.
采用近似动态规划(ADP)方法对钢铁物流运输过程中的车辆调度问题进行了分析, 设计了车辆和运输货物的状态向量空间、动作向量空间等, 充分考虑运输成本和能力约束, 建立状态转移函数、目标函数, 并对近似动态规划算法进行改进。在基于决策后状态的ADP算法的基础上, 采用Boltzmann探索策略对所有的状态空间进行遍历, 避免局部最优和低效问题。通过对比实验, 比较Q学习算法、基于决策后状态的ADP算法以及采用Boltzmann探索策略的ADP算法的实验结果, 证明了采用Boltzmann探索策略的ADP算法具有更快的收敛速度, 执行效率更高。  相似文献   

9.
研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代 (KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究。分别利用值函数非平滑的组合优化问题——旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析。分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性  相似文献   

10.
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.  相似文献   

11.
航天发射对火箭飞行弹道数据处理的精度要求日益增高,对参与外测融合解算的雷达信息可靠性也提出了较高的要求。为解决航天发射时异常测量数据参与外测融合求解可能会导致火箭弹道精度降低的问题,提出了外测数据融合准则和短时多测元快速遴选方法,可有效识别、剔除异常测量数据,确保同目标高精度测元参与融合解算;并针对不同体制、不等精度的测量数据设计了一种最优权值快速计算方法,该方法综合考虑了测控设备的实际测量精度及布站几何对弹道精度的影响,确保在设定步长内融合权值最优。仿真结果证明该算法简单适用,可确保关键节点测控信息源的准确度,有效提高了发射场火箭弹道参数的处理精度。  相似文献   

12.
野外电力线路易发生损坏,且时变特性干扰较大,检测准确度较低,因此,设计应用机器人轨迹跟踪技术的电力线路无人机智能化巡检系统。该系统通过数据采集模块和飞行状态检测模块,分别进行电力线路图像数据获取与飞行状态监测,飞行控制模块接收图像与状态数据,并在轨迹跟踪控制子模块中使用自适应鲁棒滑模控制算法,实现无人机的轨迹跟踪,同时,该模块经无线数据传输模块将数据传输至地面站,在巡检数据智能分析管理模块中,地面站根据数据信息,完成电力线路故障识别,进而实现电力线路无人机智能化巡检。实验结果表明,该系统具有良好的轨迹跟踪效果,且巡检准确率较高,满足多种天气作业需求。  相似文献   

13.
基于四阶贝塞尔曲线的无人车可行轨迹规划   总被引:1,自引:0,他引:1  
对于实际的无人车系统来说,轨迹规划需要保证其规划出来的轨迹满足运动学约束、 侧滑约束以及执行机构约束.为了生成满足无人车初始状态约束、目标状态约束的局部可行轨迹,本文提出了一种基于四阶贝塞尔曲线的轨迹规划方法.在该方法中, 轨迹规划问题首先被分解为轨形规划及速度规划两个子问题.为了满足运动学约束、 初始状态约束、目标状态约束以及曲率连续约束,本文采用由3个参数确定的四阶贝塞尔曲线来规划轨迹形状.为了保证转向机构可行,本文进一步采用优化方法求解一组最优参数从而规划出曲率变化最小的轨线.对于轨线执行速度规划,为了满足速度连续约束、加速度连续约束、加速度有界约束以及目标状态侧滑约束,本文首先求解了可行的轨迹执行耗时区间,再进一步在该区间中求解能够保证任意轨迹点满足侧滑约束的耗时,最后再由该耗时对任意点速度进行规划.本文结合实际无人车的应用对轨迹搜索空间生成、道路行车模拟以及路径跟踪进行了仿真实验,并基于实际的环境数据进行了轨迹规划实验.  相似文献   

14.
A successive linearization based model predictive control (SLMPC) method is proposed to control a vertical take-off and landing (VTOL) tail-sitter unmanned aerial vehicle (UAV) in hovering flight. The dynamic model of the vehicle is derived, including a low-fidelity aerodynamic model and a propulsion system model. The position controller is developed by a state–space prediction model augmented with estimated disturbance and feedback integration terms. The time-varying weight in the objective function is included and the velocity of vehicle is considered as reference to improve the performance. The system is first tested in a software-in-loop environment followed by the real-time indoor flight tests. The results demonstrate the vehicle can precisely follow a trajectory and stably hold position under unsteady wind disturbance  相似文献   

15.
As an important approach to solving complex sequential decision problems, reinforcement learning (RL) has been widely studied in the community of artificial intelligence and machine learning. However, the generalization ability of RL is still an open problem and it is difficult for existing RL algorithms to solve Markov decision problems (MDPs) with both continuous state and action spaces. In this paper, a novel RL approach with fast policy search and adaptive basis function selection, which is called Continuous-action Approximate Policy Iteration (CAPI), is proposed for RL in MDPs with both continuous state and action spaces. In CAPI, based on the value functions estimated by temporal-difference learning, a fast policy search technique is suggested to search for optimal actions in continuous spaces, which is computationally efficient and easy to implement. To improve the generalization ability and learning efficiency of CAPI, two adaptive basis function selection methods are developed so that sparse approximation of value functions can be obtained efficiently both for linear function approximators and kernel machines. Simulation results on benchmark learning control tasks with continuous state and action spaces show that the proposed approach not only can converge to a near-optimal policy in a few iterations but also can obtain comparable or even better performance than Sarsa-learning, and previous approximate policy iteration methods such as LSPI and KLSPI.  相似文献   

16.
基于计算机视觉线性化轨迹预测模型在预测足球轨迹时,只能保证局部稳定性,存在轨迹跟踪局部稳定性问题和parking问题,提出了基于RBF网络的足球点球轨迹预测方法。建立足球运动状态传感信号解析模型,计算足球飞行地心重力、空气阻力、空气浮力、自身旋转时产生的马格努斯力的参数。建立足球飞行过程中的飞行受力解析模型,鉴于多参数模型复杂度过高,产生parking问题。利用RBF网络模型简化能力,建立飞行轨迹预测模型,结合并行滤波控制器,融合以上所有信息,在已知视觉概率计算的基础上,完成足球飞行轨迹的状态估计,并将其误差的协方差计算作为滤波控制的输入值,从而得到所有方差、均值的数据。最后获得足球在任意时刻的运动状态函数,完成预测。实验结果显示,该方法的足球运行轨迹吻合度为12 mm,且落点距离标准差最大仅为0.0412 m,因此,该预测方法能够得到精度更高的预测数据。  相似文献   

17.
大型运输机飞行控制包括较宽范围的姿态机动、轨迹跟踪。通道间高度耦合、外界条件干扰等条件使得轨迹跟踪控制设计变得较为复杂。为此,提出了一种鲁棒解耦的多变量跟踪控制方法——滑模控制方法,对运输机地面转弯轨迹进行了精确跟踪。运输机地面转弯轨迹运动学模型是一个多输入非线性系统,所以滑模控制中切换函数设计是很重要的。给出了Backstepping方法设计切换函数,通过对实例的计算仿真,滑膜控制对运输机轨迹跟踪具有较高的准确度。  相似文献   

18.
随着固定翼无人机飞行任务复杂化,为了实现高精度的空间曲线导航控制,基于L1-Navigation非线性导航控制算法,设计自适应模糊控制器优化固定翼无人机跟踪空间曲线导航控制方法。以球面上的空间八字曲线为例,对八字曲线建模,通过坐标转换求得目标航点位置来计算无人机飞行加速度。为了优化加速度控制无人机跟踪空间曲线性能,在L1-Navigation导航控制器中,针对增益系数设计一个双输入单输出模糊控制系统,以轨迹误差和轨迹误差变化率为输入量,以计算横向加速度的增益系数常数为输出量。最后,在Ardupilot飞控中进行飞行模拟实验,飞行实验表明,所提出方法能够精确跟踪空间曲线路径,并且有很好的自适应性。  相似文献   

19.
为了保证机器人能够在保持稳定的情况下,按照规划轨迹执行工作任务,从硬件和软件两个方面,设计了基于Sigmoid函数的机器人鲁棒滑模跟踪控制系统。装设机器人传感器与状态观测器,改装机器人鲁棒滑模跟踪控制器,完成系统硬件设计;综合机器人结构、运动机理和动力机制3个方面,构建机器人数学模型;根据状态数据采集结果与规划轨迹之间的偏差,计算机器人跟踪控制量;依据滑模运动与切换方程,利用Sigmoid函数生成机器人鲁棒滑模控制律,将生成控制指令作用在机器人执行元件上,实现系统的鲁棒滑模跟踪控制功能;在系统测试与分析中,所设计控制系统的平均位置跟踪控制误差为0.93 mm,与设定轨迹目标基本重合,机器人姿态角跟踪控制误差为0.06 mm,具有较好的鲁棒滑模跟踪控制效果,能够有效提高机器人鲁棒滑模跟踪控制精度。  相似文献   

20.
司勇  王兆魁  李东方  吴奇 《测控技术》2023,42(2):99-107
为了降低外界环境对四旋翼无人机飞行轨迹的扰动性,提高无人机的控制精度,提出1种基于滑模控制的四旋翼无人机参数预测和抗扰动的自适应轨迹跟踪控制器。这种控制器对四旋翼无人机系统的不确定状态参数、气流、风阻和执行器故障等外界扰动进行预测,实现了对系统输入的状态补偿和扰动补偿,提高了无人机的轨迹跟踪效率和抗扰动能力,消除了机体在飞行过程中的抖振现象,提高了无人机系统对环境的适应性和控制器的稳定性。通过仿真实验,分析了四旋翼无人机在不同控制器作用下的轨迹跟踪性能曲线,验证了所提出的控制器的优越性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号