首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
霍煜  王鼎  乔俊飞 《控制与决策》2023,38(11):3066-3074
针对一类具有不确定性的连续时间非线性系统,提出一种基于单网络评判学习的鲁棒跟踪控制方法.首先建立由跟踪误差与参考轨迹构成的增广系统,将鲁棒跟踪控制问题转换为镇定设计问题.通过采用带有折扣因子和特殊效用项的代价函数,将鲁棒镇定问题转换为最优控制问题.然后,通过构建评判神经网络对最优代价函数进行估计,进而得到最优跟踪控制算法.为了放松该算法的初始容许控制条件,在评判神经网络权值更新律中增加一个额外项.利用Lyapunov方法证明闭环系统的稳定性及鲁棒跟踪性能.最后,通过仿真结果验证该方法的有效性和适用性.  相似文献   

2.
为解决一类非参数不确定系统在任意初态且输入增益未知情形下的轨迹跟踪问题, 提出准最优误差跟踪学习控制方法.该方法综合准最优控制和迭代学习控制两种技术设计控制器, 在构造期望误差轨迹的基础上, 根据控制Lyapunov函数及Sontag公式给出标称系统的优化控制, 以鲁棒方法和学习方法相结合的策略处理非参数不确定性.闭环系统经过足够次迭代运行后, 经由实现系统误差对期望误差轨迹在整个作业区间上的精确跟踪, 获得系统状态对参考信号在预设的部分作业区间上的精确跟踪.仿真结果表明所设计学习系统在收敛速度方面快于非优化设计.  相似文献   

3.
针对一类带有执行器饱和的未知动态离散时间非线性系统, 提出了一种新的最优跟踪控制方案. 该方案基于迭代自适应动态规划算法, 为了实现最优控制, 首先建立了未知系统动态的数据辨识器. 通过引入M网络, 获得了稳态控制的精确表达式. 为了消除执行器饱和的影响, 提出了一个非二次的性能指标函数. 然后提出了一种迭代自适应动态规划算法获得最优跟踪控制的解, 并给出了收敛性分析. 为了实现最优控制方案, 神经网络被用来构建数据辨识器、计算性能指标函数、近似最优控制策略和求解稳态控制. 仿真结果验证了本文所提出的最优跟踪控制方法的有效性.  相似文献   

4.
王敏  黄龙旺  杨辰光 《自动化学报》2022,48(5):1234-1245
本文针对具有执行器故障的一类离散非线性多输入多输出(Multi-input multi-output, MIMO)系统, 提出了一种基于事件触发的自适应评判容错控制方案. 该控制方案包括评价和执行网络. 在评价网络里, 为了缓解现有的非光滑二值效用函数可能引起的执行网络跳变问题, 利用高斯函数构建了一个光滑的效用函数, 并采用评价网络近似最优性能指标函数. 在执行网络里, 通过变量替换将系统状态的将来信息转化成关于系统当前状态的函数, 并结合事件触发机制设计了最优跟踪控制器. 该控制器引入了动态补偿项, 不仅能够抑制执行器故障对系统性能的影响, 而且能够改善系统的控制性能. 稳定性分析表明所有信号最终一致有界且跟踪误差收敛于原点的有界小邻域内. 数值系统和实际系统的仿真结果验证了该方案的有效性.  相似文献   

5.
设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论了迭代跟踪控制律的可容许性和误差系统的渐近稳定性.为了促进算法的实现,建立一个数据驱动的模型网络用...  相似文献   

6.
为解决迭代学习过程中的任意迭代初值和迭代收敛理论证明难的问题,本文构造了一种轨迹跟踪误差初值恒位于滑模面内的时变终端滑模面,将轨迹跟踪误差初值不为零的轨迹跟踪控制问题转换为滑模面初值恒为零的滑模面跟踪控制问题,建立了任意迭代初值与相同迭代初值的迭代学习控制理论连接桥梁.本文提出一种基于时变滑模面的比例–积分–微分(PID)型闭环迭代学习控制策略,基于压缩映射原理证明了迭代学习的收敛性,给出了迭代收敛条件.时变终端滑模面经有限次迭代学习收敛到零,达到轨迹跟踪误差最终稳定在时变滑模面内的目的;Lyapunov稳定理论证明了位于滑模面内的轨迹跟踪误差在有限时间内收敛到原点,达到轨迹局部精确跟踪目的.随机初态下的工业机器人轨迹跟踪控制数值仿真验证了本文方法的有效性和系统对外部强干扰的鲁棒性.  相似文献   

7.
李金娜  尹子轩 《控制与决策》2019,34(11):2343-2349
针对具有数据包丢失的网络化控制系统跟踪控制问题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性.  相似文献   

8.
张黎  刘山 《自动化学报》2014,40(12):2716-2725
针对重复运行的未知非最小相位系统的轨迹跟踪问题, 结合时域稳定逆特点, 提出了一种新的基函数型自适应迭代学习控制(Basis function based adaptive iterative learning control, BFAILC)算法. 该算法在迭代控制过程中应用自适应迭代学习辨识算法估计基函数模型, 采用伪逆型学习律逼近系统的稳定逆, 保证了迭代学习控制的收敛性和鲁棒性. 以傅里叶基函数为例, 通过在非最小相位系统上的控制仿真, 验证了算法的有效性.  相似文献   

9.
为克服全状态对称约束以及控制策略频繁更新的局限,同时使得无限时间的代价函数最优,针对一类具有部分动力学未知的仿射非线性连续系统,提出一种带状态约束的事件触发积分强化学习的控制器设计方法。该方法是一种基于数据的在线策略迭代方法。引入系统转换将带有全状态约束的系统转化为不含约束的系统。基于事件触发机制以及积分强化学习算法,通过交替执行系统转换、策略评估、策略改进,最终系统在满足全状态约束的情况下,代价函数以及控制策略将分别收敛于最优值,并能降低控制策略的更新频率。此外,通过构建李亚普诺夫函数对系统以及评论神经网络权重误差的稳定性进行严格的分析。单连杆机械臂的仿真实验也进一步说明算法的可行性。  相似文献   

10.
PD型模糊学习控制及其在可重复轨迹跟踪问题中的应用   总被引:1,自引:0,他引:1  
针对可重复轨迹跟踪问题,提出了一种PD型模糊学习算法.该算法集成两种控 制:作为基础的PD型模糊逻辑算法和改善系统性能的学习算法.模糊学习控制在模糊控制 基础上引入迭代学习算法,使得模糊PD控制器可以精确地跟踪可重复轨迹以及消除周期性 扰动.本文在能量函数和泛函分析的基础上,通过严格的推导表明PD型模糊学习算法可达 到:1)系统跟踪误差一致收敛到零;2)学习控制序列几乎处处收敛到理想的控制信号.  相似文献   

11.
基于数据自适应评判的离散2-D系统零和博弈最优控制   总被引:1,自引:1,他引:0  
提出了基于一种迭代自适应评判设计(ACD)算法解决一类离散时间Roesser型2-D系统的二人零和对策问题. 文章主要思想是采用自适应评判技术迭代的获得最优控制对使得性能指标函数达到零和对策的鞍点. 所提出的ACD可以通过输入输出数据进行实现而不需要系统的模型. 为了实现迭代ACD算法, 神经网络分别用来近似性能指标函数和计算最优控制率. 最后最优控制策略将应用到空气干燥过程控制中以证明其有效性.  相似文献   

12.
在求解离散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性.  相似文献   

13.
In this paper, the optimal strategies for discrete-time linear system quadratic zero-sum games related to the H-infinity optimal control problem are solved in forward time without knowing the system dynamical matrices. The idea is to solve for an action dependent value function Q(x,u,w) of the zero-sum game instead of solving for the state dependent value function V(x) which satisfies a corresponding game algebraic Riccati equation (GARE). Since the state and actions spaces are continuous, two action networks and one critic network are used that are adaptively tuned in forward time using adaptive critic methods. The result is a Q-learning approximate dynamic programming (ADP) model-free approach that solves the zero-sum game forward in time. It is shown that the critic converges to the game value function and the action networks converge to the Nash equilibrium of the game. Proofs of convergence of the algorithm are shown. It is proven that the algorithm ends up to be a model-free iterative algorithm to solve the GARE of the linear quadratic discrete-time zero-sum game. The effectiveness of this method is shown by performing an H-infinity control autopilot design for an F-16 aircraft.  相似文献   

14.
针对非线性连续系统难以跟踪时变轨迹的问题,本文首先通过系统变换引入新的状态变量从而将非线性系统的最优跟踪问题转化为一般非线性时不变系统的最优控制问题,并基于近似动态规划算法(ADP)获得近似最优值函数与最优控制策略.为有效地实现该算法,本文利用评价网与执行网来估计值函数及相应的控制策略,并且在线更新二者.为了消除神经网络近似过程中产生的误差,本文在设计控制器时增加一个鲁棒项;并且通过Lyapunov稳定性定理来证明本文提出的控制策略可保证系统跟踪误差渐近收敛到零,同时也验证在较小的误差范围内,该控制策略能够接近于最优控制策略.最后给出两个时变跟踪轨迹实例来证明该方法的可行性与有效性.  相似文献   

15.
In this paper we present an online adaptive control algorithm based on policy iteration reinforcement learning techniques to solve the continuous-time (CT) multi player non-zero-sum (NZS) game with infinite horizon for linear and nonlinear systems. NZS games allow for players to have a cooperative team component and an individual selfish component of strategy. The adaptive algorithm learns online the solution of coupled Riccati equations and coupled Hamilton–Jacobi equations for linear and nonlinear systems respectively. This adaptive control method finds in real-time approximations of the optimal value and the NZS Nash-equilibrium, while also guaranteeing closed-loop stability. The optimal-adaptive algorithm is implemented as a separate actor/critic parametric network approximator structure for every player, and involves simultaneous continuous-time adaptation of the actor/critic networks. A persistence of excitation condition is shown to guarantee convergence of every critic to the actual optimal value function for that player. A detailed mathematical analysis is done for 2-player NZS games. Novel tuning algorithms are given for the actor/critic networks. The convergence to the Nash equilibrium is proven and stability of the system is also guaranteed. This provides optimal adaptive control solutions for both non-zero-sum games and their special case, the zero-sum games. Simulation examples show the effectiveness of the new algorithm.  相似文献   

16.
针对移动装弹机械臂系统非线性、强耦合、受多种不确定因素影响的问题,本文基于自适应动态规划方法,提出了仅包含评价网络结构的轨迹跟踪控制方法,有效减小了系统跟踪误差.首先,考虑到系统非线性特性、变量间强耦合作用及重力因素的影响,通过拉格朗日方程建立了移动装弹机械臂的动力学模型.其次,针对系统存在不确定性上界未知的问题,建立单网络评价结构,通过策略迭代算法,求解哈密顿–雅可比–贝尔曼方程,基于李雅普诺夫稳定性理论,设计了自适应动态规划轨迹跟踪控制方法.最后,通过仿真实验将该控制方法与自适应滑模控制方法进行了对比,进一步检验了所设计控制方法的有效性.  相似文献   

17.
针对一类非线性零和微分对策问题,本文提出了一种事件触发自适应动态规划(event-triggered adaptive dynamic programming,ET--ADP)算法在线求解其鞍点.首先,提出一个新的自适应事件触发条件.然后,利用一个输入为采样数据的神经网络(评价网络)近似最优值函数,并设计了新型的神经网络权值更新律使得值函数、控制策略及扰动策略仅在事件触发时刻同步更新.进一步地,利用Lyapunov稳定性理论证明了所提出的算法能够在线获得非线性零和微分对策的鞍点且不会引起Zeno行为.所提出的ET--ADP算法仅在事件触发条件满足时才更新值函数、控制策略和扰动策略,因而可有效减少计算量和降低网络负荷.最后,两个仿真例子验证了所提出的ET--ADP算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号