期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

逄勃邵诚《控制与决策》2014,29(3):449-454

针对带有扰动的一类离散非线性系统的鲁棒迭代学习控制问题, 设计一种基于参数优化的迭代学习控制算法. 该算法能够保证在有初始状态误差和状态、输出扰动的情况下使闭环系统具有鲁棒BIBO 稳定性, 系统输出能够单调收敛于给定输出轨迹的邻域内; 在没有初始状态误差和扰动的情况下能够以零稳态误差跟踪给定输出轨迹. 最后通过仿真分析验证了所提出算法的有效性.

相似文献

2.

基于时变Sigmoid 函数的鲁棒PSO 算法

李军军黄有方杨斌吴华锋《控制与决策》2013,28(11):1650-1654

在样本规模有限的情况下, 为了提高算法的鲁棒优化性能, 提出一种基于时变(随迭代次数变化) Sigmoid 函数的鲁棒粒子群优化算法. 采用拟蒙特卡罗积分方法近似估计有效目标函数, 以时变Sigmoid 函数为基础, 设计各代各样本规模的选取概率. 迭代前期, 样本规模期望值较小, 加快了算法探索速度; 迭代后期, 样本规模期望值较大, 提高了算法的开发精度. 标准测试函数仿真结果显示, 所提出方法具有较优的鲁棒优化性能.

相似文献

3.

基于自适应重复学习的不确定多涡卷混沌系统同步控制

孙美美胡云安韦建明《控制与决策》2016,31(8):1387-1393

基于滞环函数提出一种参数可调的多涡卷混沌系统构造方法. 针对复杂不确定性系统, 综合利用自适应神经网络和重复学习控制方法设计一种自适应重复学习同步控制器; 利用自适应重复学习控制方法对周期时变参数化不确定性进行处理; 对函数型不确定性利用神经网络逼近技术进行补偿; 设计鲁棒学习项对神经网络逼近误差和扰动上界进行估计; 通过构造类Lyapunov 复合能量函数证明了同步误差学习的收敛性. 仿真结果验证了所提出方法的有效性.

相似文献

4.

一种基于GHF 的高斯粒子滤波算法

郑作虎王首勇《控制与决策》2014,29(9):1698-1702

高斯粒子滤波算法重要性权值方差不会随迭代次数的增加而增加, 能够较好地解决粒子退化问题, 但其重要性密度函数没有考虑最新的量测信息, 导致有效粒子数减少, 算法滤波性能下降. 针对该问题, 提出一种基于Gaussian-Hermite 滤波(GHF) 的高斯粒子滤波算法, 采用GHF构造高斯粒子滤波的重要性密度函数, 考虑最新的量测信息, 增加有效粒子数, 提高算法的滤波精度. 仿真结果表明, 所提出算法的滤波精度明显优于高斯粒子滤波算法.

相似文献

5.

交互式容积卡尔曼滤波及其应用交互式容积卡尔曼滤波及其应用

于浛宋申民王硕《控制与决策》2015,30(9):1660-1666

针对非线性系统模型参数未知情况下的状态估计问题, 提出一种融合极大后验估计的交互式容积卡尔曼滤波算法(InCKF). 该算法利用二阶斯特林插值公式和无迹变换对非线性函数的近似思想, 实现对模型未知参数的确定, 从而使滤波算法摆脱对模型参数精确已知的依赖, 并通过容积卡尔曼滤波算法完成状态估计和量测更新. 仿真结果表明, 相比于经典的参数扩维方法, InCKF 算法具有更高的精度和更强的数值稳定性.

相似文献

6.

基于组合导航系统的非线性高斯滤波算法

王硕宋申民于浛史小平《控制与决策》2016,31(9):1645-1653

由于组合导航系统具有强非线性和模型不确定性的特点, 工程中扩展卡尔曼滤波无法满足组合导航系统实际应用的要求. 为此, 针对贝叶斯框架下高斯类非线性滤波算法的估计性能给出具体分析. 首先, 在估计点处对非线性函数进行泰勒展开获得泰勒近似, 通过一阶矩和二阶矩分析滤波算法的近似精度; 然后, 通过数值稳定性对非线性滤波算法进行分析; 最后, 分别采用低维和高维模型对各滤波算法进行对比分析, 为组合导航系统的实践提供借鉴.

相似文献

7.

灰色Verhulst 模型背景值优化及其应用

丁松党耀国徐宁崔杰《控制与决策》2015,30(10):1835-1840

鉴于背景值是影响灰色建模精度的重要因素之一, 提出一种灰色Verhulst 模型中背景值的优化方法. 基于灰色Verhulst 模型时间响应式的Logistic 函数形式和背景值的几何意义, 利用积分中值定理研究背景值与发展系数之间的数量关系; 采用最小二乘法对新参数进行估计, 还原原始参数估计值, 使得优化的背景值模型同时具备无偏性和最小误差性. 案例分析表明, 背景值优化的模型改善了模拟精度, 验证了模型的有效性和可行性.

相似文献

8.

Lebesgue-?? 范数意义下对初态误差进行加速修正的迭代学习控制 总被引：1，自引：0，他引：1

兰天一林辉《控制与决策》2016,31(3):429-434

针对一类多输入多输出线性时不变系统, 提出一种初态误差加速修正的PD-型迭代学习算法. 针对系统的任意初始状态, 在时间轴上设计一个随迭代次数增加而缩短的修正区间. 在该区间上, 控制算法对初始状态偏差进行修正; 修正区间外, 算法与无初始误差的学习律等同. 在Lebesgue-?? 范数度量跟踪误差意义下, 利用卷积的推广Young 不等式证明了所提出学习控制律的收敛性. 数值仿真验证了该控制律的有效性.

相似文献

9.

状态饱和离散线性系统的稳定性分析

钱明霞嵇小辅《控制与决策》2016,31(8):1475-1480

讨论一类具有状态饱和非线性的离散线性系统稳定性分析问题. 通过引入无穷范数小于等于1 的自由矩阵与对角元素非正的对角矩阵, 将状态饱和离散线性系统的状态变量约束在一个凸多面体内, 进而以矩阵不等式形式给出状态饱和离散线性系统的稳定性判据, 并给出该矩阵不等式的迭代线性矩阵不等式算法. 基于这一稳定性判据, 给出了基于迭代线性矩阵不等式的状态反馈控制律设计算法. 通过状态饱和离散线性系统的状态空间分割方法, 给出了保守性更小的稳定性判据, 并给出了相应的迭代线性矩阵不等式算法. 数值例子验证了所给出方法的正确性与有效性.

相似文献

10.

具有预负载非线性特性的双率系统递推最小二乘估计算法

陈晶《控制与决策》2015,30(10):1895-1898

针对具有预负载非线性特性的双率系统, 提出一种新的辨识方法. 借助切换函数简化系统模型, 通过损失数据模型估计系统损失的输出数据, 进而利用系统所有输入和输出数据, 提出相应双率系统递推最小二乘算法. 与多项式转换方法相比, 该方法能够直接辨识出系统参数. 仿真结果验证了所提出方法的有效性.

相似文献

11.

基于拉普拉斯特征映射的启发式Q学习

朱美强李明程玉虎张倩王雪松《控制与决策》2014,29(3):425-430

在基于目标的强化学习任务中, 欧氏距离常作为启发式函数用于策略选择, 其用于状态空间在欧氏空间内不连续的任务效果不理想. 针对此问题, 引入流形学习中计算复杂度较低的拉普拉斯特征映射法, 提出一种基于谱图理论的启发式策略选择方法. 所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续, 且相邻状态间的连接关系为无向图的任务. 格子世界的仿真结果验证了所提出方法的有效性.

相似文献

12.

非线性系统RBF神经网络多步预测控制 总被引：1，自引：0，他引：1

樊兆峰马小平邵晓根《控制与决策》2014,29(7):1274-1278

针对较强非线性的控制问题, 提出一种以RBF 神经网络为模型的多步预测控制方法. 构建多步预测模型, 并给出预测误差关于控制序列的雅可比矩阵的计算方法. 利用Levenberg-Marquardt(L-M) 算法设计滚动优化策略, 过误差修正参考输入的方法实现了反馈校正, 证明了控制系统的稳定性. 仿真结果表明所提出的控制方法效果较好.

相似文献

13.

欠驱动AUV模糊神经网络L2增益鲁棒跟踪控制

夏国清杨莹赵为光《控制与决策》2013,28(3):351-356

提出基于模糊神经网络欠驱动水下自主机器人(AUV)的L2增益鲁棒跟踪控制方法,该方法通过在线学习逼近动力学模型的不确定项.控制器克服了由于缺少横向推力对跟踪误差的影响,在考虑未知海流干扰情况下,实现了系统对模糊神经网络逼近误差的L2增益小于γ.利用Lyapunov稳定性理论证明了闭环控制系统误差信号一致最终有界.最后,通过精确模型参数和参数扰动仿真实验验证了该控制方法具有很好的跟踪效果和较强的鲁棒性. 相似文献

14.

基于强化学习的适应性微粒群算法 总被引：1，自引：0，他引：1

邢长明刘方爱《控制与决策》2011,26(1):54-58

惯性权重足微粒群算法(PSO)的重要参数,它可以甲衡算法的全局和局部搜索能力的关系,改善算法的性能.对此,提出一种基于强化学习的适应性微粒群算法(RPSO).首先将不同惯性权重调整策略视为粒子的行动集合;然后通过计算Q函数值.考察粒子多步进化的效果;进而选择粒_了最优进化策略,动态调整惯性权重,以增强算法寻找全局最优的... 相似文献

15.

基于对称扰动采样的Actor-critic 算法

张春元朱清新《控制与决策》2015,30(12):2161-2167

针对传统Actor-critic (AC) 方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题, 提出一种基于对称扰动采样的AC算法框架. 首先, 框架采用高斯分布作为策略分布, 在每一时间步对当前动作均值对称扰动, 从而生成两个动作与环境并行交互; 然后, 基于两者的最大时域差分(TD) 误差选取Agent 的行为动作, 并对值函数参数进行更新; 最后, 基于两者的平均常规梯度或增量自然梯度对策略参数进行更新. 理论分析和仿真结果表明, 所提框架具有较好的收敛性和计算效率.

相似文献

16.

Reinforcement learning in continuous time and space 总被引：2，自引：0，他引：2

Doya K 《Neural computation》2000,12(1):219-245

This article presents a reinforcement learning framework for continuous-time dynamical systems without a priori discretization of time, state, and action. Based on the Hamilton-Jacobi-Bellman (HJB) equation for infinite-horizon, discounted reward problems, we derive algorithms for estimating value functions and improving policies with the use of function approximators. The process of value function estimation is formulated as the minimization of a continuous-time form of the temporal difference (TD) error. Update methods based on backward Euler approximation and exponential eligibility traces are derived, and their correspondences with the conventional residual gradient, TD(0), and TD(lambda) algorithms are shown. For policy improvement, two methods-a continuous actor-critic method and a value-gradient-based greedy policy-are formulated. As a special case of the latter, a nonlinear feedback control law using the value gradient and the model of the input gain is derived. The advantage updating, a model-free algorithm derived previously, is also formulated in the HJB-based framework. The performance of the proposed algorithms is first tested in a nonlinear control task of swinging a pendulum up with limited torque. It is shown in the simulations that (1) the task is accomplished by the continuous actor-critic method in a number of trials several times fewer than by the conventional discrete actor-critic method; (2) among the continuous policy update methods, the value-gradient-based policy with a known or learned dynamic model performs several times better than the actor-critic method; and (3) a value function update using exponential eligibility traces is more efficient and stable than that based on Euler approximation. The algorithms are then tested in a higher-dimensional task: cart-pole swing-up. This task is accomplished in several hundred trials using the value-gradient-based policy with a learned dynamic model. 相似文献

17.

连续空间增量最近邻时域差分学习 总被引：1，自引：1，他引：0

张春元朱清新钟声《控制与决策》2014,29(12):2121-2128

针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架。通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资格迹迭代更新。就框架各主要组成部分给出多种设计方案,并对其收敛性进行理论分析。对24种方案组合进行仿真验证的实验结果表明, SNDN组合具有较好的学习性能和计算效率。相似文献

18.

离散时间系统重复控制的理想误差动态方法

孙明轩许利达邬玲伟《控制与决策》2013,28(12):1771-1778

针对周期参考信号下的离散时间系统, 引入吸引律构造理想误差动态特性, 并基于理想误差动态设计重复控制器. 重复控制能够实现周期性扰动的完全抑制, 从而提高控制能.为了消除颤振现象, 以饱和函数替换重复控制器中的符号函数. 分别推导了理想误差动态方程的单调减区域、吸引层和稳态误差带的边界, 用于刻画误差动态行为, 并给出了数值仿真结果. 在逆变器装置上完成的实验进一步表明了所提出的重复控制方法的有效性.

相似文献