首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
陈学松  刘富春 《控制与决策》2013,28(12):1889-1893

提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.

  相似文献   

2.
针对麻雀搜索算法收敛速度缓慢、寻优精度不足和容易陷入局部最优等缺点,提出了一种融合正弦搜索策略和多样性变异处理策略的改进麻雀搜索算法。通过引入正弦搜索策略,自适应调整个体权重提高算法收敛速度;针对个体聚集程度过高问题,采用多样性变异处理,引入生物学中种群聚集度的概念和柯西变异对最优解进行扰动,提高算法逃离局部最优的可能。通过九个不同特征的基准函数进行寻优测试,测试结果表明改进算法能够更快地收敛于最优值,有更好的平均值和标准差,表明了其具备更优的收敛速度、收敛稳定性和逃离局部最优值的能力。通过应用该改进优化算法于分数阶PID控制器的参数整定上,进一步验证了改进策略的有效性和可行性。  相似文献   

3.
徐琰恺  陈曦 《控制与决策》2008,23(12):1359-1362
研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.  相似文献   

4.
傅启明  刘全  伏玉琛  周谊成  于俊 《软件学报》2013,24(11):2676-2686
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car 问题,实验结果表明,该算法收敛速度较快,收敛精度较好.  相似文献   

5.
针对基本海鸥优化算法(SOA)在处理复杂优化问题中存在低精度、慢收敛和易陷入局部最优的不足,提出了一种基于翻筋斗觅食策略的SOA算法(SFSOA)。该算法首先采用基于倒S型函数的控制参数A非线性递减策略更新海鸥个体的位置,以改善个体的质量和加快收敛速度;引入一种基于翻筋斗觅食策略的学习机制以增加海鸥个体位置的多样性,避免算法在搜索后期陷入局部最优值。选取八个基准函数优化问题进行数值实验,并与基本SOA、灰狼优化算法和改进SOA进行比较,结果表明,所提算法具有较高的解精度、较快的收敛速度和较强的全局搜索能力,能有效地处理复杂函数优化问题。最后,将SFSOA用于求解特征选择问题,获得了满意的结果。  相似文献   

6.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难。提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法。针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进。将改进深度强化学习算法与DQN算法在同样的三维环境下进行仿真实验,从最优路径长度、损失函数值、得到稳定的奖励值、收敛速度等方面进行对比,改进深度强化学习算法比DQN算法得到很大的改善,说明改进的算法比DQN算法寻得了更优的策略。  相似文献   

7.
标准粒子群算法(ParticleSwarmOptimization,PSO)在求解高维非线性问题时容易陷入局部最优解,针对此种情况,提出一种基于Sigmod函数的新的非线性自适应权值调整策略。此外,选用拉丁超立方体抽样的方法产生均匀的初始种群,采用小生境淘汰策略增强算法全局寻优能力。最后选用6个标准测试函数对该改进算法进行性能测试。结果表明,改进的粒子群算法在收敛速度和收敛精度以及全局最优解的获取方面均取得了满意的效果。  相似文献   

8.
针对人工蜂群算法存在易陷入局部最优、收敛速度慢的缺陷,提出一种改进邻域搜索策略的人工蜂群算法.首先,将混沌思想和反向学习方法引入初始种群,设计混沌反向解初始化策略,以增大种群多样性,增强跳出局部最优的能力;然后,在跟随蜂阶段根据更新前个体最优位置引入量子行为模拟人工蜂群获取最优解,通过交叉率设计更新前个体最优位置,并利用势阱模型的控制参数提高平衡探索与开发的能力,对观察蜂邻域搜索策略进行改进,以提高算法的收敛速度和精度;最后,将改进人工蜂群算法与粒子群算法、蚁群算法以及其他改进人工蜂群算法进行比较,利用12个标准测试函数进行仿真分析.结果表明,改进算法不仅提高了收敛速度和精度,而且在高维函数优化方面具有一定的优势.  相似文献   

9.
一种进化类混合算法的研究   总被引:1,自引:0,他引:1  
杨春松  程文明 《计算机仿真》2007,24(10):169-172,199
针对现有的单一算法在解决数值优化问题中存在的问题,提出了一种基于进化计算的混合算法.该算法在原有遗传算法的基础上对交叉算子进行改进,同时将模拟退火算法与变异算子进行结合形成一种模拟变异算子;为提高算法的求解精度和收敛速度,在算法中引入了进化策略的自适应搜索特性; (μ,λ)选择算子的应用增加了跳出局部最优解的几率,精英保留策略的选用能够保障算法收敛于全局最优解.用两个典型的测试函数对该算法进行测试,测试结果表明算法能够跳出局部最优解的陷阱,快速高效,高精度地收敛于全局最优解.  相似文献   

10.
针对基本萤火虫优化(GSO)算法在求解函数全局最优值时,存在着易陷入局部最优、收敛速度慢和求解精度低等问题,提出了1种基于生物捕食-被捕食(Predator-Prey)行为的双种群GSO算法(GSOPP)。该算法通过引入种群间的追逐与逃跑以及变异等策略加快了收敛速度,且能获得精度更高的解。最后,通过对8个标准测试函数进行测试,结果表明,改进后的GSOPP算法比基本GSO算法有更优的性能。  相似文献   

11.
基于改进粒子群算法的电力系统无功优化   总被引:1,自引:0,他引:1  
针对传统粒子群算法易陷入局部最优解、收敛速度慢的缺点,提出一种基于信息分享策略的改进型粒子群算法,并首次将其应用于电力系统无功优化问题.改进的粒子群算法通过调整学习因子而获得合理有效的收敛速度;采用信息分享策略以保证种群的多样性;在位置的更新过程中加入扰动项,从而避免算法陷入局部最优解.用改进型粒子群算法对IEEE-14节点标准测试系统进行无功优化计算,实验结果表明:与其他算法相比,该改进粒子群算法具有较强的全局寻优能力,且收敛速度快,鲁棒性好,能有效地解决电力系统无功优化问题.  相似文献   

12.
孟磊  张婷  董泽 《计算机仿真》2021,38(1):236-241,430
为了提高分布估计算法的性能,提出一种从选择方式和搜索机制出发的改进分布估计算法.首先,借鉴并改进粒子群种群更新策略,在构造优势群体时,引入精英选择策略替换经典的截断选择,提高算法向全局最优解的收敛速度;然后,引入二次反向反射搜索算子,从搜索机制上对分布估计算法进行改进,提高算法的全局搜索能力.仿真结果表明,所提出的改进分布估计算法能够有效的避免陷入局部最优值,在寻优精度、收敛速度以及算法的稳定性和鲁棒性上都有极大改善.  相似文献   

13.
针对有界区域复杂函数的全局优化问题,分析了一般实数遗传算法的不足,提出了一种新的改进实数遗传算法。在改进算法中,个体的适应度值直接按其目标值排序的方法获得,这可避免进化后期陷入局部极值;基于适应度的线性逼近交叉策略,随机遍历抽样选择、最优保存和子代淘汰父代选择结合的混合选择策略及变异概率动态变化的实值变异策略,可使算法以较快的速度收敛于最优值。对12个典型的复杂函数进行优化仿真,结果表明改进算法不仅收敛速度快,鲁棒性好,而且能得到较高的优化精度。  相似文献   

14.
孟磊  张婷  董泽 《计算机仿真》2021,38(1):236-241,430
为了提高分布估计算法的性能,提出一种从选择方式和搜索机制出发的改进分布估计算法.首先,借鉴并改进粒子群种群更新策略,在构造优势群体时,引入精英选择策略替换经典的截断选择,提高算法向全局最优解的收敛速度;然后,引入二次反向反射搜索算子,从搜索机制上对分布估计算法进行改进,提高算法的全局搜索能力.仿真结果表明,所提出的改进分布估计算法能够有效的避免陷入局部最优值,在寻优精度、收敛速度以及算法的稳定性和鲁棒性上都有极大改善.  相似文献   

15.
陈金辉  陈辰  董飚 《计算机仿真》2015,32(3):298-303
粒子群算法的参数速度权重在寻优过程中具有重要的作用。如何寻找合适的速度权重是提高算法性能的关键,为解决上述问题,提出了一种基于自适应策略的改进粒子群算法。改进粒子群算法在每次种群进行迭代时,根据每个粒子的适应度值自适应地改变每个粒子的速度权重,动态调整每个种群粒子的活性,提高了算法的全局寻优能力和收敛能力。仿真结果表明,在单目标函数中,改进算法能够更快速地找到最优位置,提高了算法的寻优能力;在多目标函数中,改进算法能够更快速地收敛到问题的Pareto最优边界,提高了算法的收敛能力。  相似文献   

16.
深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定.  相似文献   

17.
针对标准人工蜂群(ABC)算法易陷入局部极值的问题,对标准ABC算法的轮盘赌选择机制进行了修改,提出了一种基于动态评价选择策略的改进人工蜂群(DSABC)算法。首先,根据到当前为止一定迭代次数内蜜源位置的连续更新或停滞次数,对每个蜜源位置进行动态评价;然后,利用所得的评价函数值为蜜源招募跟随蜂。在6个经典测试函数上的实验结果表明:与标准ABC算法相比,动态评价选择策略改进了标准ABC算法的选择机制,使得DSABC算法的求解精度有较大幅度提高,特别是对于两种不同维数的Rosenbrock函数,所得最优值的绝对误差分别由0.0017和0.0013减小到0.000049和0.000057;而且,DSABC算法克服了进化后期因群体位置多样性丢失较快而产生的早熟收敛现象,提高了整个种群的收敛精度及解的稳定性,从而为函数优化问题提供了一种高效可靠的求解方法。  相似文献   

18.
针对差分进化算法处理复杂优化问题时存在后期收敛速度变慢、收敛精度不高和参数设置困难的问题,提出了一种基于动态自适应策略的改进差分进化算法(dn-DADE)。首先,新的变异策略DE/current-to-dnbest/1利用当前种群中的精英解引导有效的搜索方向来动态调整可选的精英解,使其在进化后期趋于全局最优解。其次,分别设计了缩放因子和交叉因子的自适应更新策略,使两者在搜索的不同阶段自适应变化,以弥补差分进化算法对参数敏感的不足,进一步提高算法的稳定性和鲁棒性。对14个benchmark函数进行了测试并与多种先进DE改进算法进行了比较,结果显示,dn-DADE算法具有较高的求解精度,收敛速度快,寻优性能显著。  相似文献   

19.
为提升布谷鸟算法对高维问题空间的搜索能力及算法的稳定性,提出了一种参数动态更新的布谷鸟搜索算法.该算法首先选用柯西随机数,动态更新迭代学习的步长因子,并结合Lévy飞行策略生成新解;在新解生成之后,提出了一种正态扰动策略生成干扰解以增加解的搜索空间;对迭代中的新解和干扰解,采用模拟退火算法得到优势解,从而避免算法陷入局部最优,提升了算法的容差性;并提出一种轮盘赌选择和双向随机搜索策略强化迭代中优势解的学习.实验结果表明改进算法拥有较高的准确性和稳定性.  相似文献   

20.
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号