首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
提出了使用Q-Learning来构作容错路由算法的方法,利用Q-Learning算法的自适应性来实现路由容错,在二维格子环境下的实验证明了算法的可行性。算法工作时只需利用源点本地存储的其它节点的状态、互连信息,即可迭代找出一条到达目标节点的容错通路,不增加网络的通信量,不依赖其它的路由控制节点。  相似文献   

2.
通过推广修正埃尔米特和反埃尔米特(MHSS)迭代法,我们进一步得到了求解大型稀疏非埃尔米特正定线性方程组的广义MHSS(GMHSS)迭代法.基于不动点方程,我们还将超松弛(SOR)技术运用到了GMHSS迭代法,得到了关于GMHSS迭代法的SOR加速,并分析了它的收敛性.数值算例表明,SOR技术能够大大提高加速GMHSS迭代法的收敛效率.  相似文献   

3.
基于SMDP环境的自主生成options算法的研究   总被引:1,自引:0,他引:1  
options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法,该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部分依赖人为因素的弊病.然后在该算法的基础上,提出了构造options的算法流程,并把这-算法运用于迷宫问题之中.实验结果表明利用实验生成的options可以大大加快学习的效率.  相似文献   

4.
硬阈值追踪算法的本质是一个最小二乘问题,存在复杂度高、收敛性差、运行时间长等缺点。引入Nesterov方法用以优化稀疏解的凸松弛现象,引入逐次松弛迭代法优化传统硬阈值线性方程组,理论证明优化结果具有良好的收敛性,仿真实验说明优化后的算法有效降低算法复杂度,降低了运行时间。  相似文献   

5.
平均奖赏强化学习算法研究   总被引:7,自引:0,他引:7  
高阳  周如益  王皓  曹志新 《计算机学报》2007,30(8):1372-1378
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.  相似文献   

6.
在排序学习方法中,通过直接优化信息检索评价指标来学习排序模型的方法,取得了很好的排序效果,但是其损失函数在利用所有排序位置信息以及融合多样性排序因素方面还有待提高。为此,提出基于强化学习的多样性文档排序算法。首先,将强化学习思想应用于文档排序问题,通过将排序行为建模为马尔可夫决策过程,在每一次迭代过程中利用所有排序位置的信息,不断为每个排序位置选择最优的文档。其次,在排序过程中结合多样性策略,依据相似度阈值,裁剪高度相似的文档,从而保证排序结果的多样性。最后,在公共数据集上的实验结果表明,提出的算法在保证排序准确性的同时,增强了排序结果的多样性。  相似文献   

7.
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。  相似文献   

8.
支持向量回归问题的研究,对函数拟合(回归逼近)具有重要的理论和应用意义.借鉴分类问题的有效算法,将其推广到回归问题中来,针对用于分类问题的SOR支持向量机有效算法,提出了SORR支持向量回归算法.在若干不同维数的数据集上,对SORR算法、ASVR算法和LibSVM算法进行数值试验,并进行比较分析.数值实验结果表明,SORR算法是有效的,与当前流行的支持向量机回归算法相比,在回归精度和学习速度上都有一定的优势.  相似文献   

9.
针对标签传播算法中存在的问题,将超松弛迭代引入标签传播算法,解决标签序列的优化问题,提出基于超松弛迭代的标签传播算法(ORLP).该算法使用正负标签的方式标记已知样本,通过在近邻点间学习分类的方式预测未知样本的标签信息,同时在每次迭代时都能较好地保留初始标记点的标签信息,以指导下一次的标签传递过程.基于超松弛迭代推导ORLP的标签传播公式,同时证明标签序列的收敛性,得到标签序列的收敛解.实验表明,ORLP具有较高的分类准确率和较快的收敛速度.  相似文献   

10.
郑宇  罗四维  吕子昂 《计算机应用》2008,28(5):1328-1330
强化学习算法的探索次数随着状态空间的增加呈指数增长,因此难以用于复杂系统的控制中。为克服这一问题,提出一种稳定状态空间控制的强化学习算法。算法以寻找稳定空间的最优控制动作为学习目标,将探索过程集中于稳定状态空间中,而不探索系统的全部状态空间。由于稳定状态空间通常仅占系统状态空间中的极小一部分,因此算法的探索次数不随状态空间的增加呈指数增长。  相似文献   

11.
A primary challenge of agent-based policy learning in complex and uncertain environments is escalating computational complexity with the size of the task space(action choices and world states) and the number of agents.Nonetheless,there is ample evidence in the natural world that high-functioning social mammals learn to solve complex problems with ease,both individually and cooperatively.This ability to solve computationally intractable problems stems from both brain circuits for hierarchical representation of state and action spaces and learned policies as well as constraints imposed by social cognition.Using biologically derived mechanisms for state representation and mammalian social intelligence,we constrain state-action choices in reinforcement learning in order to improve learning efficiency.Analysis results bound the reduction in computational complexity due to stateion,hierarchical representation,and socially constrained action selection in agent-based learning problems that can be described as variants of Markov decision processes.Investigation of two task domains,single-robot herding and multirobot foraging,shows that theoretical bounds hold and that acceptable policies emerge,which reduce task completion time,computational cost,and/or memory resources compared to learning without hierarchical representations and with no social knowledge.  相似文献   

12.
标准的Sarsa算法对状态空间的要求是离散的且空间较小,而实际问题中很多的系统的状态空间是连续的或尽管是离散的但空间较大,这就要求有很大的空间来存储状态动作对(State-Action-Pair)。对此文中提出用BP网络队列保存SAPs,实验验证可以解决由于空间过大而带来的Q值表示问题。  相似文献   

13.
基于后继区间的互关联后继树搜索算法   总被引:1,自引:0,他引:1       下载免费PDF全文
全文检索领域的关键问题是索引模型以及该模型之上的高效搜索算法,基于一种优秀的全文索引模型互关联后继树提出了基于后继区间的搜索算法,大大提升了全文的检索速度,从而更加充分地体现了互关联后继树模型在全文领域的优势。  相似文献   

14.
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。  相似文献   

15.
针对飞行目标机动性带来的多传感器协同探测资源调度动态性需求, 提出一种新的基于近端策略优化(Proximal policy optimization, PPO)与全连接神经网络结合的多传感器协同探测资源调度算法. 首先, 分析影响多传感器协同探测资源调度的复杂约束条件, 形成评价多传感器协同探测资源调度过程指标; 然后, 引入马尔科夫决策过程(Markov decision process, MDP)模拟多传感器协同探测资源调度过程, 并为提高算法稳定性, 将Adam算法与学习率衰减算法结合, 控制学习率调整步长; 最后, 基于改进近端策略优化与全卷积神经网络结合算法求解动态资源调度策略, 并通过对比实验表明该算法的优越性.  相似文献   

16.
李稚  谭德庆 《自动化学报》2016,42(5):782-791
研究多维组件, 单一产品的双需求型面向订单装配(Assemble-to-order, ATO)系统. 产品需求为延期交货型, 当其不被满足时将产生缺货等待成本; 而独立组件需求为销售损失型, 其不被满足时将产生缺货损失成本. 该问题可以抽象成一个动态马尔科夫决策过程(Markov decision process, MDP), 通过对双需求模型求解得到状态依赖型最优策略, 即任一组件的最优生产--库存策略由系统内其他组件的库存水平决定. 研究解决了多需求复杂ATO系统的生产和库存优化控制问题. 提出在一定条件下, 组件的基础库存值可以等价于最终产品需求的库存配给值. 组件的基础库存值与库存配给值随系统内其他组件库存的增加而增加, 而产品需求的库存配给值随系统组件库存和产品缺货量的增加而减少. 最后通过数值实验分析缺货量及组件库存对最优策略结构的影响, 并得到了相应的企业生产实践的管理启示.  相似文献   

17.
一类基于有效跟踪的广义平均奖赏激励学习算法   总被引:1,自引:0,他引:1  
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。  相似文献   

18.
曾斌  樊旭  李厚朴 《自动化学报》2023,49(7):1519-1529
复杂多变的战场环境要求后装保障能够根据战场环境变化, 预见性地做出决策. 为此, 提出基于强化学习的动态调度方法. 为准确描述保障调度问题, 提出支持抢占调度、重分配及重部署决策的马尔科夫决策过程(Markov decision process, MDP)模型, 模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响; 随后设计改进策略迭代算法, 训练基于神经网络的保障调度模型; 训练后的神经网络模型能够近似计算状态价值函数, 从而求解出产生最大期望价值的优化调度策略. 最后设计一个分布式战场保障仿真实验, 通过与常规调度策略的对比, 验证了动态调度算法具有良好的自适应性和自主学习能力, 能够根据历史数据和当前态势预判后续变化, 并重新规划和配置保障资源的调度方案.  相似文献   

19.
徐昕  沈栋  高岩青  王凯 《自动化学报》2012,38(5):673-687
基于马氏决策过程(Markov decision process, MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向, 其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制. 本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning, RL)与近似动态规划(Approximate dynamic programming, ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、 直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨.  相似文献   

20.
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号