期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙羽张汝波徐东《计算机工程》2002,28(5):128-129,198

强化学习一词来自行为心理学，该学科把学习看作反复试验的过程，强化学习系统中的资格迹用来解决时间信度分配问题，文章介绍了资格迹的基本原理和实现方法。相似文献

2.

林泽阳赖俊陈希亮《计算机技术与发展》2022,(11):16-23

作为解决序贯决策的机器学习方法,强化学习采用交互试错的方法学习最优策略,能够契合人类的智能决策方式。基于课程学习的深度强化学习是强化学习领域的一个研究热点,它针对强化学习智能体在面临高维状态空间和动作空间时学习效率低、难以收敛的问题,通过抽取一个或多个简单源任务训练优化过程中的共性知识,加速或改善复杂目标任务的学习。论文首先介绍了课程学习的基础知识,从四个角度对深度强化学习中的课程学习最新研究进展进行了综述,包括基于网络优化的课程学习、基于多智能体合作的课程学习、基于能力评估的课程学习、基于功能函数的课程学习。然后对课程强化学习最新发展情况进行了分析,并对深度强化学习中的课程学习的当前存在问题和解决思路进行了总结归纳。最后,基于当前课程学习在深度强化学习中的应用,对课程强化学习的发展和研究方向进行了总结。相似文献

3.

强化学习稀疏奖励算法研究——理论与实验

下载免费PDF全文

杨瑞严江鹏李秀《智能系统学报》2020,15(5):888-899

近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。相似文献

4.

单agent强化学习与多agent强化学习比较研究

吴元斌《电脑与信息技术》2009,17(1):8-11

学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习目标、学习算法等方面进行了对比分析,指出了它们的区别和联系,并讨论了它们所面临的一些开放性的问题。相似文献

5.

元强化学习研究综述

陈奕宇霍静丁天雨高阳《软件学报》2024,35(4):1618-1650

近年来,深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学习(meta-reinforcementlearning,Meta-RL)致力于以更小的样本量适应更广泛的任务,其研究有望缓解上述限制从而推进强化学习领域发展.以元强化学习工作的研究对象与适用场景为脉络,对元强化学习领域的研究进展进行了全面梳理:首先,对深度强化学习、元学习背景做基本介绍;然后,对元强化学习作形式化定义及常见的场景设置总结,并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展;最后,分析了元强化学习领域的研究挑战与发展前景. 相似文献

6.

采用资格迹的神经网络学习控制算法

刘智斌曾晓勤徐彦禹继国《控制理论与应用》2015,32(7):887-894

强化学习是解决自适应问题的重要方法,被广泛地应用于连续状态下的学习控制,然而存在效率不高和收敛速度较慢的问题.在运用反向传播(back propagation,BP)神经网络基础上,结合资格迹方法提出一种算法,实现了强化学习过程的多步更新.解决了输出层的局部梯度向隐层节点的反向传播问题,从而实现了神经网络隐层权值的快速更新,并提供一个算法描述.提出了一种改进的残差法,在神经网络的训练过程中将各层权值进行线性优化加权,既获得了梯度下降法的学习速度又获得了残差梯度法的收敛性能,将其应用于神经网络隐层的权值更新,改善了值函数的收敛性能.通过一个倒立摆平衡系统仿真实验,对算法进行了验证和分析.结果显示,经过较短时间的学习,本方法能成功地控制倒立摆,显著提高了学习效率. 相似文献

7.

面向儿童学习的智能家居人机交互技术综述

李萌查思雨宫未贾云鹏《计算机辅助设计与图形学学报》2023,(2):248-261

新冠疫情的发展使得儿童居家学习的频率增加,越来越多的研究者开始关注居家场景下的儿童学习.通过梳理近5年儿童居家学习交互设计领域中的前沿及经典案例,分析了儿童居家学习人机交互中的实体交互技术、增强现实技术和多模态交互技术;回顾了这一环境中儿童学习的交互系统应用,并指出了其对儿童能力发展、学习过程、学习习惯和学习环境的积极作用.通过分析,提出该情境下学习环境设计需创设居家学习应用、联动智能家居系统、构建交互学习环境的设计建议.最后,指出了当前工作存在的技术和伦理问题,提出未来需引入智能感知、情感识别和表达技术,并对这一领域的发展进行展望. 相似文献

8.

基于模型的机器人强化学习研究综述

孙世光兰旭光张翰博郑南宁《模式识别与人工智能》2022,35(1):1-16

基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、... 相似文献

9.

深度强化学习研究综述

杨思明单征丁煜李刚伟《计算机工程》2021,47(12):19-29

深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。相似文献

10.

深度分层强化学习研究与发展

黄志刚刘全张立华曹家庆朱斐《软件学报》2023,34(2):733-760

深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 相似文献

11.

多Agent系统的协作及强化学习算法研究

郑淑丽韩江洪骆祥峰蒋建文《模式识别与人工智能》2002,15(4)

研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解. 相似文献

12.

基于再励学习与遗传算法的交通信号自组织控制 总被引：17，自引：1，他引：16

杨煜普欧海涛《自动化学报》2002,28(4):564-568

提出一种基于再励学习和遗传算法的交通信号自组织控制方法.再励学习针对每一个道路交叉口交通流的优化,修正每个信号灯周期的绿信比.遗传算法则产生局部学习过程的全局优化标准,修正信号灯周期的大小.这种方法将局部优化和全局优化统一起来,克服了现有的控制方法需要大量数据传输通讯、准确的交通模型等缺陷. 相似文献

13.

GENERAL GAME-PLAYING AND REINFORCEMENT LEARNING

Robert Levinson 《Computational Intelligence》1996,12(1):155-176

This paper provides a blueprint for the development of a fully domain-independent single-agent and multiagent heuristic search system. It gives a graph-theoretic representation of search problems based on conceptual graphs and outlines two different learning systems. One, an "informed learner", makes use of the graph-theoretic definition of a search problem or game in playing and adapting to a game in the given environment. The other, a "blind learner", is not given access to the rules of a domain but must discover and then exploit the underlying mathematical structure of a given domain. Relevant work of others is referenced within the context of the blueprint.
To illustrate further how one might go about creating general game-playing agents, we show how we can generalize the understanding obtained with the Morph chess system to all games involving the interactions of abstract mathematical relations. A monitor for such domains has been developed, along with an implementation of a blind and informed learning system known as Morphll. Performance results with MorphK are preliminary but encouraging and provide a few more data points with which to understand and evaluate the blueprint. 相似文献

14.

一种新的多智能体强化学习算法及其在多机器人协作任务中的应用 总被引：1，自引：0，他引：1

顾国昌仲宇张汝波《机器人》2003,25(4):344-348

在多机器人系统中，评价一个机器人行为的好坏常常依赖于其它机器人的行为，此时必须采用组合动作以实现多机器人的协作，但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢．本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数，并应用于多机器人协作任务之中．实验结果表明，基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略．相似文献

15.

多智能体同时到达多目标点的协同强化学习算法

李瑞群王若冰田涛郑重张越《计算机应用与软件》2021,38(9):199-204

针对动态未知环境下多智能体多目标协同问题,为实现在动态未知环境下多个智能体能够同时到达所有目标点,设计函数式奖励函数,对强化学习算法进行改进.智能体与环境交互,不断重复探索-学习-决策过程,在与环境的交互中积累经验并优化策略,在未预先分配目标点的情况下,智能体通过协同决策,能够避开环境中的静态障碍物和动态障碍物,同... 相似文献

16.

基于神经网络的强化学习算法研究 总被引：11，自引：0，他引：11

陆鑫高阳李宁陈世福《计算机研究与发展》2002,39(8):981-985

BP神经网络在非线性控制系统中被广泛运用，但作为有导师监督的学习算法，要求批量提供输入输出对神经网络训练，而在一些并不知道最优策略的系统中，这样的输入输出对事先并无法得到，另一方面，强化学习从实际系统学习经验来调整策略，并且是一个逼近最优策略的过程，学习过程并不需要导师的监督。提出了将强化学习与BP神经网络结合的学习算法-RBP模型。该模型的基本思想是通过强化学习控制策略，经过一定周期的学习后再用学到的知识训练神经网络，以使网络逐步收敛到最优状态。最后通过实验验证了该方法的有效性及收敛性。相似文献

17.

基于强化学习的无线传能网络节点控制算法

吴振宇吴凡李云雷《计算机应用与软件》2021,38(12):274-279

以无线传能网络的节点控制问题为研究对象,针对统一化的节点模型设计一种基于策略梯度的强化学习算法.该算法使用神经网络作为控制器,并设计一套奖励机制用来评估控制结果的优劣,以最大化累计奖励为目标优化网络参数,使神经网络控制器达到更好的控制效果.仿真结果表明,只需设置对控制结果的奖励机制,就可以让节点根据供电需求的变化学习到对应的控制策略,适用于近似周期性的供电场景,也适用于极端情况的供电控制. 相似文献

18.

基于每阶段平均费用最优的激励学习算法 总被引：4，自引：0，他引：4

殷苌茗陈焕文谢丽娟《计算机应用》2002,22(4):25-27

文中利用求解最优费用函数的方法给出了一种新的激励学习算法，即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法，它从求解分阶段最优平均费用函数的方法出发，分析了最优解的存在性，分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立，可以使得动态规划（DP）算法中的许多结论直接应用到激励学习的研究中来。相似文献

19.

强化学习系统及其基于可靠度最优的学习算法 总被引：3，自引：0，他引：3

俞星星阎平凡《信息与控制》1997,26(5):332-339

归纳了强化学习的主要理论方法，提出了一个区分主客观因素的强化学习系统描述，引入了任务域的概念，针对以往强化学习采用的期望最优准则描述任务域能力的不足，考虑了目标水平准则下的首达时间可靠度优准则模型，分别结合随机逼近理论和时间差分理论，提出了基于概率估计的Ｊ－学习和无需建增量Ｒ－学习。相似文献

20.

强化学习算法应用于船舶运动的混合智能控制 总被引：1，自引：0，他引：1

杨国勋郭晨贾欣乐《信息与控制》2002,31(2):127-131

将强化学习算法与混合智能技术相结合，应用于船舶运动控制，克服了通常混合智能算法的学习需要一定数量样本数据的缺陷，又能发挥各种智能算法的优势．仿真结果表明在缺少样本数据情况下，该算法可以在一定程度上改进控制效果．相似文献