期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

薛丽华殷苌茗李立云胡明辉《计算机工程与应用》2008,44(4):182-183

强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa（λ）学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。相似文献

2.

一种基于梯度的多智能体元深度强化学习算法

赵春宇赖俊陈希亮张人文《计算机应用研究》2024,41(5)

多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化（MAMPPO）方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。相似文献

3.

基于加权值函数分解的多智能体分层强化学习技能发现方法

邹启杰李文雪高兵赵锡玲张汝波《计算机应用研究》2023,(9):2743-2748+2754

针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题，提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先，该算法将集中训练分散执行的架构与分层强化学习相结合，在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题；其次，在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务；最后，在底层独立Q学习的基础上引入技能发现策略，使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比，实验表明，该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高，提升了整个多智能体系统的决策能力和收敛速度，验证了算法的可行性。相似文献

4.

基于多智能体强化学习的新强化函数设计

左国玉张红卫韩光胜《控制工程》2009,16(2)

为了提高强化学习算法在多智能体系统中的性能表现,针对典型的多智能体系统一Keepaway平台总是以失败告终的特点,受与之有相同特点的单智能体系统杆平衡系统所采用强化函数的启发,重新设计一种新的惩罚式的强化函数.新的强化函数在系统成功状态时设零值奖赏,失败状态时给与负值惩罚.基于新设计的强化函数的Sarsa(A)算法成功应用在Keepaway平台上.仿真结果表明,新设计的强化函数在一定参数条件下有效提高了强化学习算法栽Keepaway平台的性能表现.其最终的学习效果更好. 相似文献

5.

多智能体深度强化学习的若干关键科学问题 总被引：6，自引：0，他引：6

孙长银穆朝絮《自动化学报》2020,46(7):1301-1312

强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史, 但强化学习方法在处理高维变量问题时常常会面临巨大挑战. 近年来, 深度学习迅猛发展, 使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能. 本文综述了强化学习和深度强化学习方法的原理, 提出学习系统的闭环控制框架, 分析了多智能体深度强化学习中存在的若干重要问题和解决方法, 包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题, 对所调查方法的优缺点和相关应用进行分析和讨论. 最后提供多智能体深度强化学习未来的研究方向, 为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路. 相似文献

6.

基于观测空间关系提取的多智能体强化学习

许书卿臧传治《计算机应用研究》2022,39(10)

针对多智能体系统（multi-agent systems,MAS）中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取（observation relation extraction,ORE）的方法,该方法使用一个完全图来建模MAS中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景（StarCraft multi-agent challenge,SMAC）上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。相似文献

7.

面向资源分配问题的Q-CF多智能体强化学习

连传强徐昕吴军李兆斌《智能系统学报》2011,6(2):95-100

多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真... 相似文献

8.

一种新的多智能体Q学习算法 总被引：2，自引：0，他引：2

郭锐吴敏彭军彭姣曹卫华《自动化学报》2007,33(4):367-372

针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择. 同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力. 相似文献

9.

引入通信与探索的多智能体强化学习QMIX算法

邓晖奕李勇振尹奇跃《计算机应用》2023,43(1):202-208

非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行（CTDE）架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法（VBC）并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境（SC2LE）中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。相似文献

10.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

11.

车联网中基于联邦深度强化学习的任务卸载算法

林欣郁姚泽玮胡晟熙陈哲毅陈星《计算机科学》2023,(9):347-356

随着车联网应用服务体系日益丰富，计算资源有限的车辆难以处理这些计算密集和时延敏感的车联网应用。计算卸载作为移动边缘计算中的一种关键技术可以解决这一难题。对于车联网中动态的多车辆多路侧单元的任务卸载环境，提出了一种基于联邦深度强化学习的任务卸载算法。该算法将每辆车都看作是智能体，采用联邦学习的框架训练各智能体，各智能体分布式决策卸载方案，以最小化系统的平均响应时间。设置评估实验，在多种动态变化的场景下对提出的算法的性能进行对比分析。实验结果显示，提出的算法求解出的系统平均响应时间短于基于规则的算法和多智能体深度强化学习算法，接近于理想方案，且求解时间远短于理想方案。实验结果表明，所提算法能够在可接受的算法执行时间内求解出接近于理想方案的系统平均响应时间。相似文献

12.

场景图谱驱动目标搜索的多智能体强化学习

下载免费PDF全文

陆升阳赵怀林刘华平《智能系统学报》2023,18(1):207-215

针对强化学习在视觉语义导航任务中准确率低,导航效率不高,容错率太差,且部分只适用于单智能体等问题,提出一种基于场景先验的多智能体目标搜索算法。该算法利用强化学习,将单智能体系统拓展到多智能体系统上将场景图谱作为先验知识辅助智能体团队进行视觉探索,利用集中式训练分布式探索的多智能体强化学习的方法以大幅度提升智能体团队的准确率和工作效率。通过在AI2THOR中进行训练测试,并与其他算法进行对比证明此方法无论在目标搜索的准确率还是效率上都优先于其他算法。相似文献

13.

基于值分解的多目标多智能体深度强化学习方法

宋健王子磊《计算机工程》2023,49(1):31-40

多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。相似文献

14.

部分可观测下基于RGMAAC算法的多智能体协同

王子豪张严心黄志清殷辰堃《控制与决策》2023,38(5):1267-1277

多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性... 相似文献

15.

基于对手动作预测的智能博弈对抗算法

韩润海陈浩刘权黄健《计算机工程与应用》2023,(7):190-197

智能博弈对抗场景中，多智能体强化学习算法存在“非平稳性”问题，智能体的策略不仅取决于环境，还受到环境中对手（其他智能体）的影响。根据对手与环境的交互信息，预测其策略和意图，并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法，对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征，并将其与智能体的强化学习模型融合，缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明，提出的算法能够有效预测对手的动作，加快学习收敛速度，提升智能体的对抗水平。相似文献

16.

多智能体深度强化学习及其可扩展性与可迁移性研究综述

闫超相晓嘉徐昕王菖周晗沈林成《控制与决策》2022,37(12):3083-3102

得益于深度学习强大的特征表达能力和强化学习有效的策略学习能力,深度强化学习在一系列复杂序贯决策问题中取得了令人瞩目的成就.伴随着深度强化学习在诸多单智能体任务中的成功应用,其在多智能体系统中的研究方兴未艾.近年来,多智能体深度强化学习在人工智能领域备受关注,可扩展与可迁移性已成为其中的核心研究点之一.鉴于此,首先阐释深度强化学习的发展脉络和典型算法,介绍多智能体深度强化学习的3种学习范式,分析两类多智能体强化学习的典型算法,即分解值函数方法和中心化值函数方法;然后归纳注意力机制、图神经网络等6类具有可扩展性的多智能体深度强化学习模型,梳理迁移学习和课程学习在多智能体深度强化学习可迁移性方向的研究进展;最后讨论多智能体深度强化学习的应用前景与研究方向,为未来多智能体深度强化学习的进一步发展提供可借鉴的参考. 相似文献

17.

稀疏异质多智能体环境下基于强化学习的课程学习框架

罗睿卿曾坤张欣景《计算机科学》2024,(1):301-309

现代战争的战场较大且兵种较多，利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力，从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化：各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定，可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用，分别就这两方面进行改进研究。首先，设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化，添加了多种异质智能体和作战单位分布稀疏的场景，这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性，使用常用的多智能体算法通常难以训练。其次，提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块：1)任务生成模块(STG),用于生成源任务以引导智能体训练；2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性，提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略，实现了异质智能体系统中的参数共享；3)训练模... 相似文献

18.

多智能体分层强化学习综述

下载免费PDF全文

殷昌盛杨若鹏朱巍邹小飞李峰《智能系统学报》2020,15(4):646-655

作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述;最后介绍了多智能体分层强化学习在机器人控制、博弈决策以及任务规划等领域的应用现状。相似文献

19.

增强Q学习在非确定马尔可夫系统寻优问题中的应用

郭锐彭军吴敏《计算机工程与应用》2005,41(13):36-38,146

增强学习属于机器学习的一种,它通过与环境的交互获得策略的改进,其在线学习和自适应学习的特点使其成为解决策略寻优问题有力的工具。多智能体系统是人工智能领域的一个研究热点,对于多智能体学习技术的研究需要建立在系统环境模型的基础之上,由于多个智能体的存在,智能体之间的相互影响使得多智能体系统高度复杂,多智能体系统环境属于非确定马尔可夫模型,因此直接把基于马尔可夫模型的增强学习技术引入多智能体系统是不合适的。论文基于智能体间独立的学习机制,提出了一种改进的多智能体Q学习算法,使其适用于非确定马尔可夫环境,并对该学习技术在多智能体系统RoboCup中的应用进行了研究,实验证明了该学习技术的有效性与泛化能力,最后简要给出了多智能体增强学习研究的方向及进一步的工作。相似文献

20.

基于分区缓存区重放与多线程交互的多智能体深度强化学习算法

柴来张婷婷董会王楠《计算机学报》2021,44(6):1140-1152

近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR-MPI).首先,该算法使用分区缓存区的经验重放形式,通过划分奖励空间来区分正面经验、负面经验与中性经验,并在训练时使用分层随机的采样方式抽取这些经验数据.其次,算法运用多线程的交互方式促进了智能体与环境的试错过程,通过智能体的多个克隆体并行的学习并整合它们的学习经验来训练网络模型的参数.然后,为了构建PBR-MPI算法的适用场景,本文根据目前多智能体系统(Multi-Agent System,MAS)的最新研究进展,将多智能体的信息交互方式归纳总结为集中式信息交互、全信息交互和欠信息交互三大类.最后,将新算法与其它的多智能体DRL算法分别在三种不同的信息交互场景中进行对比实验,用于验证和评价PBR-MPI的有效性及整体性能.实验结果表明,在智能体个数为5的多智能体目标追踪任务中,缓存区数为3、线程数为5的PBR-MPI算法的学习收敛速度平均提高了21％,训练效率平均提升了34％,并且在综合性能的评估中新算法的整体性能改善了50％. 相似文献