期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法 总被引：1，自引：0，他引：1

陈亮梁宸张景异刘韵婷《控制与决策》2021,36(1):75-82

现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值. 相似文献

2.

融合两级注意力的多机器人强化学习导航

下载免费PDF全文

张耀丹况立群焦世超韩慧妍薛红新《计算机系统应用》2023,32(12):43-51

针对多智能体强化学习中因智能体之间的复杂关系所导致的学习效率低及收敛速度慢的问题, 提出基于两级注意力机制的方法MADDPG-Attention, 在MADDPG算法的Critic网络中增加了软硬两级注意力机制, 通过注意力机制学习智能体之间的可借鉴经验, 提升智能体之间的相互学习效率. 由于单层的软注意力机制会给完全不相关的智能体也赋予学习权重, 因此采用硬注意力判断两个智能体之间学习的必要性, 裁减无关信息的智能体, 再用软注意力判断两个智能体间学习的重要性, 按重要性分布来分配学习权重, 据此向有可用经验的智能体学习. 在多智能体粒子的合作导航环境上进行测试, 实验结果表明, MADDPG-Attention算法对复杂关系的理解更为清晰, 在3种环境的导航成功率都达到了90%以上, 有效提高了学习效率, 加快了收敛速度. 相似文献

3.

部分可观测下基于RGMAAC算法的多智能体协同

王子豪张严心黄志清殷辰堃《控制与决策》2023,38(5):1267-1277

多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性... 相似文献

4.

配电架空线路自动化清洗机器人路径规划仿真

王榆陈凯周云婷《计算机仿真》2023,(12):128-132+225

配电架空线路很多建设在环境恶劣、地形复杂的区域,当其上有冰雪、污物或者异物时,极易引发线路故障。考虑到电力维护人员的工作效率和安全,解决线路自动化清洗问题,提出一种基于深度强化学习的自动化清洗机器人路径规划方法。首先基于深度强化学习,结合碰撞约束与目标约束建立了清洗路径的规划模型,同时对到达目标位置和深度清洗关键部位予以智能体奖励。然后针对深度强化学习进行Actor-Critic优化,Actor依据概率采取相应的动作,引发的奖励反馈回Critic; Critic通过动作情况与反馈对比,来确定后续动作。最后,引入长短期网络对历史数据及不同维度的数据进行处理,采用强化学习中的A3C方法对路径进行选择和判别,采取多线程的强化学习方法,多个智能体并行完成路径规划并清洗。基于Gazebo平台进行仿真,结果表明,所提方法将清洗时间缩短至少15%,并显著提升了清洗机器人的运行效率。相似文献

5.

一种基于智能体的游戏消息公平处理方法

程卫星郝爱民《计算机科学》2008,35(3):283-288

首先分析了现有网络游戏相关的消息处理方法,然后给出了分布式游戏服务器中一种基于智能体的消息处理结构,在此结构中,智能体处理游戏消息的算法可以实现一种公平的消息处理效果.通过选择离用户较近的服务器创建与用户直接通信的智能体,使得用户与该智能体间的网络时延抖动较小,不需要同步用户和服务器之间的时间就能够从游戏中获得一个相对公平的游戏效果.最后在模拟环境中给出了该算法的实验结果. 相似文献

6.

基于观测空间关系提取的多智能体强化学习

许书卿臧传治《计算机应用研究》2022,39(10)

针对多智能体系统（multi-agent systems,MAS）中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取（observation relation extraction,ORE）的方法,该方法使用一个完全图来建模MAS中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景（StarCraft multi-agent challenge,SMAC）上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。相似文献

7.

基于值分解的多目标多智能体深度强化学习方法

宋健王子磊《计算机工程》2023,49(1):31-40

多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。相似文献

8.

支持智能体的通信原语库系统的研究与实现^*

周立吴泉源陈火旺《软件学报》1995,6(Z1):94-99

GKD)—APS是我们基于面向智能体程序设计范例(AOP)设计并实现的一个支持智能体相关概念及智能体间消息通信的Prolog解释器．它同时引入了智能体、精神状态、知识、信念、承诺、能力及智能体间的消息通信等概念，并提供了对这些概念的直接支持．GKD—APS为实现多智能体间的知识通信和合作运行，构造多智能体系统提供了基础，有效地支持了分布式知识系统的研究和开发．相似文献

9.

基于多智能体深度强化学习的船舶协同避碰策略

下载免费PDF全文

隋丽蓉高曙何伟《控制与决策》2023,38(5):1395-1402

船舶避碰是智能航行中首要解决的问题,多船会遇局面下,只有相互协作,共同规划避碰策略,才能有效降低碰撞风险.为使船舶智能避碰策略具有协同性、安全性和实用性,提出一种基于多智能体深度强化学习的船舶协同避碰决策方法.首先,研究船舶会遇局面辨识方法,设计满足《国际海上避碰规则》的多船避碰策略.其次,研究多船舶智能体合作方式,构建多船舶智能体协同避碰决策模型:利用注意力推理方法提取有助于避碰决策的关键数据;设计记忆驱动的经验学习方法,有效积累交互经验;引入噪音网络和多头注意力机制,增强船舶智能体决策探索能力.最后,分别在实验地图与真实海图上,对多船会遇场景进行仿真实验.结果表明,在协同性和安全性方面,相较于多个对比方法,所提出的避碰策略均能获得具有竞争力的结果,且满足实用性要求,从而为提高船舶智能航行水平和保障航行安全提供一种新的解决方案. 相似文献

10.

支持智能体的通信原语库系统的研究与实现

周立吴泉源《软件学报》1995,6(1):94-99

ＧＫＤ－ＡＰＳ是我们基于面向智能体程序高度范例设计并实现的一个支持智能体相关概念及智能体间消息通信的Ｐｒｏｌｏｇ解释器。它同时引入了智能体，精神状态，知识，信念，承诺，能力及智能体阐的消息通信等要概念，并提供了对这些概念直接支持。ＧＫＤ－ＡＰＳ为实现体间的知识通信和合作运行，构造多智能体系系统提供了基础，有效地支持了分布式系统的研究和开发。相似文献

11.

基于深度学习的智能交通系统通信网络脆弱性检测

叶欣茹伍益明徐明郑宁《控制理论与应用》2022,39(10):1872-1880

智能交通系统是集群智能技术的典型应用之一. 为解决现有智能交通通信网络脆弱性检测方法复杂度高、实时性差的问题, 提出引入深度学习技术对网络脆弱性检测方法进行设计. 先利用多智能体网络协同和消息传输机制与智能交通系统车辆间协作通信网络的共通性, 将智能交通系统通信图脆弱性检测问题建模为对多智能体网络r-鲁棒值的求解问题. 再针对随网络节点数目增多r-鲁棒值求解成NP难问题, 设计给出一种融入残差网络的深度学习算法, 将鲁棒值求解问题转化为深度学习图分类问题. 所提算法可有效应对动态多变的智能交通通信网络并对其实现快速精准的脆弱性检测. 最后通过一组典型交通场景的仿真实验验证本文所提方法的有效性. 相似文献

12.

基于消息通信的多智能体系统的应用 总被引：1，自引：0，他引：1

史乐李辉原江波《计算机应用》2008,28(2):531-534

在基于多智能体的分布式实时仿真系统中,如何实现各Agent之间的通信与协调是一个核心问题。采用触发器消息传送方式为多智能体系统中的Agent建立了高效的通信机制,并通过分析机场地面交通中面临的问题构建了多智能体系统模型。实现了基于触发器消息通信机制的多智能体系统在机场地面交通仿真中的应用。相似文献

13.

基于意图的多智能体深度强化学习运动规划方法

彭滢璇史殿习杨焕焕胡浩萌杨绍武《计算机科学》2023,(10):156-164

现有的多智能体运动规划任务存在缺乏有效合作方法、通信依赖要求高以及缺乏信息筛选机制等问题。针对这些问题，提出了一种基于意图的多智能体深度强化学习运动规划方法，该方法可以帮助智能体在无需显式通信的条件下无碰撞地到达目标点。首先，将意图概念引入多智能体运动规划问题，将智能体的视觉图像和历史地图相结合以预测智能体的意图，使智能体可以对其他智能体的动作做预判，从而有效协作；其次，设计了一个基于注意力机制的卷积神经网络架构，并利用该网络预测智能体的意图、选择智能体的动作，在筛选出有用的视觉输入信息的同时，减少了多智能体合作对通信的依赖；最后提出了一种基于价值的深度强化学习算法来学习运动规划策略，通过改进目标函数和Q值计算方式使策略更加稳定。在PyBullet仿真平台的6种不同的仿真场景中进行了测试，实验结果表明，相较于其他先进的多智能体运动规划方法，所提方法使多智能体团队的合作效率平均提高了10.74%,具有显著的性能优势。相似文献

14.

引入通信与探索的多智能体强化学习QMIX算法

邓晖奕李勇振尹奇跃《计算机应用》2023,43(1):202-208

非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行（CTDE）架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法（VBC）并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境（SC2LE）中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。相似文献

15.

基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

姚兴虎谭晓阳《计算机应用》2021,41(1):1-7

针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络（RHWNet）。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联系,进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先,在训练过程中,通过中心化的值函数结构对每个智能体进行协调;同时,这一中心化的结构也能起到全局奖励分配的作用;然后,在中心值函数结构中引入奖励高速路链接来辅助进行全局奖励分配,从而构建出奖励高速路网络;之后,在执行阶段,每个智能体的策略仅仅依赖于其自身的值函数。在星际争霸多智能体挑战的微操作场景中的实验结果表明,相比当前较先进的反直觉的策略梯度（Coma）算法和单调Q值函数分解（QMIX）算法,该网络所提出的奖励高速路在4个复杂的地图上的测试胜率提升超过20%。更重要的是,在智能体数量较多且种类不同的3s5z和3s6z场景中,该网络在所需样本数量为QMIX和Coma等算法的30%的情况下便能取得更好的结果。相似文献

16.

稀疏异质多智能体环境下基于强化学习的课程学习框架

罗睿卿曾坤张欣景《计算机科学》2024,(1):301-309

现代战争的战场较大且兵种较多，利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力，从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化：各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定，可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用，分别就这两方面进行改进研究。首先，设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化，添加了多种异质智能体和作战单位分布稀疏的场景，这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性，使用常用的多智能体算法通常难以训练。其次，提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块：1)任务生成模块(STG),用于生成源任务以引导智能体训练；2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性，提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略，实现了异质智能体系统中的参数共享；3)训练模... 相似文献

17.

基于多智能体的协同研讨关键技术研究

《计算机应用与软件》2019,(6)

综合集成研讨厅中协同研讨系统是帮助专家交流观点、协同工作、共享资源并最终涌现群体智慧的重要模块。针对传统C/S模式在软件灵活性、可扩展性上的不足,设计综合集成研讨厅中协同研讨系统的多智能体架构,以及智能体的各种行为。提出基于移动智能体的协同研讨场景自适应构建技术,当用户进入协同研讨场景时将研讨所需的各种智能体移动到客户端并进行组装。在此基础上提出基于ACL通信的工具协同化方法,并设计协同研讨场景中的各种本体概念,将本体用于智能体的ACL消息中。使用JADE框架搭建出协同研讨原型系统,并以模拟场景进行了系统验证。实验表明,该架构增强了研讨客户端的灵活性与可扩展性,同时支持专家对工具的协同操作。相似文献

18.

事件驱动的强化学习多智能体编队控制

下载免费PDF全文

徐鹏谢广明文家燕高远《智能系统学报》2019,14(1):93-98

针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题,本文引入事件驱动控制机制,智能体的动作决策无须按固定周期进行,而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时,不仅考虑智能体的累积奖赏值,还引入智能体与邻居奖赏值的偏差,智能体间通过交互来寻求最优联合策略实现编队。数值仿真结果表明,基于事件驱动的强化学习多智能体编队控制算法,在保证系统性能的情况下,能有效降低多智能体的动作决策频率和资源消耗。相似文献

19.

多智能体车间调度系统研究 总被引：1，自引：0，他引：1

郑旭栋《自动化与仪器仪表》2007,(3):30-31,61

现在制造业所面临的动态需求使得其必须具有更加灵活的应变机制，这使得车间调度问题变得越来越复杂。本文采取多智能体系统技术（MAS）设计了一个包含四个智能体（agent）的多智能体车间调度系统，分别为车间调度智能体、任务分配智能体、车间资源智能体以及拍卖智能体。通过这四个智能体的通信、交互和合作，系统可以给出一个满足当前制造需求的调度最优结果。相似文献

20.

复合Petri网的主从式多智能体通信建模方法

王帅辉袁杰《计算机工程与科学》2021,43(2):304-311

针对当前主从式MAS领域通信的硬件成本高、对计算资源占用大等问题,引入复合Petri网建立通信模型。按MAS资源的类型,将复合Petri网的库所设计为状态、行为和时滞3种类型,关联了库所的生效时间。建立了不同优先级消息和通信异常处理的复合Petri网模型,构建了主从式多智能体复合Petri网的通信模型。通过基于主从式小车编队的任务场景实验,验证了多智能体复合Petri网相关模型的可靠性与有效性,缓解了通信消息对系统计算资源的压力,降低了对通信硬件的依赖。相似文献