期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

卢锐彭鹏菲《电光与控制》2023,(4):78-82+99

针对合作多智能体系统缺乏个体奖励信号的情况下,不同智能体贡献无法区分导致合作效率低下的问题,利用价值分解范式引入了信用分配可区分性评价指标,并提出一种基于梯度熵正则化的方法实现区分度较高的信用分配。在此基础上,结合多智能体深度强化学习算法,提出一种改进型QMIX网络。通过SMAC多智能体学习环境和Starcraft2自带的地图编辑器,建立相应仿真实验环境,结果表明新提出的改进型QMIX网络相较于QMIX网络,学习效率和整体性能均有所提升,更适用于部分可观测环境下的合作多智能体强化学习问题。相似文献

2.

多智能体强化学习方法综述

下载免费PDF全文

陈人龙陈嘉礼李善琦谭营《信息对抗技术》2024,(1):18-32

在自动驾驶、团队配合游戏等现实场景的序列决策问题中，多智能体强化学习表现出了优秀的潜力。然而，多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此，概述了多智能体强化学习的概念与方法，并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。相似文献

3.

移动性感知下基于负载均衡的任务迁移方案

鲜永菊韩瑞寅左维昊汪帅鸽《电讯技术》2024,64(3):333-342

针对移动边缘计算中用户移动性导致服务器间负载分布不均,用户服务质量(Quality of Service, QoS)下降的问题,提出了一种移动性感知下的分布式任务迁移方案。首先,以优化网络中性能最差的用户QoS为目标,建立了一个长期极大极小化公平性问题(Max Min Fairness, MMF),利用李雅普诺夫(Lyapunov)优化将原问题转化解耦。然后,将其建模为去中心化部分可观测马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process, Dec-POMDP),提出一种基于多智能体柔性演员-评论家(Soft Actor-Critic, SAC)的分布式任务迁移算法,将奖励函数解耦为节点奖励和用户个体奖励,分别基于节点负载均衡度和用户QoS施加奖励。仿真结果表明,相比于现有任务迁移方案,所提算法能够在保证用户QoS的前提下降低任务迁移率,保证系统负载均衡。相似文献

4.

基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法 总被引：1，自引：0，他引：1

赵知劲朱家晟叶学义尚俊娜《电子与信息学报》2022,44(8):2814-2823

为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。相似文献

5.

基于多智能体深度强化学习的D2D通信资源联合分配方法

邓炳光徐成义张泰孙远欣张蔺裴二荣《电子与信息学报》2023,45(4):1173-1182

设备对设备(D2D)通信作为一种短距离通信技术,能够极大地减轻蜂窝基站的负载压力和提高频谱利用率。然而将D2D直接部署在授权频段或者免授权频段必然导致与现有用户的严重干扰。当前联合部署在授权和免授权频段的D2D通信的资源分配通常被建模为混合整数非线性约束的组合优化问题,传统优化方法难以解决。针对这个挑战性问题,该文提出一种基于多智能体深度强化学习的D2D通信资源联合分配方法。在该算法中,将蜂窝网络中的每个D2D发射端作为智能体,智能体能够通过深度强化学习方法智能地选择接入免授权信道或者最优的授权信道并发射功率。通过选择使用免授权信道的D2D对(基于“先听后说”机制)向蜂窝基站的信息反馈,蜂窝基站能够在非协作的情况下获得WiFi网络吞吐量信息,使得算法能够在异构环境中执行并能够确保WiFi用户的QoS。与多智能体深度Q网络(MADQN)、多智能体Q学习(MAQL)和随机算法相比,所提算法在保证WiFi用户和蜂窝用户的QoS的情况下能够获得最大的吞吐量。相似文献

6.

云雾混合网络下基于多智能体架构的资源分配及卸载决策研究

陈前斌谭颀贺兰钦唐伦《电子与信息学报》2022,43(9):2654-2662

针对D2D辅助的云雾混合架构下资源分配及任务卸载决策优化问题,该文提出一种基于多智能体架构深度强化学习的资源分配及卸载决策算法.首先,该算法考虑激励约束、能量约束以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,建立了最大化系统总用户体验质量(QoE)的随机优化模型,并进一步将其转化为MDP问题.其次,该算法将原MDP问题进行因式分解,并建立马尔可夫博弈模型.然后,基于行动者-评判家(AC)算法提出一种集中式训练、分布式执行机制.在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载.最后,仿真结果表明,该算法可以有效提升用户QoE,并降低了时延及能耗. 相似文献

7.

基于分布式多智能体系统的大学生心理健康预警算法

刘幸兴《电子设计工程》2022,30(9):47-51

针对目前传统算法对大学生心理健康状态进行评估所得结果不准确等问题,提出了一种基于分布式多智能体系统的大学生心理健康预警算法.该算法通过心理数据采集、心理健康评估等智能体之间的协同、配合,完成了对大学生心理健康状态的预警.同时,为了提高预警结果的准确性与客观性,该预警算法在心理健康评估模块中引入了深度学习的人工智能计算技... 相似文献

8.

复杂环境下改进AGNES多智能体动态联盟算法

张曌宇韦道知李宁《电光与控制》2022,29(1):12-17

在当前战场环境反馈输入所占比重日益增大的情况下,提出利用无监督学习中的AGNES层次聚类算法对传统多源智能体联盟理论框架进行改进.综合考虑环境和传感器不同个体效能中的复杂性与模糊性因素,对联盟的多智能体模型进行描述以及多智能体交叉提示下动态联盟探测系统具体提示步骤进行设计,针对性改进无监督学习AGNES聚类算法结合目标... 相似文献

9.

基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计

吴官翰贾维敏赵建伟高飞飞姚敏立《电子与信息学报》2022,44(3):940-950

空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔... 相似文献

10.

基于分布式计算的多机协同空战目标分配算法

潘寒尽王威邱学军张欣《电光与控制》2013,20(1):32-35

针对多机协同空战中目标分配的实时性和复杂性问题,提出一种基于分布式计算的协同空战目标分配算法。该算法参考空中作战常见的三级指挥体制,构建了相应的分层任务分解结构和多智能体(MAS)目标分配模型,将传统的集中控制、集中优化问题分布到多个作战控制单元进行计算,从而提高优化的性能。而且根据空战指挥决策的特点,算法还可将目标优化分配准则镶入智能体(Agent)决策的过程中,使分配结果更能充分考虑空中作战的实际需求。最后就一个典型多编队多目标的空战实例进行了仿真验证,证明了方法的有效性,并对该方法在提高空战效率和分配实时性的优势进行了分析。相似文献

11.

多智能体强化学习飞行路径规划算法 总被引：2，自引：1，他引：1

李东华江驹姜长生《电光与控制》2009,16(10):10-14

为了减轻现代空战中大量信息处理给飞行员带来的负担,同时为了实现无人机航路自主规划,提出了一种基于多智能体强化学习理论的飞行路径规划算法.该算法采用多智能体强化学习的方法,采用两个功能不同的智能体,分别对应局部和全局路径规划.该算法对状态和动作空间进行划分和抽象,有效地减少了状态的数量,解决了强化学习维数灾难的问题.最后用Matlab对此算法进行了数字仿真,验证了算法的可行性,仿真实验结果显示该算法收敛速度快,能够解决飞行路径规划的任务. 相似文献

12.

云雾混合网络下基于多智能体架构的资源分配及卸载决策研究

陈前斌谭颀贺兰钦唐伦《电子与信息学报》2021,43(9):2654-2662

针对D2D辅助的云雾混合架构下资源分配及任务卸载决策优化问题,该文提出一种基于多智能体架构深度强化学习的资源分配及卸载决策算法。首先,该算法考虑激励约束、能量约束以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,建立了最大化系统总用户体验质量(QoE)的随机优化模型,并进一步将其转化为MDP问题。其次,该算法将原MDP问题进行因式分解,并建立马尔可夫博弈模型。然后,基于行动者-评判家(AC)算法提出一种集中式训练、分布式执行机制。在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载。最后,仿真结果表明,该算法可以有效提升用户QoE,并降低了时延及能耗。相似文献

13.

利用A2C-ac的城轨车车通信资源分配算法

王瑞峰张明黄子恒何涛《电子与信息学报》2024,(4):1306-1313

在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。相似文献

14.

基于深度强化学习的智能决策方法

熊蓉玲段春怡冉华明杨萌冯旸赫《电讯技术》2023,(1):1-6

针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。相似文献

15.

一种基于PSO的改进型多智能体遗传算法

吴雪松宋振雷《电子测试》2010,(2):31-35

通过将多智能体系统加入基本的粒子群算法（PSO）,提出了一种新的函数优化方法——多智能体遗传PSO算法（MAGPA）。该方法将智能体固定在网格上,而每个智能体通过邻域的竞争和合作,随机交叉操作,变异操作,再联合PSO的进化机制,不断地感受局部环境,逐步影响整个智能体网格,以增强对环境的适应度。该算法可以有效地保持智能体的多样性,提高优化的准确性。相似文献

16.

基于平均场内生奖励的多智能体强化学习算法

孙文绮李大鹏田峰丁良辉《无线电通信技术》2023,(3):556-565

针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题，提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M³IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块，用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数，然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明，相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M³-UCRL)算法，所提算法可以有效提高智能体... 相似文献

17.

基于多智能体强化学习的空地网络抗干扰传输方法研究

廖程建刘思懿赵晨羽张果侯宏伟朱瀚然夏晓晨许魁《移动通信》2024,(1):71-78

提出了一种基于多智能体强化学习的抗干扰传输算法,旨在抵御空地一体化网络中的功率干扰,使所有用户的可达速率之和最大化。将优化问题转化为部分可观察马尔可夫决策过程问题,采用了集中式训练和分布式执行框架。在集中式训练过程中,每个智能体与环境交互获得的经验存储在经验回放池中,用于训练演员-评论员网络。在分布式执行过程中,每架无人机使用经过训练的演员网络根据观测结果输出动作,并调整其飞行位置和传输功率以提供联合服务。采用基于剪切和计数的改进近端策略优化算法来更新演员-评论员网络参数,使其在复杂的多智能体环境中更加有效。仿真结果表明,所提算法相较于对比算法具有更快的收敛速度,且在相同干扰条件下,所提算法比对比算法获取的用户可达和速率提升约68.9%。相似文献

18.

基于多智能体强化学习的动态频谱分配方法

童乐梁涛张余钱鹏智《太赫兹科学与电子信息学报》2021,19(4):573-580

针对认知无线电网络中多个异质用户具有不同的服务质量(QoS)要求,提出一种基于多智能体强化学习的动态频谱分配方法。该方法从用户满意度角度出发,以用户体验质量(QoE)作为系统的评价指标,构建多个虚拟智能体,模拟多个用户以合作方式与环境进行交互学习,融合各个用户的学习和频谱决策结果,实现频谱资源优化分配。仿真结果表明,在未知主要用户使用规律和信道动态特性条件下,相比基于传统强化学习的动态频谱分配方法,提出的方法能有效提高次用户的QoE,降低用户间的冲突概率。相似文献

19.

多智能体作战飞机协同空战指挥控制的若干技术问题

刘金星佟明安《电光与控制》2007,14(3):154-157,161

针对多机协同空战指挥控制决策的自主性和协调性需求,对多智能体技术应用于协同空战指挥控制的若干技术问题进行研究.提出基于集中一分散式多智能体协同空战指挥控制协同的结构框架;对经典的BDI-智能体进行扩展,提出基于BDOTI结构的机载空战指挥决策思维逻辑框架;建立面向结构的编队组织结构,应用进程演算对编队攻击行为进行协调. 相似文献

20.

分组合作多智能体算法优化BP神经网络的权值以及阈值

宋振雷吴雪松《电子测试》2010,(4):22-25,30

本文提出了一种基于分组合作的多智能体算法用来优化BP神经网络的学习算法。该算法是要设计出一个多智能网格,把这些网格分成相互独立的若干个小组,首先小组内部的各个智能体合作,然后选出最优的智能体随机与网格中的智能体合作,每个智能体都有一定的概率自我变异。先通过该算法来训练参数达到一定的要求,然后在通过BP神经网络算法来训练。该算法极大的提高了BP神经网络的收敛速度。通过多项式逼近函数,证明了该算法非常的有效。相似文献