期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

多智能体强化学习综述 总被引：1，自引：0，他引：1

杜威丁世飞《计算机科学》2019,46(8)

相似文献

2.

左国玉张红卫韩光胜《控制工程》2009,16(2)

为了提高强化学习算法在多智能体系统中的性能表现,针对典型的多智能体系统一Keepaway平台总是以失败告终的特点,受与之有相同特点的单智能体系统杆平衡系统所采用强化函数的启发,重新设计一种新的惩罚式的强化函数.新的强化函数在系统成功状态时设零值奖赏,失败状态时给与负值惩罚.基于新设计的强化函数的Sarsa(A)算法成功应用在Keepaway平台上.仿真结果表明,新设计的强化函数在一定参数条件下有效提高了强化学习算法栽Keepaway平台的性能表现.其最终的学习效果更好. 相似文献

3.

多智能体深度强化学习研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

孙彧曹雷陈希亮徐志雄赖俊《计算机工程与应用》2020,56(5):13-24

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。相似文献

4.

对称协调博弈问题的多智能体强化学习

下载免费PDF全文

王云韩伟《计算机工程与应用》2008,44(36):230-233

针对多机器人协调问题,利用协调博弈中智能体策略相似性,提出智能体的高阶信念修正模型和学习方法PEL,使智能体站在对手角度进行换位推理,进而根据信念修正将客观观察行为和主观信念推理结合起来。证明了信念修正模型的推理置信度只在0和1两个值上调整即可协调成功。以多机器人避碰为实验背景进行仿真,表明算法比现有方法能够取得更好的协调性能。相似文献

5.

多智能体系统中的分布式强化学习研究现状 总被引：4，自引：0，他引：4

仲宇顾国昌张汝波《控制理论与应用》2003,20(3):317-322

对目前世界上分布式强化学习方法的研究成果加以总结, 分析比较了独立强化学习、社会强化学习和群体强化学习三类分布式强化学习方法的特点、差别和适用范围, 并对分布式强化学习仍需解决的问题和未来的发展方向进行了探讨. 相似文献

6.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

7.

面向车联网的多智能体强化学习边云协同卸载

叶佩文贾向东杨小蓉牛春雨《计算机工程》2021,47(4):13-20

车联网边缘计算是实现车联网系统低时延和高可靠性的关键技术,但现有方法普遍存在场景趋同和系统建模局限的问题,同时包含复杂的训练过程并面临维灾风险.通过结合云计算技术,提出一种基于多智能体强化学习的边云协同卸载方案.依据随机几何理论计算卸载节点覆盖概率,对车辆节点与卸载对象进行预配对.利用线性Q函数分解方法反映每个智能体多... 相似文献

8.

基于模糊推理的多智能体强化学习

韩伟鲁霜《计算机应用与软件》2011,28(11):96-98,107

以电子市场智能定价问题为研究背景,提出基于模糊推理的多智能体强化学习算法(FI-MARL).在马尔科夫博弈学习框架下,将领域知识初始化为一个模糊规则集合,智能体基于模糊规则选择动作,并采用强化学习来强化模糊规则.该方法有效融合应用背景的领域知识,充分利用样本信息并降低学习空间维数,从而增强在线学习性能.在电子市场定价的... 相似文献

9.

基于注意力消息共享的多智能体强化学习

臧嵘王莉史腾飞《计算机应用》2022,42(11):3346-3353

通信是非全知环境中多智能体间实现有效合作的重要途径,当智能体数量较多时,通信过程会产生冗余消息。为有效处理通信消息,提出一种基于注意力消息共享的多智能体强化学习算法AMSAC。首先,在智能体间搭建用于有效沟通的消息共享网络,智能体通过消息读取和写入完成信息共享,解决智能体在非全知、任务复杂场景下缺乏沟通的问题;其次,在消息共享网络中,通过注意力消息共享机制对通信消息进行自适应处理,有侧重地处理来自不同智能体的消息,解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题;然后,在集中式Critic网络中,使用Native Critic依据时序差分（TD）优势策略梯度更新Actor网络参数,使智能体的动作价值得到有效评判;最后,在执行期间,智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策。在星际争霸Ⅱ多智能体挑战赛（SMAC）环境中进行实验,结果表明,与朴素Actor?Critic （Native AC）、博弈抽象通信（GA?Comm）等多智能体强化学习方法相比,AMSAC在四个不同场景下的平均胜率提升了4 ~ 32个百分点。AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案,在交通枢纽控制和无人机协同领域都具备广泛的应用前景。相似文献

10.

基于自注意力机制和策略映射重组的多智能体强化学习算法

李静晨史豪斌黄国胜《计算机学报》2022,(9):1842-1858

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自... 相似文献

11.

基于分区间强化学习的集群导弹快速任务分配EI北大核心CSCD

黄卓徐振郭健陈庆伟吴潇瑞《控制理论与应用》2023,40(6):1129-1139

针对集群导弹在线任务分配面临的环境不确定、耗时过长等问题,本文研究了一种基于分区间强化学习的集群导弹快速任务分配算法.首先,建立集群导弹的综合攻防性能模型,并将存在环境不确定性的集群导弹任务分配问题表述为马尔可夫决策过程.其次,针对该过程采用分区间强化学习,通过将搜索空间划分成若干个子区间,降低搜索维度,加快算法的收敛过程,并通过理论证明给出了最优区间划分依据.最后,通过3组仿真实验,分别从收敛速度、不确定条件下的寻优能力以及导弹和目标数量可变情况下的决策能力3个方面,验证了所提算法的快速性和优化性能. 相似文献

12.

A population game approach for dynamic resource allocation problems

Ashkan Pashaie Christopher J. Damaren 《International journal of control》2017,90(9):1957-1972

We consider a water distribution system as an example of resource allocation, and investigate the use of a population game for its control. We use a game-theoretic approach based on two evolutionary dynamics, the Brown–von Neumann–Nash and the Smith dynamics. We show that the closed-loop feedback interconnection of the water distribution system and the game-theoretic-based controller has a Nash equilibrium as an asymptotically stable equilibrium point. The stability analysis is performed based on passivity concepts and the Lyapunov stability theorem. An additional control subsystem is considered for disturbance rejection. We verify the effectiveness of the method by simulations under different scenarios. 相似文献

13.

集体理性约束的Agent协作强化学习 总被引：1，自引：0，他引：1

下载免费PDF全文

吴士泓李德华潘莹《计算机工程与应用》2010,46(17):8-10

将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。相似文献

14.

面向资源最优分配的深度学习双边拍卖算法

郑阳超李珍妮《控制理论与应用》2023,40(10):1863-1872

针对拍卖过程中计算效率低和利益分配不合理等问题, 本文提出了一种基于深度学习的迭代双边拍卖算法. 该算法通过买卖双方的初始报价数据训练基于神经网络的资源最优分配模型, 调用训练好的模型对实时报价数据快速响应, 直接求解经纪人最优分配问题(BAP)以实现计算资源分配, 显著地减小了计算代价, 提高了算法的计算效率. 进一步, 针对利益分配不合理等问题, 在迭代双边拍卖框架的支出规则和收入规则中引入调节因子用于调节买卖双方的利益, 解决已有算法在实现社会福利最大化过程中利益分配不合理的问题. 实验结果验证了该算法的有效性和优越性, 在运行时间、社会福利、买家利益、卖家利益和经纪人利益等多项指标均明显优于已有的迭代双边拍卖算法相似文献

15.

A satellite network resource scheduling mechanism based on reinforcement learning

ZHOU Bi-ying WANG Ai-ping FEI Chang-jiang YU Wan-rong ZHAO Bao-kang 《计算机工程与科学》1990,41(12):2134

相似文献

16.

基于强化学习的卫星网络资源调度机制

周碧莹王爱平费长江虞万荣赵宝康《计算机工程与科学》2019,41(12):2134-2142

与传统同步轨道通信卫星(GEO)相比,以SpaceX、Starlink、O3b等为代表的新一代中低轨卫星互联网星座具备广域覆盖、全时空互联、多星协同等显著优势,已成为当今世界各国研究的焦点之一。传统卫星资源调度方法主要研究单颗GEO卫星下的资源调度问题,难以满足以多星协同、联合组网、海量用户为特征的低轨卫星星座的资源调度需求。为此,构建了基于用户满意度的多星协同智能资源调度模型,提出了一种基于强化学习的卫星网络资源调度机制IRSUP。IRSUP针对用户服务定制的个性化需求,设计了用户服务偏好智能优化模块;针对多星资源联合优化难题,设计了基于强化学习的智能调度模块。模拟仿真结果表明:IRSUP能有效提高资源调度合理性、链路资源利用率和用户满意度等指标,其中业务容量提升30%～60%,用户满意度提升一倍以上。相似文献

17.

云计算中虚拟资源的智能多代理设计

王留洋俞扬信周淮《计算机应用》2012,32(12):3291-3294

针对随着网络数据传输速度和复杂性的不断增加,网络管理变得更加困难的现状,提出了一种虚拟资源的智能多代理模型。描述了虚拟资源的智能多代理的处理过程,讨论了不同代理的处理机制。通过分析用户上下文和系统状态,可实时地分析社会媒体资源。根据虚拟资源的使用类型,对用户上下信息的需求进行分析和推断,自动地给用户分配资源。采用云计算中虚拟资源动态调度方法及MovieLens系统评估该模型,结果证明所提出的模型具有较好的性能,可实现虚拟资源的动态调度,动态地实现负载均衡,使云计算中的虚拟资源得到高效的利用。相似文献

18.

Variable neighborhood search for multi-objective resource allocation problems

Yun-Chia Liang Chia-Yin Chuang 《Robotics and Computer》2013

The Resource Allocation Problem (RAP) is a classical problem in the field of operations management that has been broadly applied to real problems such as product allocation, project budgeting, resource distribution, and weapon-target assignment. In addition to focusing on a single objective, the RAP may seek to simultaneously optimize several expected but conflicting goals under conditions of resources scarcity. Thus, the single-objective RAP can be intuitively extended to become a Multi-Objective Resource Allocation Problem (MORAP) that also falls in the category of NP-Hard. Due to the complexity of the problem, metaheuristics have been proposed as a practical alternative in the selection of techniques for finding a solution. This study uses Variable Neighborhood Search (VNS) algorithms, one of the extensively used metaheuristic approaches, to solve the MORAP with two important but conflicting objectives—minimization of cost and maximization of efficiency. VNS searches the solution space by systematically changing the neighborhoods. Therefore, proper design of neighborhood structures, base solution selection strategy, and perturbation operators are used to help build a well-balanced set of non-dominated solutions. Two test instances from the literature are used to compare the performance of the competing algorithms including a hybrid genetic algorithm and an ant colony optimization algorithm. Moreover, two large instances are generated to further verify the performance of the proposed VNS algorithms. The approximated Pareto front obtained from the competing algorithms is compared with a reference Pareto front by the exhaustive search method. Three measures are considered to evaluate algorithm performance: D1_R, the Accuracy Ratio, and the number of non-dominated solutions. The results demonstrate the practicability and promise of VNS for solving multi-objective resource allocation problems. 相似文献

19.

基于政策的多主体协作维护机制 总被引：1，自引：0，他引：1

胡军李长云《计算机工程与应用》2007,43(6):27-30

以维护多Agent的协作进程的顺利进行为目标,克服传统多Agent协作维护研究中,通用性和易管理性的不足,提出以动态约束和调整系统行为的政策为手段的,基于政策的多Agent协作维护机制。首先给出政策的描述方法和规范,然后阐述了由联合政策遵从模型和政策遵从机制构成的多主体协作维护机制,最后给出了基于政策的协作异常处理实现结构和方法。相似文献

20.

区块链赋能的算力网络协同资源调度方法

衷璐洁王目《计算机研究与发展》2023,37(4):750-762

随着AI内容生成、多媒体处理、VR视频等对于计算资源有着极大需求的互联网服务的快速发展,在可以遇见的将来,计算资源将成为网络中的稀缺资源.算力网络通过将算力作为网络基本单元之一来实现算力的网络化,为这些计算敏感的应用提供了行之有效的解决方案.得益于来自云—边—端等节点的计算资源,算力网络能够为大规模用户提供弹性泛在的计算调度.尽管算力网络具有广泛的应用前景,如何实现在这些地理分布的计算节点之间高效调度,计算资源对于算力网络的性能至关重要.提出了一种区块链赋能的资源调度（blockchain empowered resource allocation,BCERA）算法.不同于现有的资源调度方法,BCERA依赖于一个区块链结构来实现分布式、高效的计算资源调度.特别地,有别于现有的区块链结构,BCERA中的区块链节点通过求解任务调度优化问题来实现区块链的共识,从而在避免共识所带来的额外开销和时延的同时,还能提升系统的可扩展性和鲁棒性.计算资源调度问题被建模为一个马尔可夫决策过程（Markov decision process,MDP）并通过强化学习方法来求解.除此之外,还设计了一个激励机制以鼓励计算节点贡献资源支持算力网络的运转.实验结果表明,所提出的方法能够有效提高资源调度性能.

相似文献