期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴志新《计算机与数字工程》2013,41(7)

论文概述了智能体理论及其在信息融合方面的研究情况,总结了多智能体信息融合的基本方法,基于JADE平台,设计并实现了一种多智能体信息融合系统. 相似文献

2.

范波潘泉张洪才程咏梅《计算机工程与应用》2003,39(22):100-102

论文简要介绍了多智能体技术和信息融合系统,将多智能体技术运用到信息融合系统中,对信息融合系统中的模型和方法进行改进,提出了多智能体信息融合模型,并研究了信息融合中的分布式强化学习。通过借鉴多智能体技术的研究成果,开辟信息融合理论和应用发展的另一条途径。相似文献

3.

基于强化学习的多智能体协作方法研究

童亮陆际联《计算机测量与控制》2005,13(2):174-176

为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。相似文献

4.

基于递阶强化学习的多智能体AGV 调度系统 总被引：3，自引：1，他引：3

李晓萌杨煜普许晓鸣《控制与决策》2002,17(3):292-296

递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。具有离散动态特性的AGV调度系统需要实时动态的调度方法，而具有MaxQ递阶强化学习能力的多智能体通过高效的强化学习方法和协作，可以实现AGV的实时调度。仿真实验证明了这种方法的有效性。相似文献

5.

增强协作多智能体强化学习中的全局信用分配机制

姚兴虎宋光鑫《计算技术与自动化》2021,40(1):149-154

针对协作多智能体强化学习中的全局信用分配机制很难捕捉智能体之间的复杂协作关系及无法有效地处理非马尔可夫奖励信号的问题,提出了一种增强的协作多智能体强化学习中的全局信用分配机制。首先,设计了一种新的基于奖励高速路连接的全局信用分配结构,使得智能体在决策时能够考虑其所分得的局部奖励信号与团队的全局奖励信号;其次,通过融合多步奖励信号提出了一种能够适应非马尔可夫奖励的值函数估计方法。在星际争霸微操作实验平台上的多个复杂场景下的实验结果表明:所提方法不仅能够取得先进的性能,同时还能大大提高样本的利用率。相似文献

6.

多Agent及其在信息融合中的应用

王军王员云《计算机与数字工程》2008,36(3):128-130

基于分布式人工智能中的多Agent系统的定义、构成和模型,以及信息融合概念、类型和方法等,阐述MAS交互及其应用,提出一种基于MAS的信息融合系统模型,并详细解释了该模型中的各组成部分的功能和作用. 相似文献

7.

多智能体强化学习综述 总被引：1，自引：0，他引：1

杜威丁世飞《计算机科学》2019,46(8)

相似文献

8.

基于信息融合的多智能体协作方法的研究与应用

张晓勇吴敏彭军《计算机工程与应用》2008,44(22):27-30

将信息融合技术运用到多智能体系统中,利用信息融合方法对智能体得到的在空间上分布的其他智能体感知的局部信息进行融合,得到较完整的态势评估,以此来规划和协调多智能体系统的协作行为,提出了一种基于信息融合的多智能体协作方法。将该方法应用在机器人救援仿真系统中,结果表明该方法能够实现全局上的任务分解策略,有效提高了智能体协作能力。相似文献

9.

强化学习研究综述 总被引：8，自引：2，他引：8

陈学松杨宜民a 《计算机应用研究》2010,27(8):2834-2838

在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent 系统问题等若干领域的成功应用和未来的发展方向。相似文献

10.

强化学习算法与应用综述

李茹杨彭慧民李仁刚赵坤《计算机系统应用》2020,29(12):13-25

强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发展动态,首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题.其次,回顾强化学习经典算法,包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法,以及综述强化学习前沿研究,主要介绍多智能体强化学习和元强化学习方向.最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用,以及总结与展望. 相似文献

11.

多Agent系统中强化学习的研究现状和发展趋势 总被引：6，自引：1，他引：6

赵志宏高阳骆斌陈世福《计算机科学》2004,31(3):23-27

本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括：(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Agent系统中强化学习的应用和问题。最后讨论了多Agent系统中应用强化学习所面临的挑战。相似文献

12.

基于中介Agent的强化学习优化协商模型

张京敏董红斌《计算机科学》2017,44(1):53-59

提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。相似文献

13.

多智能体协作的两层强化学习实现方法 总被引：3，自引：0，他引：3

陈雪江杨东勇范荣真《计算机工程》2005,31(3):192-194

提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现,将该方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明比采用传统强化学习方法的智能体协作得更好。相似文献

14.

基于强化学习的多机器人编队方法研究 总被引：1，自引：0，他引：1

王醒策张汝波顾国昌《计算机工程》2002,28(6):15-16,98

介绍了国内外关于强化学习的研究现状，对应用Q-学习和神经网络来实现多机器人的自适应编队方法给出了详细的系统描述。相似文献

15.

随机博弈框架下的多agent强化学习方法综述 总被引：4，自引：0，他引：4

宋梅萍顾国昌张国印《控制与决策》2005,20(10):1081-1090

多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向. 相似文献

16.

贝叶斯学习与强化学习结合技术的研究

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献

17.

多Agent协作的强化学习模型和算法 总被引：2，自引：0，他引：2

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。相似文献

18.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

19.

基于强化学习的多机群网格资源调度模型

陈庆奎《计算机科学》2007,34(11):67-70

在由多个计算机集群构成的多机群网格环境下,为了解决数据并行型计算（DPC）与计算资源的有效匹配问题,提出了一个基于强化学习机制的网格资源调度模型;给出了由多个计算机机群组成的多机群网格、逻辑计算机机群、数据并行型计算和一系列Agent的定义;利用多Agent的协作做竞争机制、基于强化学习的匹配知识库的修正方法,研究了逻辑计算机机群与DPC资源供需之间的有效匹配问题;描述了网格的资源调度模型。理论分析和实践表明,该模型有效地解决了多机群网格环境之下数据并行型计算所需的资源优化使用问题。该模型适合于基于多机群网格的数据并行型计算。相似文献

20.

基于强化学习的多Agent系统 总被引：4，自引：0，他引：4

唐文彬朱淼良《计算机科学》2003,30(4):16-18

1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个相似文献