期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程，构造了一个新的多Agent协作学习模型。在这个模型的基础上，提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点，使得Agent基于对动作长期利益的估计来预测其动作策略，并做出相应的决策，进而达成最优的联合动作策略。最后，通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性，表明这种学习算法是一种高效、快速的学习方法。相似文献

2.

基于量子计算多Agent的人工神经网络训练方法

孟祥萍皮玉珍赵亮《计算机仿真》2011,28(11)

人工神经网络是可用于建模和求解各种复杂非线性现象的工具.针对传统神经网络训练时间长、节点数目受计算机能力限制等缺点,提出了一种新的多Agent系统理论(MAS)和量子算法的人工神经网络.在人工神经网络训练方法中,每个神经元或节点是一个量子Agent,通过强化学习算法后具有学习能力,然后用QCMAS强化学习算法作为新的神经网络的学习规则.这种新的人工神经网络法具有很好的并行工作能力而且训练时间比经典算法短,实验结果证明了方法的有效性. 相似文献

3.

应用记忆演化学习的Agent协商研究

下载免费PDF全文

廉佐政王海珍邓文新滕艳平《计算机工程与应用》2009,45(19):131-133

在多Agent系统（MAS）环境中,协商是一个复杂的动态交互过程。如何提高协商效率,成为了研究者关注的焦点。应用记忆演化理论的强化学习思想,提出一种Agent协商算法。它与基本强化学习相比,3阶段的记忆演化的强化学习,使得Agent可以在实时回报与延迟回报间更好的做出平衡,并为Agent记忆社会化交互创造条件,使强化学习更适合MAS的要求。通过模拟实验证明该协商算法是有效性的。相似文献

4.

多Agent系统的协作及强化学习算法研究

郑淑丽韩江洪骆祥峰蒋建文《模式识别与人工智能》2002,15(4)

研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解. 相似文献

5.

集体理性约束的Agent协作强化学习 总被引：1，自引：0，他引：1

下载免费PDF全文

吴士泓李德华潘莹《计算机工程与应用》2010,46(17):8-10

将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。相似文献

6.

基于强化学习的多移动Agent学习算法

刘菲曾广周《计算机工程与应用》2006,42(5):50-53

结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。相似文献

7.

基于多智能体的融合Sarsa(λ)学习算法 总被引：1，自引：0，他引：1

下载免费PDF全文

薛丽华殷苌茗李立云胡明辉《计算机工程与应用》2008,44(4):182-183,189

强化学习作为一种重要的机器学习方法,已经被广泛应用于许多单智能体和多智能体系统。强化学习的性能受所使用的学习算法及其参数的影响很大,不同的学习算法或者参数很小的变化都可能导致学习性能很大的变化。当环境模型未知时,确定最好的算法和最优的参数是困难的。为了避免参数的影响,提出了一种基于多Agent的融合Sarsa(λ)学习系统,它把强化学习环境当作多智能体环境来处理。最后用迷宫实验仿真,结果验证了该方法的可行性和有效性。相似文献

8.

基于强化学习的多Agent路径规划方法研究

王毅然经小川田涛孙运乾从帅军《计算机应用与软件》2019,36(8)

以复杂任务下多个智能体路径规划问题为研究对象,提出一种基于强化学习的多Agent路径规划方法。该方法采用无模型的在线Q学习算法,多个Agent不断重复"探索-学习-利用"过程,积累历史经验评估动作策略并优化决策,完成未知环境下的多Agent的路径规划任务。仿真结果表明,与基于强化学习的单Agent路径规划方法相比,该方法在多Agent避免了相碰并成功躲避障碍物的前提下,减少了17.4%的总探索步数,形成了到达目标点的最短路径。相似文献

9.

基于联合博弈的多Agent学习

黄付亮张荣国陈大川刘焜《计算机与数字工程》2011,39(6):21-24

在研究Q-Learning算法的基础上,将博弈论中的团队协作理论引入到强化学习中,提出了一种基于联合博弈的多Agent学习算法。该算法通过建立多个阶段博弈,根据回报矩阵对阶段博弈的结果进行评估,为其提供一种有效的A-gent行为决策策略,使每个Agent通过最优均衡解或观察协作Agent的历史动作和自身当前情况来预测其所要执行的动作。对任务调度问题进行仿真实验,验证了该算法的收敛性。相似文献

10.

混合多Agent环境下动态策略强化学习算法

肖正何青松张世永《小型微型计算机系统》2009,30(7)

机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益. 相似文献

11.

一种新的多智能体Q学习算法 总被引：2，自引：0，他引：2

郭锐吴敏彭军彭姣曹卫华《自动化学报》2007,33(4):367-372

针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择. 同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力. 相似文献

12.

样本有限关联值递归Q学习算法及其收敛性证明 总被引：5，自引：0，他引：5

殷苌茗陈焕文谢丽娟《计算机研究与发展》2002,39(9):1064-1070

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题，求解最优决策一般有两种途径：一种是求最大奖赏方法，另一种最求最优费用方法，利用求解最优费用函数的方法给出了一种新的Q学习算法，Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法，尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性，但是在他给出的算法中，没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响，因此提出的关联值递归Q学习算法改进了原来的Q学习算法，并且这种算法有比较好的收敛性质，从求解最优费用函数的方法出发，给出了Q学习的关联值递归算法，这种方法的建立可以使得动态规划（DP）算法中的许多结论直接应用到Q学习的研究中来。相似文献

13.

基于联合强化学习的RoboCup-2D传球策略

下载免费PDF全文

常晓军《计算机工程与应用》2011,47(23):212-216

在传统Q学习算法基础上引入多智能体系统,提出了多智能体联合Q学习算法。该算法是在同一评价函数下进行多智能体的学习,并且学习过程考虑了参与协作的所有智能体的学习结果。在RoboCup-2D足球仿真比赛中通过引入球场状态分解法减少了状态分量,采用联合学习得到的最优状态作为多智能体协作的最优动作组,有效解决了仿真中各智能体之间的传球策略及其协作问题,仿真和实验结果证明了算法的有效性和可靠性。相似文献

14.

多智能体的增强学习及其在RoboCup中的应用

刘国栋杨宝庆《计算机工程与应用》2008,44(23):46-48

针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。相似文献

15.

计及负荷不确定性的强化学习实时定价策略

王菁祺高岩《计算机应用研究》2022,39(9)

面对当前电力系统的负荷不确定、新能源并网与双碳目标等现状,在充分考虑供需双方福利前提下,建立了智能电网背景下考虑负荷不确定与碳交易的实时定价模型,并基于强化学习能够处理变量复杂性、非凸非线性问题优点,采用强化学习中Q学习算法对模型进行迭代求解。首先,将用户与供电商实时交互过程转换为强化学习框架对应的马尔可夫决策过程;其次,通过智能体在动态环境中的反复探索表示用户与供电商的信息交互;最后,通过强化学习中的Q学习算法寻找最优值即最大社会福利值。仿真结果表明,所提实时定价策略能够有效提升社会福利,降低碳排放总量,这验证了所提模型和算法的有效性。相似文献

16.

面向资源分配问题的Q-CF多智能体强化学习

连传强徐昕吴军李兆斌《智能系统学报》2011,6(2):95-100

多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真... 相似文献

17.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

18.

Backward Q-learning: The combination of Sarsa algorithm and Q-learning

Yin-Hao Wang Tzuu-Hseng S. Li Chih-Jui Lin 《Engineering Applications of Artificial Intelligence》2013,26(9):2184-2193

Reinforcement learning (RL) has been applied to many fields and applications, but there are still some dilemmas between exploration and exploitation strategy for action selection policy. The well-known areas of reinforcement learning are the Q-learning and the Sarsa algorithms, but they possess different characteristics. Generally speaking, the Sarsa algorithm has faster convergence characteristics, while the Q-learning algorithm has a better final performance. However, Sarsa algorithm is easily stuck in the local minimum and Q-learning needs longer time to learn. Most literatures investigated the action selection policy. Instead of studying an action selection strategy, this paper focuses on how to combine Q-learning with the Sarsa algorithm, and presents a new method, called backward Q-learning, which can be implemented in the Sarsa algorithm and Q-learning. The backward Q-learning algorithm directly tunes the Q-values, and then the Q-values will indirectly affect the action selection policy. Therefore, the proposed RL algorithms can enhance learning speed and improve final performance. Finally, three experimental results including cliff walk, mountain car, and cart–pole balancing control system are utilized to verify the feasibility and effectiveness of the proposed scheme. All the simulations illustrate that the backward Q-learning based RL algorithm outperforms the well-known Q-learning and the Sarsa algorithm. 相似文献

19.

Online tuning of fuzzy inference systems using dynamic fuzzy Q-learning 总被引：1，自引：0，他引：1

Meng Joo Er Chang Deng 《IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics》2004,34(3):1478-1489

This paper presents a dynamic fuzzy Q-learning (DFQL) method that is capable of tuning fuzzy inference systems (FIS) online. A novel online self-organizing learning algorithm is developed so that structure and parameters identification are accomplished automatically and simultaneously based only on Q-learning. Self-organizing fuzzy inference is introduced to calculate actions and Q-functions so as to enable us to deal with continuous-valued states and actions. Fuzzy rules provide a natural mean of incorporating the bias components for rapid reinforcement learning. Experimental results and comparative studies with the fuzzy Q-learning (FQL) and continuous-action Q-learning in the wall-following task of mobile robots demonstrate that the proposed DFQL method is superior. 相似文献

20.

分层的局部合作Q-学习

下载免费PDF全文

刘亮李龙澍《计算机工程与应用》2009,45(22):7-9

多智能体Q-学习问题往往因为联合动作的个数指数级增长而变得无法解决。从研究分层强化学习入手,通过对强化学习中合作MAS的研究,在基于系统工作逻辑的研究基础上,提出了基于学习过程分层的局部合作强化学习,通过对独立Agent强化学习的知识考察,改进多Agent系统学习的效率,进一步提高了局部合作强化学习的效能。从而解决强化学习中的状态空间的维数灾难,并通过仿真足球的2vs1防守证明了算法的有效性。相似文献