首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在多Agent系统(MAS)环境中,协商是一个复杂的动态交互过程。如何提高协商效率,成为了研究者关注的焦点。应用记忆演化理论的强化学习思想,提出一种Agent协商算法。它与基本强化学习相比,3阶段的记忆演化的强化学习,使得Agent可以在实时回报与延迟回报间更好的做出平衡,并为Agent记忆社会化交互创造条件,使强化学习更适合MAS的要求。通过模拟实验证明该协商算法是有效性的。  相似文献   

2.
以复杂任务下多个智能体路径规划问题为研究对象,提出一种基于强化学习的多Agent路径规划方法。该方法采用无模型的在线Q学习算法,多个Agent不断重复"探索-学习-利用"过程,积累历史经验评估动作策略并优化决策,完成未知环境下的多Agent的路径规划任务。仿真结果表明,与基于强化学习的单Agent路径规划方法相比,该方法在多Agent避免了相碰并成功躲避障碍物的前提下,减少了17.4%的总探索步数,形成了到达目标点的最短路径。  相似文献   

3.
提出了一种新颖的基于Q-学习、蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其学习速度骤然下降。另外,Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。把蚁群算法、轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率。  相似文献   

4.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。  相似文献   

5.
多Agent自动协商中机器学习的应用研究   总被引:2,自引:0,他引:2  
目前将机器学习理论应用到多Agent自动协商系统中已成为电子商务领域的最新研究课题。本文即是利用贝叶斯法则来更新协商中的环境信息(即信念),利用强化学习中的Q学习算法生成协商中的提议,建立了一个具有学习机制的多Agent自动协商模型。并且封传统Q学习算法追行了扩充,设计了基于Agent的当前信念和最近探索盈余的动态Q学习算法。实验验证了算法的收敛性。  相似文献   

6.
多Agent Q学习几点问题的研究及改进   总被引:1,自引:0,他引:1  
提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习.在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降.另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值.在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题.最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率.  相似文献   

7.
针对变频空调技术参数固定不能适应智能办公环境变化的问题,为提高环境温度的舒适度,提出一种新的变频空调温度控制方法。该方法引入多智能体(Agent)技术设计温度模糊控制结构,确定输入输出变量及其模糊集,然后引入动作回报值改进模糊Q学习算法,由推理Agent执行算法学习手动调节空调的动作、修改模糊规则。将得到的优化模糊规则用于环境温度的控制。实验结果表明,与常规模糊温度控制方法相比,该控制方法缩短了空调的响应时间,减少了超调量。  相似文献   

8.
强化学习是一种重要的无监督机器学习技术,它能够利用不确定的环境下的奖赏发现最优的行为序列,实现动态环境下的在线学习,被广泛地应用到Agent系统当中。应用强化学习算法的难点之一就是如何平衡强化学习当中探索和利用之间的关系,即如何进行动作选择。结合Q学习在ε-greedy策略基础上引入计数器,从而使动作选择时的参数ε能够分阶段进行调整,从而更好地平衡探索和利用间的关系。通过对方格世界的实验仿真,证明了方法的有效性。  相似文献   

9.
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。  相似文献   

10.
郑延斌  李波  安德宇  李娜 《计算机应用》2015,35(12):3491-3496
针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能;最后,针对出租车问题在栅格环境中对所提算法进行了仿真实验。为了使算法贴近真实环境,增加算法的可移植性,在三维仿真环境中对该算法进行验证,实验结果表明该算法收敛速度快,收敛过程稳定。  相似文献   

11.
付鹏  罗杰 《微机发展》2013,(2):123-126
文中以围捕问题作为研究平台,以提高多Agent系统中Q学习算法的学习效率作为研究目标,提出了一种基于改进蚁群算法的Q学习算法。该算法将信息素的概念引入到Q学习中,结合采用动态自适应调整信息素挥发因子的蚁群算法,使Agent在进行行为决策时不再只以Q值作为参考标准,而是考量Q值与信息素的综合效应,加强了Agent彼此间的信息共享,增强了交互性。并且对于复杂变化的周围环境,根据具体环境条件,设立分阶段的多奖惩标准,使算法对于环境和状态有更好的适应性。仿真实验证明了改进后的Q学习算法提高了学习系统的效率,高效地实现了多Agent系统的目标任务。  相似文献   

12.
针对现有机器人路径规划强化学习算法收敛速度慢的问题,提出了一种基于人工势能场的移动机器人强化学习初始化方法.将机器人工作环境虚拟化为一个人工势能场,利用先验知识确定场中每点的势能值,它代表最优策略可获得的最大累积回报.例如障碍物区域势能值为零,目标点的势能值为全局最大.然后定义Q初始值为当前点的立即回报加上后继点的最大折算累积回报.改进算法通过Q值初始化,使得学习过程收敛速度更快,收敛过程更稳定.最后利用机器人在栅格地图中的路径对所提出的改进算法进行验证,结果表明该方法提高了初始阶段的学习效率,改善了算法性能.  相似文献   

13.
王奇  秦进 《计算机应用》2017,37(5):1357-1362
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。  相似文献   

14.
多Agent深度强化学习综述   总被引:10,自引:4,他引:6  
近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景.  相似文献   

15.
研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解.  相似文献   

16.
一种多步Q强化学习方法   总被引:1,自引:0,他引:1  
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。  相似文献   

17.
基于有限样本的最优费用关联值递归Q学习算法   总被引:4,自引:2,他引:4  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

18.
为提高分布式认知无线网络认知用户信道与功率分配算法的能量效率和收敛速度,将单位能量的平均比特数作为通信效率指标,平衡用户通信质量和系统能量消耗,提出一种基于多Agent协作强化学习的分布式信道与功率分配算法。在多Agent独立Q学习的基础上引入协作学习,各用户通过独立Q学习后,共享Q值并进行融合再学习。仿真结果表明,与基于能效的独立Q学习算法、独立Q学习算法以及随机功率分配算法相比,该算法能够有效提高认知用户发射功率和信道分配时的收敛速度。  相似文献   

19.
在研究Q-Learning算法的基础上,将博弈论中的团队协作理论引入到强化学习中,提出了一种基于联合博弈的多Agent学习算法。该算法通过建立多个阶段博弈,根据回报矩阵对阶段博弈的结果进行评估,为其提供一种有效的A-gent行为决策策略,使每个Agent通过最优均衡解或观察协作Agent的历史动作和自身当前情况来预测其所要执行的动作。对任务调度问题进行仿真实验,验证了该算法的收敛性。  相似文献   

20.
元博弈平衡和多Agent强化学习的MetaQ算法   总被引:1,自引:0,他引:1  
多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号