首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于Q-强化学习的多Agent协商策略及算法   总被引:1,自引:1,他引:0       下载免费PDF全文
隋新  蔡国永  史磊 《计算机工程》2010,36(17):198-200
针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。  相似文献   

2.
曹琨 《福建电脑》2010,26(5):56-57
Agent间进行协作的基础是交互,采用何种交互模型关系到能否有效地实现Agent的交互能力,RASA是2007年Tim Miller提出的一个MAS(multi-agent system)交互协议框架,这个框架已被证明可以更好的促进MAS的交互,并通过一个协商协议实例来展现RASA良好的特性。  相似文献   

3.
自2001年Jennings研究协商以来,已经成为MAS研究的热点。介绍了协商的定义、研究内容、应用领域;分析了协商的复杂性;总结了通用的单议题协商和多议题协商协议的对策论模型;综述了Agent多议题协商的策略与学习算法;并分别介绍了两种典型的多议题协商:拍卖和并发协商,给出组合拍卖、多属性拍卖和并发协商的基本模型及其研究进展;最后探讨了协商存在问题和将来可能的发展方向,指出作为交互、竞争与合作的基础,协商需要继续深入的探讨,也必将成为多Agent系统研究的主流。  相似文献   

4.
在Multi-Agent系统(MAS)中,每一个Agent都有不同的目标。通常只拥有对方的不完全信息。Agent需要具有解决在实现各自目标过程中所产生的各种矛盾的能力。协商是解决这些矛盾的一种有效途径。本文提出了一个基于Bayesian学习的协商模型NMBL:在每一轮协商中,Agent通过Bayesian学习获取协商对手的信息,更新对协商对手的信念,然后根据基于冲突点和不妥协度的协商策略提出下一轮的协商提议。NMBL把整个协商过程看成一个动态的交互过程,体现了Multi-Agent系统的动态特性,同时NMBL具有较强的学习能力。试验证明,该模型具有较好的协商性能。  相似文献   

5.
莫再峰  陈波  曹勇 《微型电脑应用》2006,22(5):23-24,34
本文在Aglet平台上开发出一个MAS可视化实验平台。该试验平台主要用于MAS系统(Multi-agentSystems)用机制研究。用户在该平台上能够方便快捷地配置出一个多Agent系统,该系统不但具有Agent与Agent,Agent实体与平台的通信,Agent与用户的交互,Agent在内外网的移动等基本功能,而且可以在Agent之间建立信用关系,可以存储记录和直观的显示交互的历史及信用信息。该系统是一个开放的系统,用户可以方便的在该系统中加入自己的安全构架,信用策略和信用相关算法。以方便快速测试新的MAS信用模型。  相似文献   

6.
本文在Aglet平台上开发出一个MAS可视化实验平台。该试验平台主要用于MAS系统 (Multiagent Systems)用机制研究。用户在该平台上能够方便快捷地配置出一个多Agent系统,该系统不但具有Agent与Agent, Agent实体与平台的通信,Agent与用户的交互,Agent在内外网的移动等基本功能,而且可以在Agent之间建立信用关系,可以存储记录和直观的显示交互的历史及信用信息。该系统是一个开放的系统,用户可以方便的在该系统中加入自己的安全构架, 信用策略和信用相关算法。以方便快速测试新的MAS信用模型。  相似文献   

7.
MAS系统的问题求解能力分析   总被引:2,自引:0,他引:2  
本文用状态空间搜索模型分析了多Agent系统(MAS)的问题求解能力,认为MAS系统中Agent之间知识的组合应用和对问题搜索方向的交互和决策是影响MAS系统问题求解能力的主要原因,在状态空间搜索模型下可以将Agent间知识的组合应用表达为不同Agent的搜索路径的组合,而Agent对搜索方向的判断是基于启发式信息做出的,从而为形式化分析MAS系统的性能建立了通用的模型.本文以A*算法为例探讨了可采纳算法下多Agent合作求解效果与Agent的知识和启发信息之间的关系,指出只有在一定条件下MAS系统才会获得更好的解题能力.本文还对非可采纳算法下MAS系统性能分析方法提出了初步看法.  相似文献   

8.
图像的阈值在图像处理中非常重要。直方图法是常用的阈值确定方法,但无法很好地确定非双峰图像的阈值。强化学习是通过与环境的交互来学习,Q学习是强化学习的一种主要的方法。本文介绍一种使用Q学习算法确定最优阈值的方法。在该算法中,Agent从一个恒定的阈值开始,并把它应用到图像。在客观的情况下,回报是在黑色像素的比率、对象区域、公差面积的偏差、对象的数量的基础上被定义的。Agent将环境状态映射到适当的动作,并尝试获得最大回报。实验表明,所提出的方法可以用客观或主观的方式整合人的专业知识,以克服现有方法的不足之处。  相似文献   

9.
为了解决多Agent系统(MAS)协商双方在信息对称情况下的自动协商问题,提出了一种用基于支持向量机算法的间接学习对手协商态度的协商方法,提出了不完全信息条件下基于案例和对策论的Agent多议题Pareto最优协商模型,通过支持向量机的方法来学习协商轨迹,得到协商对手在每个协商项的态度,然后利用学习得到的对手协商态度,构造了一个协商的决策模型,此模型能同时基于对手的态度和自身的偏好来做出协商决策。最后通过实验验证了该方法的先进性。  相似文献   

10.
本文在Aglet平台上开发出一个MAS可视化实验平台。该试验平台主要用于MAS系统(Mu1tiagent Systems)用机制研究。用户在该平台上能够方便快捷地配置出一个多Agent系统,该系统不但具有Agent与Agent,Agent实体与平台的通信,Agent与用户的交互,Agent在内外网的移动等基本功能,而且可以在Agent之间建立信用关系,可以存储记录和直观的显示交互的历史及信用信息。该系统是一个开放的系统,用户可以方便的在该系统中加入自己的安全构架,信用策略和信用相关算法。以方便快速测试新的MAS信用模型。  相似文献   

11.
协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间较长、特定协商领域依赖、协商信息利用不充分等问题.为此,本文提出了一种基于TD3深度强化学习算法的协商策略,通过预训练降低训练过程的探索成本,通过优化状态和动作定义提高协商策略的鲁棒性从而适应不同的协商场景,通过多头语义神经网络和对手偏好预测模块充分利用协商的交互信息.实验结果表明,该策略在不同协商环境下都可以很好地完成协商任务.  相似文献   

12.
增强学习可以帮助协商Agent选择最优行动实现其最终目标。对基于增强学习的协商策略进行优化,在协商过程中充分利用对手的历史信息,加快协商解的收敛和提高协商解的质量。最后通过实验验证了算法的有效性和可用性。  相似文献   

13.
一种基于分布式强化学习的多智能体协调方法   总被引:2,自引:0,他引:2  
范波  潘泉  张洪才 《计算机仿真》2005,22(6):115-118
多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。  相似文献   

14.
并行强化学习算法及其应用研究   总被引:2,自引:0,他引:2       下载免费PDF全文
强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一。为了提高强化学习的效率,提出了一种并行强化学习算法。多个同时学习,在各自学习一定周期后,利用D-S证据利用对学习结果进行融合,然后在融合结果的基础上,各进行下一周期的学习,从而实现提高整个系统学习效率的目的。实验结果表明了该方法的可行性和有效性。  相似文献   

15.
为了帮助协商Agent选择最优行动实现其最终目标,提出基于贝叶斯分类的增强学习协商策略。在协商过程中,协商Agent根据对手历史信息,利用贝叶斯分类确定对手类型,并及时动态地调整协商Agent对对手的信念。协商Agen、通过不断修正对对手的信念,来加快协商解的收敛并获得更优的协商解。最后通过实验验证了策略的有效性和可用性。  相似文献   

16.
提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。  相似文献   

17.
This paper firstly proposes a bilateral optimized negotiation model based on reinforcement learning. This model negotiates on the issue price and the quantity, introducing a mediator agent as the mediation mechanism, and uses the improved reinforcement learning negotiation strategy to produce the optimal proposal. In order to further improve the performance of negotiation, this paper then proposes a negotiation method based on the adaptive learning of mediator agent. The simulation results show that the proposed negotiation methods make the efficiency and the performance of the negotiation get improved.  相似文献   

18.
一种具有自主学习能力的并发协商模型   总被引:3,自引:0,他引:3  
张谦  邱玉辉 《计算机应用》2006,26(3):663-0665
提出一种具有自主学习能力的并发协商模型,通过使用增强学习方法的Q学习算法生成协商提议,使用相似度方法评价提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题多Agent并发协商。  相似文献   

19.
基于量子计算的多Agent协作学习算法   总被引:1,自引:0,他引:1  
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论的多Agent协作学习算法。新算法借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅表示行为选择概率,并用量子搜索算法来加速多Agent的学习。相应的仿真实验结果显示新算法的有效性。  相似文献   

20.
针对多智能体强化学习中因智能体之间的复杂关系所导致的学习效率低及收敛速度慢的问题, 提出基于两级注意力机制的方法MADDPG-Attention, 在MADDPG算法的Critic网络中增加了软硬两级注意力机制, 通过注意力机制学习智能体之间的可借鉴经验, 提升智能体之间的相互学习效率. 由于单层的软注意力机制会给完全不相关的智能体也赋予学习权重, 因此采用硬注意力判断两个智能体之间学习的必要性, 裁减无关信息的智能体, 再用软注意力判断两个智能体间学习的重要性, 按重要性分布来分配学习权重, 据此向有可用经验的智能体学习. 在多智能体粒子的合作导航环境上进行测试, 实验结果表明, MADDPG-Attention算法对复杂关系的理解更为清晰, 在3种环境的导航成功率都达到了90%以上, 有效提高了学习效率, 加快了收敛速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号