首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
多Agent协作的强化学习模型和算法   总被引:2,自引:0,他引:2  
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。  相似文献   

2.
多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Qlearning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。  相似文献   

3.
基于多Agent技术构建了一个网上协作学习系统模型MACL,给出了系统的结构框架,就其中的学生模型的构建、协作学习小组的创建以及协作学习和评价机制进行了探讨,结合KQML通信机制设计了Agent的交互模型,并进一步研究了协作小组的创建策略和算法.  相似文献   

4.
在多议题协商研究中,议题之间的依赖关系增加了协商Agent效用函数的复杂性,从而使得多议题协商变得更加困难.基于效用图的多议题依赖协商模型是体现议题间依赖关系的多议题协商模型.在该协商模型中,协商双方仅需要较少的协商步数就能够找到满足Pareto效率的协商结局.如何有效地学习买方Agent的效用图结构是该协商模型的关键.文中基于Nearest-Biclusters协作过滤技术的思想提出了一种新的效用图结构学习算法(NBCFL算法).该算法首先利用Nearest-Biclusters协作过滤技术发现买方偏好的局部匹配特性,提取与当前买方Agent类型相同的买方Agent所产生的协商历史记录,然后通过计算各议题间的依赖度学习买方Agent的效用图结构.实验表明在参与协商的买方Agent类型不同的条件下,NBCFL算法比IBCFL算法能更好地学习买方Agent的效用图结构.  相似文献   

5.
为了在协作学习系统中实现学习者Agent之间的有效合作,通过引入一种新的合作机制--同学关系网模型(Schoolmate Relation Web Model),来构建学习系统中学习者Agent之间的同学联盟,并且基于学习者Agent之间的同学联盟来实现多个学习者Agent之间的协作学习.在每个同学联盟中,任意两个Agent之间都具有同学关系,并且联盟中的所有Agent相互协作,共同完成学习任务.另外,联盟中的学习者Agent之间的通信不是直接进行的,而是通过一个黑板来进行,这可以显著地提高Agent之间的通信效率.由于同学关系网模型可以避免Agent联盟形成的盲目性,并且可以提高学习者Agent之间的交互效率,从而使得我们基于Agent同学联盟的协作学习系统可以实现学习者Agent之间的有效合作,弥补了现有协作学习系统的不足.  相似文献   

6.
集体理性约束的Agent协作强化学习   总被引:1,自引:0,他引:1       下载免费PDF全文
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。  相似文献   

7.
提出了一种基于信任机制的多Agent协作系统的形成方案.通过借鉴社会学中的人际关系信任模型,建立Agent间的信任关系,利用Bayesian方法对Agent的可信度进行评估,通过Agent间基于信任关系的链接更新形成稳定的多Agent协作系统.仿真结果证实,提出的协作方案能有效地促进Agent间的协作效率,提高共同完成任务的成功率.  相似文献   

8.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。  相似文献   

9.
采用多Agent技术进行制造系统建模时,Agent间可靠有效的交互协作是系统成功处理离散制造任务的重要保障。以增强多Agent系统的可靠性为目的,提出了使用并联式结构来构建多Agent系统的思想。在此基础上,给出了并联式Agent系统的可靠性评价方法,建立约束条件下的多Agent系统可靠性极大化问题的数学模型,利用填充函数算法的思想构造该模型的求解算法,并通过实例说明并联式结构和求解算法的有效性。  相似文献   

10.
基于Agent的分布式系统信任模型仿真   总被引:1,自引:0,他引:1  
针对当前信任模型仿真缺乏理论支撑,仿真过程描述及建模步骤不规范的问题,将多Agent建模仿真方法应用于信任模型的仿真,建立信任模型Agent仿真过程框架.由信任模型微观机制入手,对个体Agent进行设计,建立Agent实体模型;针对信任模型中Agent之间的交互问题设计基于推荐网的Agent协作算法;在充分考虑系统宏观约束的情况下,建立微观Agent到宏观系统之间的联系.通过实例验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号