首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性.  相似文献   

2.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

3.
基于Markov对策和强化学习的多智能体协作研究   总被引:4,自引:0,他引:4  
MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q-算法的强化学习。但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制。并且,Q-算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化。文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习。理论分析和仿真实验表明,协调学习算法具有收敛性。  相似文献   

4.
分布式仿真系统验证工具设计与开发   总被引:1,自引:0,他引:1  
为实现分布式仿真系统的自动验证,设计并开发了一个基于多Agent技术的验证工具.该工具采用形式化描述和校核方法完成多Agent系统的设计,利用Q学习算法实现多Agent之间的协调和协作,并使用面向对象知识表示方法表示了分布式仿真系统的验证知识,从而实现了统计验证、图灵测试和表面验证等任务.实际应用证明,该工具极大的提高了分布式仿真系统验证的自动化水平.  相似文献   

5.
强化学习和规划技术在目标上有着很高的相似性,而在技术上又具有互补性,因此,基于强化学习的Agent规划规则抽取问题长期以来一直是研究的热点。针对基于强化学习的多Agent系统在规划规则抽取方面存在的问题,提出了一种从多Agent Q学习中抽取满足规划条件的规划规则的RL—MAPRE算法,并给出了理论分析。  相似文献   

6.
为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-Stackelberg分层博弈(NSHG)模型.然后,提出2种多Agent强化学习算法,即基于NSHG的Q学习(NSHG-QL)算法和基于NSHG的深度Q网络(NSHG-DQN)算法.在实验中,使用NSHG-QL和NSHG-DQN算法在SUMO仿真软件搭建的路网环境中对信号灯进行控制,并与基础博弈模型求解算法进行比较.实验结果表明:NSHG-QL算法和NSHG-DQN算法减少了交叉口内车辆的平均旅行时间和平均时间损失,提高了平均速度;NSHG模型在满足重要交叉口间上层博弈的基础上协调次要交叉口,做出最优策略选择,而且基于分层博弈模型的多Agent强化学习算法能明显提高学习性能和收敛性.  相似文献   

7.
管制员Agent是空中交通运行仿真系统中的核心部分,为了提高其知识库的完备程度,做到空中交通的精确仿真,可以考虑将机器学习理论引入管制员Agent模型.研究了相关机器学习算法,提出管制员Agent的个体机器学习行为,选择Q学习算法对管制员Agent的学习行为进行建模,使管制员Agent能在空中交通运行仿真中取得最优策略,完善自身冲突解脱知识库的不足.仿真结果证明了管制员Agent学习行为的合理性.  相似文献   

8.
将预测分析技术和强化学习技术有机结合,使多Agent系统中的各Agent,不仅具有了高度反应自适应性,而且拥有了高效而准确的预测分析能力;使Agent的行为更具有针对性,尽可能地减少错误,保证学习的正确方向,提高Agent间进行信息共享,融合单个Agent的Q值表.相当于相同情况下增加了学习次数,不仅尽可能地消除策略中的冗余动作,以高效的方式实现最终目标,而且提高多Agent系统执行效率和收敛速度及性能.本文提出了一种改进的多Agent间协作学习方法,适用于环境不完备的复杂情况.以追捕问题作为仿真实验.结果表明所提方法能够有效地促进多智能体系统中各Agent间协作学习能力.  相似文献   

9.
将个性行为绑定到信息Agent上,提出了一种基于个性的协同强化学习算法,让不同个性的Agent充当合适的角色.基于共同的目标和相同的信息,Agent可能产生共同的意图,规划出共同的行为,使得MAS可以适用于动态、实时、有干扰、对抗的环境中.  相似文献   

10.
AODE中基于强化学习的Agent协商模型   总被引:10,自引:2,他引:8  
AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。  相似文献   

11.
着重介绍了电子公务中使用的或将要使用的智能技术,包括基于智能学习的智能信息检索(Intelligent Information Search)、智能信息检索、智能网上监控和学习智能体(Learning Agent)。  相似文献   

12.
提出了一种新的基于多智能体技术的城市交通控制系统框架,并在该系统中的智能体模型中引入了学习机制,初步建立了一个具有专家系统的特点、可以不断进化的分布式城市交通智能控制系统.  相似文献   

13.
设计是一个复杂的问题求解和逐步求精的过程,学习可以有效地利用经验知识改进设计者及计算系统的能力,提出了一种面向对象的设计模型,并介绍了基于该模型的设计知识表示方法及用决策树进行分类的方法,然后,介绍了多Agent设计概念学习系统DCLS(Design Concept Leaming System)的结构及学习过程。  相似文献   

14.
In multiagent reinforcement learning, with different assumptions of the opponents' policies, an agent adopts quite different learning rules, and gets different learning performances. We prove that, in multiagent domains, convergence of the Q values is guaranteed only when an agent behaves optimally and its opponents' strategies satisfy certain conditions, and an agent can get best learning performances when it adopts the same learning algorithm as that of its opponents.  相似文献   

15.
个性化和协作式网络学习环境的研究与应用   总被引:1,自引:0,他引:1  
介绍了基于网络的学习环境的含义,重点介绍了基于网络的个性化和协作式学习环境的设计和实现。  相似文献   

16.
机器人足球(RoboCup)是研究多agent系统的体系结构、多agent团队合作理论以及机器学习方法的理想测试平台。介绍了开发的仿真球队NDSocTeam系统的设计原理和实现技术。系统设计了以机器学习技术为核心的球员agent结构,并建立了一种分层学习以及多种学习技术相结合的机器学习系统.重点描述了NDSocTeam系统的总体结构、球员agent的结构以及机器学习的实现技术。  相似文献   

17.
智能化远程学习模型   总被引:11,自引:0,他引:11  
利用智能化技术实现有效的个性化学习是远程教育中的重要问题。该文对现有远程学习系统中智能化所需要解决的问题进行了分析。针对目前远程学习模型可实现性差的问题 ,从两个层次上加以解决 :在课件学习模型问题上 ,提出一个反映知识模块间关系的知识混合结构模型 ,及相应的智能指导和智能答疑算法 ;在软件实现层次上 ,利用软件代理和多代理技术实现智能课件、智能学习指导和智能答疑3个功能。该模型通过一个实验系统加以验证。结果表明 :基于知识混合结构和软件代理技术的智能化学习模型是一个实用的远程学习智能化方案  相似文献   

18.
基于Internet的DOL教材信息发现和收集Agent   总被引:4,自引:0,他引:4  
介绍一个基于多Agent(multi-agent)体系结构的信息检索系统:DOLTRI-Agent.DOLTRI-Agent用于从Internet上发现和收集用于远程开放教学(DistanceandOpenLearning,简称DOL)中进行教材设计的教材信息.DOLTRI-Agent根据用户需要和任务模型主动、智能和协作地搜索Internet上的各种信息资源(如数据库,WWW服务器等),对搜集到的教材信息归类存储,实时地更新本地教材信息库以与外部信息源保持动态一致.它还接收Internet信息空间中其他教材信息搜集Agent和其他类型Agent的服务请求,开放地与其他Agent进行互操作,实现信息共享和交流  相似文献   

19.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

20.
Agent具有自私的特性.为了在多agent系统学习时使学习效果体现最大的群体利益,提出了一种改进的多agent学习方法.该学习方法改进了基于基组织共识学习的学习方法,在多agent学习时考虑了主体的可信度问题,从而使最后的学习结果更具真实性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号