首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。  相似文献   

2.
提出一种融入合同网运行机制的R学习方法,以此方法为核心构造Agent形成具有学习能力的实时调度模型。模型以最小化作业累计平均流动比为主要目标,同时借助对强化学习报酬的设计减小机器负载的不均衡性,实现对调度过程的双重优化;构造实时调度实例投入测试的结果证明了模型的绩效。另外,一个包含强化学习Agent与无学习Agent的混合机器环境被构建并测试其性能,测试结果表明:在Agent之间借助强化学习过程形成了某种隐性的合作,正是这种合作保证了高质量实时调度方案的输出。  相似文献   

3.
基于Markov对策的多Agent强化学习模型及算法研究   总被引:19,自引:0,他引:19  
在MDP,单Agent可以通过强化学习来寻找问题的最优解。但在多Agent系统中,MDP模型不再适用。同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题。文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法。理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解。  相似文献   

4.
基于强化学习的多Agent系统   总被引:4,自引:0,他引:4  
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个  相似文献   

5.
一个基于Agent的答疑系统   总被引:1,自引:0,他引:1  
本文首先分析了现有答疑系统及其不足,然后给出了一个基于Agent的答疑系统模型以及其中各Agent部件的设计,最后说明了本文答疑系统的特点。  相似文献   

6.
多Agent协作求解是分布式人工智能要研究的基本问题。该文基于管理agent概念提出一个新的协作模型,该模型利用管理Agent对多Agent系统进行全局协作分配,协作申请分级处理,解决了传统协作模型中存在的模型与应用领域有关和只适用于静态环境的问题。  相似文献   

7.
文章从组织模型、功能模型、信息模型和通信模型四个方面描述了一个层次化的多Agent系统模型,并给出了该模型中Agent的心智状态BDIC到信息模型的一个映射.该模型不仅有助于系统的实施,而且使系统具有较好的可扩充性和重用性.  相似文献   

8.
一个改进的理性Agent-BDI模型   总被引:5,自引:0,他引:5  
利用一种新的可能世界语义,在Rao和Georgeff的基于分支时间可能世界模型的BDI形式化的基础上,得到一个改进的BID模型。与Rao和Georgeff的BDI模型以及大多数基于可能世界的形式化相比,不存在逻辑全知问题和除等价情况外的副作用问题。  相似文献   

9.
基于强化学习的多Agent协作研究   总被引:2,自引:0,他引:2  
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制.  相似文献   

10.
基于多Agent的电子商务系统模型研究   总被引:4,自引:0,他引:4  
耿筠  滕国库 《微机发展》2005,15(2):81-83,139
从事电子商务的人员经常面临2个主要问题:如何将网页访问者转换成您的销售线索?如何实现赢利最大化?为此,文中设计了一个基于多Agent的电子商务系统模型,构建了顾客查询Agent、订购Agent、销售Agent和管理Agent,这个多Agent系统将能比较好地解决上述2个问题。  相似文献   

11.
This article discusses effective mechanisms that enable a group of robots to autonomously generate, adapt, and enhance team behaviors while improving their individual performance simultaneously. Two promising team learning concepts, namely, cooperative learning and advice‐sharing, are integrated to provide a platform that encompasses a comprehensive approach to team‐performance enhancement. These methods were examined in relation to the performance characteristics of standard single‐robot Q‐learning to ascertain whether they retain viable learning characteristics despite the integration of individual learning into team behaviors.  相似文献   

12.
Ho  F.  Kamel  M. 《Machine Learning》1998,33(2-3):155-177
A central issue in the design of cooperative multiagent systems is how to coordinate the behavior of the agents to meet the goals of the designer. Traditionally, this had been accomplished by hand-coding the coordination strategies. However, this task is complex due to the interactions that can take place among agents. Recent work in the area has focused on how strategies can be learned. Yet, many of these systems suffer from convergence, complexity and performance problems. This paper presents a new approach for learning multiagent coordination strategies that addresses these issues. The effectiveness of the technique is demonstrated using a synthetic domain and the predator and prey pursuit problem.  相似文献   

13.
Learning Team Strategies: Soccer Case Studies   总被引:1,自引:0,他引:1  
We use simulated soccer to study multiagent learning. Each team's players (agents) share action set and policy, but may behave differently due to position-dependent inputs. All agents making up a team are rewarded or punished collectively in case of goals. We conduct simulations with varying team sizes, and compare several learning algorithms: TD-Q learning with linear neural networks (TD-Q), Probabilistic Incremental Program Evolution (PIPE), and a PIPE version that learns by coevolution (CO-PIPE). TD-Q is based on learning evaluation functions (EFs) mapping input/action pairs to expected reward. PIPE and CO-PIPE search policy space directly. They use adaptive probability distributions to synthesize programs that calculate action probabilities from current inputs. Our results show that linear TD-Q encounters several difficulties in learning appropriate shared EFs. PIPE and CO-PIPE, however, do not depend on EFs and find good policies faster and more reliably. This suggests that in some multiagent learning scenarios direct search in policy space can offer advantages over EF-based approaches.  相似文献   

14.
15.
基于CSCW的协作学习系统的研究与实现   总被引:3,自引:0,他引:3  
计算机辅助协同工作(CSCW) 的出现,反映了人们对计算机功能需求的改变,即希望计算机系统从传统的解决计算问题发展为辅助用户间的交互活动。首次将CSCW 的概念引入协作学习系统的设计之中,提出一种基于CSCW 的协作学习系统的结构模型,同时就CSCW 的若干核心技术———多用户接口、协作机制、并发控制等结合系统的设计与实现进行了研究与探讨。最后给出了一个具体的实现原型:NJU CLS。  相似文献   

16.
文章讨论了构建基于语义网的资源型终身学习服务系统的重要性,并提出了资源型终身学习服务系统的系统模型、资源整合模型、资源服务模型、及语义搜索过程模型。资源型终身学习服务系统的构建是一个庞大的系统工程,其中涉及到内容资源的整合与建设、领域本体的构建、教育资源元数据通用规范的建设、学习服务系统的设计与开发等多项重要工作。该文基于中国人民大学网络教育学院承担的2010年国家社科基金研究项目(编号10BTQ009)的初期理论探索成果,今后将在本体构建、资源建设、用户模型建设、系统开发改造等方面开展一系列的实际工作。  相似文献   

17.
韩伟  韩忠愿 《计算机工程》2007,33(22):42-44,4
Q学习算法要求智能体无限遍历每个状态-动作转换,因此在涉及状态-动作空间非常大的应用问题时,导致收敛速度非常慢。借助多智能体的合作学习,智能体之间基于黑板模型的方法通过开关函数相互协调合作,可以更快地定位那些有效的状态-动作转换,避免了无效的更新,从而以较小的学习代价加快了Q表的收敛速度。  相似文献   

18.
Multiagent deep reinforcement learning (MA-DRL) has received increasingly wide attention. Most of the existing MA-DRL algorithms, however, are still inefficient when faced with the non-stationarity due to agents changing behavior consistently in stochastic environments. This paper extends the weighted double estimator to multiagent domains and proposes an MA-DRL framework, named Weighted Double Deep Q-Network (WDDQN). By leveraging the weighted double estimator and the deep neural network, WDDQN can not only reduce the bias effectively but also handle scenarios with raw visual inputs. To achieve efficient cooperation in multiagent domains, we introduce a lenient reward network and scheduled replay strategy. Empirical results show that WDDQN outperforms an existing DRL algorithm (double DQN) and an MA-DRL algorithm (lenient Q-learning) regarding the averaged reward and the convergence speed and is more likely to converge to the Pareto-optimal Nash equilibrium in stochastic cooperative environments.  相似文献   

19.
一种基于类支持度的增量贝叶斯学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
丁厉华  张小刚 《计算机工程》2008,34(22):218-219
介绍增量贝叶斯分类器的原理,提出一种基于类支持度的优化增量贝叶斯分类器学习算法。在增量学习过程的样本选择问题上,算法引入一个类支持度因子λ,根据λ的大小逐次从测试样本集中选择样本加入分类器。实验表明,在训练数据集较小的情况下,该算法比原增量贝叶斯分类算法具有更高的精度,能大幅度减少增量学习样本优选的计算时间。  相似文献   

20.
An integrated library information system is a resource planning system for a library, used to track resources owned, bills paid, orders made, and patrons who have borrowed. In our research, we focused on university library information systems (ULISs). We identified an important research question regarding their main limitation in offering intelligent help to the students in their documentation/learning. We identified the importance of the endowment of ULISs with artificial intelligence. In this article, we analyzed different aspects related to the presence of computational intelligence in ULISs and intelligence of ULISs. Finally, we proposed a complex next generation ULIS based on a hybrid cooperative learning, being able to offer an intelligent help for personalized learning of students. We defined some novel paradigms in the context of a novel kind of cooperative hybrid personalized learning, such as learning role and sub-role; and learning intelligence level.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号