首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
基于增强学习的多agent自动协商研究   总被引:2,自引:1,他引:2  
该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了详细描述;对传统Q学习进行了扩充,设计了基于agent的当前信念和最近探索盈余的动态Q学习算法。  相似文献   

2.
秦子鹰  周南  赵冬梅 《微计算机信息》2007,23(24):137-138,88
该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型,该模型具有如下特点:用基于效用的相似度比较法实现Agent智能搜索;模型采用学习机制包括历史学习和Q-学习,历史学习机制用于Agent协商前初始信念的创建,对Agent在协商中策略的选择、执行具有指导作用。Q-学习机制用于生成协商提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题协商。  相似文献   

3.
一种具有自主学习能力的并发协商模型   总被引:3,自引:0,他引:3  
张谦  邱玉辉 《计算机应用》2006,26(3):663-0665
提出一种具有自主学习能力的并发协商模型,通过使用增强学习方法的Q学习算法生成协商提议,使用相似度方法评价提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题多Agent并发协商。  相似文献   

4.
协商Agent的历史学习算法研究   总被引:5,自引:2,他引:3  
文章以买方Agent的观点对交易平台上获得的对方Agent历史协商信息进行分析,并根据其特点做初步过滤。在此基础上,该文针对现有协商模型中存在的问题,提出了一个Agent协商历史学习算法,并实验说明了其可行性。该算法可用于Agent协商前初始信念的创建,对Agent在协商中策略的选择、执行具有指导作用。  相似文献   

5.
AODE是我们研制的一个面向agent的智能系统开发环境,本文以AODE为平台研究了多agent环境下的协商与学习本文利用协商-协商过程-协商线程的概念建立了多边-多问题协商模型MMN,该协商模型支持多agent环境中的多种协商形式及agent在协商过程中的学习,系统中的学习agent采用状态概率聚类空间上的多agent强化学习算法.该算法通过使用状态聚类方法减少Q值表存储所需空间,降低了经典Q-学习算法由于使用Q值表导致的对系统计算资源的要求,且该算法仍然可以保证收敛到最优解.  相似文献   

6.
为了帮助协商Agent选择最优行动实现其最终目标,提出基于贝叶斯分类的增强学习协商策略。在协商过程中,协商Agent根据对手历史信息,利用贝叶斯分类确定对手类型,并及时动态地调整协商Agent对对手的信念。协商Agen、通过不断修正对对手的信念,来加快协商解的收敛并获得更优的协商解。最后通过实验验证了策略的有效性和可用性。  相似文献   

7.
基于学习的多Agent多议题协商优化研究   总被引:1,自引:0,他引:1  
以买方Agent的观点,对从交易平台上获得的卖方Agent的历史协商信息进行分析,并根据其特点做初步过滤。在此基础上,针对现有协商模型中存在的问题,提出了一个Agent协商对手选择算法和相应的交互机制,并验证了其可行性。该算法可用于Agent协商开始前协商对手的选择和初始信念的更新,对Agent在协商中策略的选择和执行具有指导作用,能有效提高Agent在协商中的效用及效率。  相似文献   

8.
基于交互历史的多Agent自动协商研究   总被引:4,自引:0,他引:4  
在多Agent协商过程中,初始信念起到了至关重要的作用.而初始信念的形成是由设计者给予的部分专家知识和策略集,成功的交互历史是Agent在复杂环境中最后达成一致的提议集.通过学习机制从交互历史中获得知识,形成协商的初始信念,将更加有效地预测对方的策略,缩短协商过程的时间,再通过在线学习来协调己方Agent的行为.在此基础上优化协商模型,提高协商的效率和成功率.  相似文献   

9.
为了能够快速、高效地进行Agent协商,构建一个优化的多Agent协商模型。在这个模型的基础上,提出了一个基于协商各方公平性的协商学习算法。算法采用基于满意度的思想评估协商对手的提议,根据对方Agent协商历史及本次协商交互信息,通过在线学习机制预测对方Agent协商策略,动态得出协商妥协度并向对方提出还价提议。最后,通过买卖协商仿真实验验证了该算法的收敛性,表明基于该算法的模型工作的高效性、公平性。  相似文献   

10.
研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解.  相似文献   

11.
Reinforcement learning (RL) has been applied to many fields and applications, but there are still some dilemmas between exploration and exploitation strategy for action selection policy. The well-known areas of reinforcement learning are the Q-learning and the Sarsa algorithms, but they possess different characteristics. Generally speaking, the Sarsa algorithm has faster convergence characteristics, while the Q-learning algorithm has a better final performance. However, Sarsa algorithm is easily stuck in the local minimum and Q-learning needs longer time to learn. Most literatures investigated the action selection policy. Instead of studying an action selection strategy, this paper focuses on how to combine Q-learning with the Sarsa algorithm, and presents a new method, called backward Q-learning, which can be implemented in the Sarsa algorithm and Q-learning. The backward Q-learning algorithm directly tunes the Q-values, and then the Q-values will indirectly affect the action selection policy. Therefore, the proposed RL algorithms can enhance learning speed and improve final performance. Finally, three experimental results including cliff walk, mountain car, and cart–pole balancing control system are utilized to verify the feasibility and effectiveness of the proposed scheme. All the simulations illustrate that the backward Q-learning based RL algorithm outperforms the well-known Q-learning and the Sarsa algorithm.  相似文献   

12.
样本有限关联值递归Q学习算法及其收敛性证明   总被引:5,自引:0,他引:5  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题,求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种最求最优费用方法,利用求解最优费用函数的方法给出了一种新的Q学习算法,Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响,因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这种算法有比较好的收敛性质,从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

13.
移动机器人在复杂环境中移动难以得到较优的路径,基于马尔可夫过程的Q学习(Q-learning)算法能通过试错学习取得较优的路径,但这种方法收敛速度慢,迭代次数多,且试错方式无法应用于真实的环境中。在Q-learning算法中加入引力势场作为初始环境先验信息,在其基础上对环境进行陷阱区域逐层搜索,剔除凹形陷阱区域[Q]值迭代,加快了路径规划的收敛速度。同时取消对障碍物的试错学习,使算法在初始状态就能有效避开障碍物,适用于真实环境中直接学习。利用python及pygame模块建立复杂地图,验证加入初始引力势场和陷阱搜索的改进Q-learning算法路径规划效果。仿真实验表明,改进算法能在较少的迭代次数后,快速有效地到达目标位置,且路径较优。  相似文献   

14.
阳杰  张凯 《微处理机》2021,(1):47-51
未知连续环境状态下的Q学习路径规划算法在执行对环境的试错时收敛速度慢,容易陷入局部,不利于对真实未知环境的探索,为解决此问题,针对Q学习路径规划问题提出一种基于Metropolis准则的区域扩张策略的势场强化学习算法。算法为环境提供势场先验知识初始化状态信息,消除初始时刻的盲目性,提高学习效率,同时引入基于Metropolis准则的区域扩张陷阱区域剔除探索,剔除陷阱障碍物环境的凹形区域。通过MATLAB对多种环境的仿真实验,验证了算法有效性。  相似文献   

15.
Q-learning算法及其在囚徒困境问题中的实现   总被引:5,自引:0,他引:5  
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。  相似文献   

16.
多Agent系统中双边多指标自动协商的ACEA算法   总被引:2,自引:0,他引:2  
自动协商是多Agent系统中的一个中心议题,它是在Agent间建立一种合作合约,多数情况下这种合约包含多个协商指标,而多指标的协商比单一指标的协商要复杂得多·因此,如何快速、高效地进行Agent间的多指标自动协商是多Agent系统中必须解决的一个问题·给出了一个Agent间多指标协商的模型(MN),并在此基础上提出了双边—多指标协商的一种加速混沌进化算法(ACEA)·ACEA算法首先将混沌机制引入进化计算,然后采用压缩技术对算法进行加速,这样既克服了进化计算过早收敛到局部Nash平衡点的缺点,又解决了多指标协商繁杂的计算和引入混沌后带来的收敛速度慢的问题·理论分析和仿真实验表明,ACEA算法以概率1收敛到全局最优解·  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号