首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 515 毫秒
1.
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。  相似文献   

2.
计算机博弈是人工智能的果蝇和通用测试基准.近年来,序贯不完美信息博弈求解一直是计算机博弈研究领域的前沿课题.围绕计算机博弈中不完美信息博弈求解问题展开综述分析.首先,梳理计算机博弈领域标志性突破的里程碑事件,简要介绍4类新评估基准,归纳3种研究范式,提出序贯不完美信息博弈求解研究框架;然后,着重对序贯不完美信息博弈的博弈模型和解概念进行调研,从博弈构建、子博弈和元博弈、解概念以及评估3方面进行简要介绍;接着,围绕离线策略求解,系统梳理算法博弈论、优化理论和博弈学习3大类方法,围绕在线策略求解,系统梳理对手近似式学习、对手判别式适变和对手生成式搜索3大类方法;最后,从环境、智能体(对手)和策略求解3个角度分析面临的挑战,从博弈动力学和策略空间理论、多模态对抗博弈和序贯建模、通用策略学习和离线预训练、对手建模(剥削)和反剥削、临机组队和零样本协调5方面展望未来研究前沿课题.对于当前不完美信息博弈求解问题进行全面概述,期望能够为人工智能和博弈论领域相关研究带来启发.  相似文献   

3.
博弈智能是一个涵盖博弈论、人工智能等方向的交叉领域,重点研究个体或组织间的交互作用,以及如何通过对博弈关系的定量建模进而实现最优策略的精确求解,最终形成智能化决策和决策知识库.近年来,随着行为数据的海量爆发和博弈形式的多样化,博弈智能吸引了越来越多学者的研究兴趣,并在现实生活中得到广泛应用.本文围绕博弈智能这一研究领域,分别从3个方面进行了系统的调研、分析和总结.首先,回顾了博弈智能的相关背景,涵盖了单智能体马尔可夫(Markov)决策过程,基于博弈论的多智能体建模技术,以及强化学习、博弈学习等多智能体求解方案.其次,依照智能体之间的博弈关系不同,将博弈分为合作博弈、对抗博弈以及混合博弈这三大类范式,并分别介绍了每种博弈智能范式下的主要研究问题、主流研究方法以及当前典型应用.最后,总结了博弈智能的研究现状,以及亟待解决的主要问题与研究挑战,并展望了学术界和工业界的未来应用前景,为相关研究人员提供参考,进一步推动国家人工智能发展战略.  相似文献   

4.
智能体是人工智能领域的一个核心术语。近年来,智能体技术在自动无人驾驶、机器人系统、 电子商务、传感网络、智能游戏等方面得到了广泛研究与应用。随着系统复杂性的增加,关于智能体的研究重 心由对单个智能体的研究转变为智能体间交互的研究。多个智能体交互场景中,智能体对其他智能体决策行为 的推理能力是非常重要的一个方面,通常可以通过构建参与交互的其他智能体的模型,即对手建模来实现。对 手建模有助于对其他智能体的动作、目标、信念等进行推理、分析和预测,进而实现决策优化。为此,重点关 注智能体对手建模研究,展开介绍关于智能体动作预测、偏好预测、信念预测、类型预测等方面的对手建模 技术,对其中的优缺点进行讨论和分析,并对手建模技术当前面临的一些开放问题进行总结,探讨未来可能 的研究和发展方向。  相似文献   

5.
多智能体系统是规划识别的一个有效应用平台,提出一种基于规划识别多智能体协作算法,对对抗环境和非对抗环境中的基于规划识别的多智能体协作算法进行了分析,实现了对队友和对手行为目的的认识和建模,减少了协作主体间需要通信的时间厦难度。该协作算法应用到多智能体的有效测试平台机器人足球赛中,试验结果证明,该算法在通信受限、信息受限或信息延时的系统中可有效预测队友和对手的行为,从而实现智能体间的协作。  相似文献   

6.
军事行动、反恐突击等强对抗场景中,实时信息的碎片化、不确定性对制定具有博弈优势的弹性行动方案提出了更高的要求,研究具有自学习能力的智能行动策略规划方法已成为编队级强对抗任务的核心问题.针对复杂场景下行动策略规划状态表征困难、数据效率低下等问题,提出了基于预测编码的样本自适应行动策略规划方法.利用自编码模型压缩表示任务的...  相似文献   

7.
计算机博弈是人工智能领域的“果蝇”,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。扑克类博弈对抗问题可建模成边界确定、规则固定的不完美信息动态博弈,计算机扑克 AI 需要具备不完全信息动态决策、对手误导欺诈行为识别以及多回合筹码和风险管理等能力。首先梳理了以德州扑克为代表的计算机扑克智能博弈的发展历程,其次针对计算机扑克智能博弈典型模型算法、关键技术以及存在的主要问题进行了综述分析,最后探讨了计算机扑克智能博弈的未来发展趋势和应用前景。  相似文献   

8.
多agent环境下agent的最优策略取决于其它agent的策略,这使得学习目标不易被清晰定义.基于客观观察行为建模的方法并不能很好体现智能体的个体理性.本文提出基于内省推理方法的多智能体环境下智能体高效在线学习方法,将基于对手模型的客观观察行为与基于换位思考推理的主观意图推测结合起来,智能体通过内省推理能够更多地得到对手的信息.针对经典协调博弈进行仿真实验,结果表明能取得较好的协调性能.  相似文献   

9.
对抗性多机器人系统对手建模的研究   总被引:1,自引:0,他引:1  
近年来发展起来的智能系统,已经发展到了智能对抗的水平。在对抗的环境中,由于存在竞争的一方,实时跟踪对手的行为状态、分析对手的思维和意图是对抗活动的基本前提,建立对手模型很有必要。在Agent的BDI模型的基础上结合普遍的认知规律,提出一种对抗性多机器人系统中的对手建模模型。提到的方法在足球机器人系统中得到了应用,经过实战的检验,该策略很好地满足了系统的智能要求。  相似文献   

10.
智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题。以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入发掘。文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关键挑战。从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法。多角度对比分析博弈理论和强化学习的优势与局限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力。  相似文献   

11.
王纯子  黄光球 《计算机工程》2010,36(20):125-127
为反映网络攻防对峙形势并解决策略相依问题,提出不完全信息的动态攻防博弈模型。通过扩展对象Petri网的定义,使变迁及其输出弧上携带攻防策略及其效用信息,定义网络攻防对峙模型。在定义攻防行动顺序的基础上,提出利用攻防对峙模型构建博弈扩展形的方法,据此可得到攻防博弈均衡策略。  相似文献   

12.
A negotiation between agents is typically an incomplete information game, where the agents initially do not know their opponent’s preferences or strategy. This poses a challenge, as efficient and effective negotiation requires the bidding agent to take the other’s wishes and future behavior into account when deciding on a proposal. Therefore, in order to reach better and earlier agreements, an agent can apply learning techniques to construct a model of the opponent. There is a mature body of research in negotiation that focuses on modeling the opponent, but there exists no recent survey of commonly used opponent modeling techniques. This work aims to advance and integrate knowledge of the field by providing a comprehensive survey of currently existing opponent models in a bilateral negotiation setting. We discuss all possible ways opponent modeling has been used to benefit agents so far, and we introduce a taxonomy of currently existing opponent models based on their underlying learning techniques. We also present techniques to measure the success of opponent models and provide guidelines for deciding on the appropriate performance measures for every opponent model type in our taxonomy.  相似文献   

13.
Li X.  Wang Z.  Liu B.  Wu L. 《智能系统学报》2012,(收录汇总):1143-1155
Mahjong and its different variants have complex rules. Therefore, building a high-level Mahjong game artificial intelligence (AI) algorithm and its test environment is challenging. Through the analysis of relevant research literature on Mahjong game, this paper identified two types of Mahjong AI construction methods based on knowledge and data. Moreover, the advantages and disadvantages of each typical method are analyzed, emphasizing the construction method of Suphx. The problems and challenges encountered in constructing Mahjong AI are identified, suggesting the need to apply experience replay, hierarchical reinforcement learning, curiosity model, opponent model, metalearning, transfer learning, and curriculum learning to the AI algorithm optimization of Mahjong game and construct diversified Mahjong AI evaluation indicators, general confrontation platforms, and high-quality data sets. These problems are all promising research directions for the future. © 2023, Editorial Department of CAAI Transactions on Intelligent Systems. All rights reserved.  相似文献   

14.
针对多无人机对抗问题, 本文提出了一种三维空间中仿鹰鸽捕食逃逸行为的多无人机分组对抗博弈方法.在分析鹰鸽捕食逃逸行为的基础上, 文章构建了多无人机博弈对抗系统模型, 并定义了微分博弈中的连续可微值函数, 证明了值函数满足Hamilton-Jacobi-Isaacs(HJI)方程, 从而保证鞍点策略存在. 使用最优分配方法, 为仿鹰无人机一方设计了分组对抗分配策略, 以解决多无人机追逃场景中的任务分配问题. 本文对比仿真实验结果验证了所提出方法的有效性.  相似文献   

15.
博弈论研究冲突对抗条件下最优决策问题,是网络空间安全的基础理论之一,能够为解决网络防御决策问题提供理论依据.提炼网络攻防所具备的目标对立、策略依存、关系非合作、信息不完备、动态演化和利益驱动6个方面博弈特征.在理性局中人假设和资源有限性假设的基础上,采用攻防局中人、攻防策略集、攻防动作集、攻防信息集和攻防收益形式化定义...  相似文献   

16.
针对非对称博弈下的水下无人对抗问题,开展对基于基地防卫的多无人水下潜航器(unmanned underwater vehicles, UUVs)协同对抗策略研究。在双方能力和数量有差异的非对称博弈情况下,设计UUV基本行为,分别基于红、蓝方能力设计对抗策略选择方法;本文提出红方多UUV分层决策算法,并设计红方多UUV角色分配方法;在防卫任务中基于目标偏航角设计两种红方多UUV联合防卫方法;并相应给出设计蓝方UUV策略及决策方法。最后设计水下对抗仿真实验,从对抗过程的事件决策、UUV机动控制等方面验证了本文设计的对抗方法对水下非对称条件下的多UUV对抗问题具有有效性。  相似文献   

17.
 Traditional game theory is based on the assumption that the opponent is a perfect reasoner and all payoff information is available. Based on this assumption, game theory recommends to estimate the quality of each possible strategy by its worst possible consequences. In real-life, opponents are often not perfect and payoff information is often not exact. If the only disadvantage of some action is that an unusually clever opponent can find a complicated way to counter it, then this action may be a perfect recommendation for a play against a normal (not unusually clever) opponent. In other words, to estimate the quality of each move, instead of a normal minimum of possible consequences, we must consider the robust minimum that takes into consideration the fact that some of the consequences will never occur to the normal opponent. We show that in a reasonable statistical setting, this idea leads to the class of OWA operators. It turns out that playing against an imperfect opponent is not only a more realistic strategy, it is also often a simpler one: e.g., for the simplest game for which playing against a perfect opponent is computationally intractable (NP-hard), playing against an imperfect opponent is computationally feasible.  相似文献   

18.
叶新  潘清  董正宏 《软件》2014,(3):233-236
多领域建模仿真是解决复杂产品设计过程的有效手段,当前多领域建模仿真有基于接口的多领域建模仿真,基于高层体系结构的多领域建模仿真和基于统一建模语言的多领域建模仿真三种模式。综述了这三种仿真模式的实施方法、应用以及优缺点。通过比较,认为基于统一建模语言的多领域建模仿真模式有更大的发展潜力。  相似文献   

19.
In this paper, we report on the realization of an immersive table tennis simulation. After describing the hardware necessities of our system, we give insight into different aspects of the simulation. In particular, the developed methods for collision detection and physical simulation are presented. The design of the virtual opponent is of crucial importance to realize an enjoyable game. Therefore, we report on the implemented game strategy and the animation of the opponent. Since table tennis is one of the fastest sports, the synchronization of the human player's movements and the visual output on the projection wall is a very challenging problem to solve. To overcome the latencies in our system, we designed a prediction method that allows high speed interaction with our application  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号