共查询到20条相似文献,搜索用时 734 毫秒
1.
计算机博弈:人工智能的前沿领域——全国大学生计算机博弈大赛 总被引:1,自引:1,他引:0
<正>1计算机博弈的由来与发展计算机博弈,亦称机器博弈,是ComputerGames的"狭义"翻译[1],即指通过计算机给出着法,与人类选手或另一个计算机进行各种棋类的对弈,例如比赛象棋、西洋跳棋、黑白棋等。近年来,大家又开始研究让计算机进行牌类对 相似文献
2.
作为一个资深网民,我的炒股历史己经有五年了。2000年是只“赚指数不赚钱”,道理很简单——庄家的策略改变了。以往庄家的吸货、洗盘、拉高、出货的手法经传媒广为报道,广大股民早已熟知。于是,今年很多庄家改变策略,短线出击。往往不是赚取几十元利润后撤出,而是三、五元利润到手就溜,很多跟风股民尚未清醒就已经被牢牢套住。有时我不由得感叹,无论从时间、精力上考虑,要成为短线高手都是得不偿失。古语说得好,“工欲事其事,必先利其器。”我得先买一个有用的炒股工具,于是一台可以无线互联的掌上电脑便成了我生活中的必需品,这就是摩托罗拉宝典828 。 相似文献
3.
4.
5.
博弈树搜索对于计算机博弈至关重要。优秀的搜索算法通过搜索较少的节点就可以获得最佳路径,从而提高计算机的博弈水平。论文以中国象棋计算机博弈作为背景,在alpha-beta基本搜索算法上,详细阐述了置换表启发算法的原理和哈希冲突,引进了双层置换表的概念及其替换策略,增强了引擎的搜索效率。实验结果表明了该算法的有效性。 相似文献
6.
为寻求益智类游戏"沙漠掘金"在多人参与下的游戏策略,针对具体的游戏规则进行了深入的分析,分别提出了基于完全信息静态博弈与完全信息动态博弈的游戏策略.首先,通过简化游戏规则将其转变为一个非合作博弈问题.其次,考虑单人游戏中的最优化问题,分析单人游戏的策略并在此基础上采用博弈论的方法对多人游戏的情况进行求解.最后,针对第一关,满足完全信息静态博弈的情况,模拟玩家行动,得出博弈支付矩阵,通过混合策略纳什均衡的方法计算最优策略;针对第二关,满足完全信息动态博弈的情况,构建博弈树并通过逆向递归求解得出最佳的游戏攻略,并分析了多人竞争策略. 相似文献
7.
为寻求益智类游戏"沙漠掘金"在多人参与下的游戏策略,针对具体的游戏规则进行了深入的分析,分别提出了基于完全信息静态博弈与完全信息动态博弈的游戏策略.首先,通过简化游戏规则将其转变为一个非合作博弈问题.其次,考虑单人游戏中的最优化问题,分析单人游戏的策略并在此基础上采用博弈论的方法对多人游戏的情况进行求解.最后,针对第一关,满足完全信息静态博弈的情况,模拟玩家行动,得出博弈支付矩阵,通过混合策略纳什均衡的方法计算最优策略;针对第二关,满足完全信息动态博弈的情况,构建博弈树并通过逆向递归求解得出最佳的游戏攻略,并分析了多人竞争策略. 相似文献
8.
蒙特卡洛树搜索(MCTS)是一种针对决策类博弈游戏,运用蒙特卡洛模拟方法进行评估博弈策略的启发式搜索算法。但是,在面对计算机围棋这种复杂的决策过程时,简单的蒙特卡洛树搜索过程往往由于计算量大,收敛速度非常慢。 由于双人博弈游戏中的蒙特卡洛树搜索不能收敛于双人博弈的最佳决策策略,因此提出蒙特卡洛树搜索结合极大极小值算法的改进算法,使得搜索结果不会因为蒙特卡洛方法的随机性而失真。为了进一步提高复杂双人博弈游戏中搜索算法的计算效率,还结合了几种常见的剪枝策略。实验结果说明,所提算法显著改进了蒙特卡洛树搜索的准确性和效率。 相似文献
9.
10.
计算机博弈是人工智能的果蝇和通用测试基准.近年来,序贯不完美信息博弈求解一直是计算机博弈研究领域的前沿课题.围绕计算机博弈中不完美信息博弈求解问题展开综述分析.首先,梳理计算机博弈领域标志性突破的里程碑事件,简要介绍4类新评估基准,归纳3种研究范式,提出序贯不完美信息博弈求解研究框架;然后,着重对序贯不完美信息博弈的博弈模型和解概念进行调研,从博弈构建、子博弈和元博弈、解概念以及评估3方面进行简要介绍;接着,围绕离线策略求解,系统梳理算法博弈论、优化理论和博弈学习3大类方法,围绕在线策略求解,系统梳理对手近似式学习、对手判别式适变和对手生成式搜索3大类方法;最后,从环境、智能体(对手)和策略求解3个角度分析面临的挑战,从博弈动力学和策略空间理论、多模态对抗博弈和序贯建模、通用策略学习和离线预训练、对手建模(剥削)和反剥削、临机组队和零样本协调5方面展望未来研究前沿课题.对于当前不完美信息博弈求解问题进行全面概述,期望能够为人工智能和博弈论领域相关研究带来启发. 相似文献
11.
即时战略游戏(简称RTS游戏)中,用户的行为由于游戏自身庞大的决策空间而难以预测.针对这个问题,提出了通过对RTS游戏的对战记录进行分析,建立5种结构的神经网络模型来预测用户行为的方法.模型考虑了不同时间片的状态对于决策行为的影响,设计了单时间片输入和双时间片输入的神经网络,并与基于动态贝叶斯网络的模型进行了比较.实验结果表明,基于单时间片输入的神经网络模型能够更加快速地完成训练过程并达到满意的预测准确度. 相似文献
12.
Patrick Beullens Nerda Z. Zaibidi Dylan F. Jones 《International Transactions in Operational Research》2012,19(4):599-612
Goal Programming (GP) is applied to modelling the decision making processes in the well‐known Ultimatum Game and some of its variations. The decision model for a player is a Chebychev GP model that balances her individual desires with the mental model she has of the desires of other relevant players. Fairness is modelled as a universal mechanism, allowing players to differ in their belief of what a fair solution should be in any particular game. The model's conceptual framework draws upon elements considered of importance in the field of cognitive neuroscience, and results from the field of psychology are used to further specify the types of goals in the model. Computer simulations of the GP models, testing a number of Ultimatum, Dictator and Double‐Blind Dictator Games, lead to distributions of proposals made and accepted that correspond reasonably well with experimental findings. 相似文献
13.
14.
15.
In this paper, the Cournot competition is modeled as a stochastic dynamic game. In the proposed model, a stochastic market price function and stochastic dynamic decision functions of the rivals are considered. Since the optimal decision of a player needs the estimation of the unknown parameters of the market and rivals’ decisions, a combined estimation-optimization algorithm for decision making is proposed. The history of the rivals’ output quantities (supplies) and the market clearing price (MCP) are the only available information to the players. The convergence of the algorithm (for both estimation and decision making processes) is discussed. In addition, the stability conditions of the equilibrium points are analyzed using the converse Lyapunov theorem. Through the case studies, which are performed based on the California Independent System Operator (CA-ISO) historical public data, the theoretical results and the applicability of the proposed method are verified. Moreover, a comparative study among the agents using the proposed method, naïve expectation and adaptive expectation in the market is performed to show the effectiveness and applicability of the proposed method. 相似文献
16.
一种基于Q学习的有限理性博弈模型及其应用 总被引:1,自引:0,他引:1
传统博弈理论模型建立在人的完全理性基础之上,难以切合实际。有限理性博弈则能够很好地描述实际问题。有限理性的博弈者参与到不完全信息博弈中,对博弈的规则、结构以及对手等博弈信息有一个逐渐适应和了解的过程,因此博弈应是动态进化的模型。针对这一问题,提出了一种基于Q学习算法的不完全信息博弈模型,根据Littman的最大最小原则建立了多指标体系下的策略选择概率分布;构建了Q学习与博弈融合的数学模型,使用Q学习机制来实现博弈模型的动态进化;最后将模型应用于两人追逐的仿真实验,结果表明所提出的模型能够很好地再现追逐情景。 相似文献
17.
针对带有时间约束的、可以动态加入到环境中的复杂任务,建立了一种基于对策论的任务分配模型,并给出了一种任务分配方法。该方法中计算机生成角色(CGA)根据自身掌握的局部信息进行行为选择,并使用虚拟行动方法确保CGA快速学习到一个严格纯策略Nash平衡。仿真实验结果表明该方法是合理的,能够有效地解决动态任务的分配问题。 相似文献
18.
Games constitute a challenging domain of reinforcement learning (RL) for acquiring strategies because many of them include multiple players and many unobservable variables in a large state space. The difficulty of solving such realistic multiagent problems with partial observability arises mainly from the fact that the computational cost for the estimation and prediction in the whole state space, including unobservable variables, is too heavy. To overcome this intractability and enable an agent to learn in an unknown environment, an effective approximation method is required with explicit learning of the environmental model. We present a model-based RL scheme for large-scale multiagent problems with partial observability and apply it to a card game, hearts. This game is a well-defined example of an imperfect information game and can be approximately formulated as a partially observable Markov decision process (POMDP) for a single learning agent. To reduce the computational cost, we use a sampling technique in which the heavy integration required for the estimation and prediction can be approximated by a plausible number of samples. Computer simulation results show that our method is effective in solving such a difficult, partially observable multiagent problem. 相似文献
19.
20.
借鉴自然界生物演变进化过程中复制动态的思想,基于演化博弈对蜜罐技术的有效性机理进行研究,分析网络中攻防双方如何根据自身行动策略及支付函数进行演变,从而使博弈收益最大化。演化博弈从一种全新角度诠释了博弈均衡概念,不再是完全理性也非完全信息,为纳什均衡和均衡战略的选择演绎出新方法。演化博弈过程中,防御方是包括普通服务和蜜罐的混合系统,其对手是访问混合系统的恶意攻击者,双方构成了博弈参与者。混合网络系统可看作一个生态系统,而来访者则只有攻击者一个种群;混合系统持续为来访者提供服务,攻击者可选择访问或不访问。论文基于复制动态方程推理计算满足演化稳定策略的均衡点,并利用Matlab平台仿真验证博弈双方的策略演变趋势,从而在理论上证明了蜜罐技术的有效性机理。 相似文献