首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
提出并构造了一种新的人工生命意义下的创发性(2+2+n)模型,同前人的工作相比,该模型的突出特点在于:将2维形状纳入创发性分析过程并使模型拓展至多维结构形式,描述了2维表现型平面至2维基因型平面映射的复杂非线性过程,建立了多维创发性计算机制。  相似文献   

2.
基于人工生命的类生态进化模型   总被引:3,自引:0,他引:3  
简要介绍了复杂系统的背景、定义及人工生命仿真思想,指出人工生命仿真是解决复杂系统的有效途径。自然界生态系统是典型的复杂自适应系统(CAS),传统的统计学方法无法有效解析生态系统。由此提出了一个基于人工生命思想的类生态仿真模型A—ECOLOGY,在一个虚拟环境中创造两种虚拟生物Grazer和Predator,构成捕食者和被捕食者竞争关系,着重考察Grazer生物在自然选择压力下适应和进化的过程。这种通过人工生命仿真方法对系统复杂性模拟的思想,对于研究群体自适应和进化具有一定的参照意义。  相似文献   

3.
将人工神经网络方法引入到“人工鱼”系统中,控制人工动物的行为,使人工动物成为更加自主的和智能的角色。同时,利用遗传算法,解决人工鱼的先天遗传进化和后天的学习进化的结合问题。  相似文献   

4.
5.
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.  相似文献   

6.
基于行为的人工生命情绪理论模型研究   总被引:1,自引:0,他引:1  
基于智能的行为选择机制不能满足实现人工生命自主性行为选择的要求.根据情绪是行为活动的组织者的一般心理学理论,情绪就成为解决该问题的一个有效途径.但是,心理学情绪研究结果,尚不能满足实际研究的需要.通过理论分析和实验仿真方法对情绪物理属性,情绪与行为之间关系进行深入研究.通过情绪四维模型与阶跃响应的特征类比分析.获得描述情绪物理属性的阶跃模型,揭示负性情绪相对于正情绪具有反应时间短,存在"超调"特性.根据获得的情绪与行为之间因果关系,建立情绪三维模型,阐明情绪是对认知和行为结果感知的生命机制.通过引入情绪,解决液体压力模型存在的异质性和动机强度与当前环境状态无关两个问题,建立自主性情绪行为机制模型.通过设计人工生态系统进行仿真实验,证明了上述思想的正确性.  相似文献   

7.
基于神经网络的进化机器人组合行为方法研究   总被引:2,自引:0,他引:2  
为了克服传统机器人设计方法存在的局限性,提高机器人的自适应能力,采用神经网络方法实现了进化机器人避碰、趋近及其组合行为学习,首先,提出了新的机器人模拟环境和机器人模型,结合了采用神经网络实现进化学习系统的方法。其次,对具有进化学习机制的机器人基本行为和组合行为学习系统进行了仿真,并通过仿真证明了新模型不要求环境知识的完备性,机器人具有环境自适应学习能力,还具有结构简洁、易扩展等特点,最后,对仿真结果进行分析与讨论,并提出了进一步研究方向。  相似文献   

8.
基于神经网络的强化学习算法研究   总被引:11,自引:0,他引:11  
BP神经网络在非线性控制系统中被广泛运用,但作为有导师监督的学习算法,要求批量提供输入输出对神经网络训练,而在一些并不知道最优策略的系统中,这样的输入输出对事先并无法得到,另一方面,强化学习从实际系统学习经验来调整策略,并且是一个逼近最优策略的过程,学习过程并不需要导师的监督。提出了将强化学习与BP神经网络结合的学习算法-RBP模型。该模型的基本思想是通过强化学习控制策略,经过一定周期的学习后再用学到的知识训练神经网络,以使网络逐步收敛到最优状态。最后通过实验验证了该方法的有效性及收敛性。  相似文献   

9.
基于情绪的人工生命合作型行为选择机制   总被引:2,自引:0,他引:2  
通过引入情绪到基于内在释放原理的Lorenz 液体压力行为机制,建立了基于情绪的行为选择机制.新 机制解决了原机制的缺陷:异质相加和动机强度与其当前生存环境无关.根据经济学中主观价值与情绪心理学中情 绪都具有评价功能的特性,并借鉴前景理论,建立了行为特征函数,以获得情绪的函数变化规律;利用情绪强度趋 高和中等情绪使得行为实现效率更高原理,行为被分为3 类:情绪行为、理性行为、应付行为.在这些研究结果的 基础上,建立了合作型情绪行为选择机制.在人工生命Swarm 平台上所进行的模拟实验验证了该机制的正确性.  相似文献   

10.
汤琛  谭蓉  蒋加伏 《计算机应用》2006,26(10):2444-2445
通过对神经网络的研究,采用双种群遗传算法(DPGA)来进化神经网络的权值,提出了一种智能保洁机器人模型。该模型模拟生物的行为规律,能够依据周围环境采取限定区域搜索或者广域搜索方式清扫垃圾。仿真实验表明了该模型的有效性,通过比较也体现了双种群遗传算法较之传统单种群遗传算法(SPGA)的优越性。  相似文献   

11.
作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。  相似文献   

12.
In this paper, we add learning behavior to artificial evolution simulation and evaluate the effect of learning behavior. Each individual establishes its own neural network with its genetic information. Also, we propose a reward function to take reinforcement learning in a complicated and dynamically-determined environment. When the individual-level learning behavior was introduced, evolution of each simulation model got faster and the effectiveness of evolution was significantly improved. But the direction of evolution did not depend on learning and it was possible to affect the forms of evolution through reinforcement learning. This provides the mechanism that can apply the artificial life technique to various fields.  相似文献   

13.
深度强化学习中稀疏奖励问题研究综述   总被引:1,自引:0,他引:1  
强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。  相似文献   

14.
"人工鱼"自学习方法研究   总被引:1,自引:0,他引:1  
“人工鱼”利用人工生命方法创作计算机动画。为了进一步提高动画角色的自适应能力,该文将人工神经网络方法和基于时间差分方法TD的强化学习相结合,建立了“人工鱼”的自学习模型,控制人工鱼的行为。该实验表明该“人工鱼”自学习系统可以使“人工鱼”成为更加自主和智能的角色。  相似文献   

15.
强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free...  相似文献   

16.
针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费.结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务.在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能.  相似文献   

17.
该文评述了C.Langton的“人工生命”学科定义、“人工生命”综合方法论和“人工生命”突现演化观。同时还评论了涂序彦的“广义人工生命”观、“广义人工生命”的应用前景及“广义人工生命”的综合与分析相结合方法论。  相似文献   

18.
基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、...  相似文献   

19.
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号