期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

模糊操作条件概率自动机仿生自主学习系统和机器人自平衡控制 总被引：1，自引：1，他引：0

阮晓钢蔡建羡《控制理论与应用》2010,27(7):960-964

为了实现两轮机器人的自平衡控制, 利用Skinner操作条件反射机理, 以概率自动机为平台, 融入模糊推理, 构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统. 该学习系统是一个从状态集合到操作行为集合的随机映射, 采用操作条件反射学习机制, 从操作行为集合中随机学习作为控制系统控制信号的最优行为, 并利用学习到的操作行为取向值信息, 调整操作条件反射学习算法. 此外, 学习系统还引入行为熵, 以验证其自学习和自组织能力. 应用于两轮机器人自平衡控制的仿真结果, 验证了模糊OCPA学习系统的可行性. 相似文献

2.

OCPA仿生自主学习系统及在机器人姿态平衡控制上的应用

蔡建羡阮晓钢《模式识别与人工智能》2011,24(1):138-146

针对本质上非线性、强耦合的两轮自平衡机器人复杂动态系统,构造操作条件反射概率自动机(OCPA)仿生自主学习系统。OCPA仿生自主学习系统是一个基于Skinner操作条件反射的概率自动机,主要特征在于模拟生物的操作条件反射机制,具有仿生的自组织功能,包括自学习和自适应功能,可用于描述、模拟、设计各种自组织系统。从理论上分析OCPA学习系统的操作条件反射学习机制的收敛性。应用于两轮机器人姿态平衡控制的仿真和实验结果均表明,设计的OCPA仿生自主学习系统不需要系统的模型,通过模拟生物的操作条件反射机制,自组织地渐进形成、发展和完善其姿态平衡控制技能。相似文献

3.

动态FOCPA学习系统设计及在机器人运动平衡控制中的应用

蔡建羡阮晓钢《信息与控制》2010,39(5):662-672

针对仿生自主学习系统的自组织和泛化能力问题,基于Skinner操作条件反射原理和模糊聚类算法设计了动态FOCPA（fuzzy operant conditioning probabilistic automaton）仿生自主学习系统。动态FOCPA学习系统不仅具有仿生的自学习和自组织能力,而且提高了学习的精度和速度。其在仅能获得环境微弱反馈信息的前提下,首先采用在线聚类的方法实现对输入空间的灵活划分,以确保映射规则的数目是最经济的;然后以取向值为评价信号,采用OC学习算法,在线自主学习输入状态到输出操作行为的最佳映射,并加入一个高斯噪声项对映射结果进行实时优化。此外,动态FOCPA学习系统还利用信息熵的评价能力,来验证自身的自学习和自组织能力。理论上分析了设计的OC学习算法的收敛性;通过对两轮柔性直立式机器人姿态平衡控制和速度控制的实验分析,验证了动态FOCPA学习系统的有效性。相似文献

4.

基于FBFN 的鲁棒仿生学习系统设计及在运动平衡控制中的应用

蔡建羡阮晓钢《机器人》2010,32(6):732-740

针对两轮直立式机器人的运动平衡控制问题,结合OCPA 仿生学习系统,基于模糊基函数,设计了一种鲁棒仿生学习控制方案．它不需要动力学系统的先验知识,也不需要离线的学习阶段．鲁棒仿生学习控制器主要包括仿生学习单元、增益控制单元和鲁棒自适应单元3 部分．仿生学习单元由模糊基函数网络（FBFN）实现,FBFN 不仅执行操作行为产生功能,逼近动力学系统的非线性部分,同时也执行操作行为评价功能,并利用性能测量机制提供的误差测量信号,产生取向值信息,对操作行为产生网络进行调整．增益控制单元的作用是确保系统的稳定性和性能,鲁棒自适应单元的作用是消除FBFN 的逼近误差及外部干扰．此外,由于FBFN 的参数是基于李亚普诺夫稳定性理论在线调整的,因此进一步确保了系统的稳定性和学习的快速性．理论上证明了鲁棒仿生学习控制器的稳定性,仿真实验结果验证了其可行性和有效性．相似文献

5.

基于AOCA仿生学习模型的两轮机器人自主平衡学习研究

戴丽珍杨刚阮晓钢《自动化学报》2014,40(9):1951-1957

以两轮机器人的自主平衡学习控制为研究对象,针对传统控制方法无法实现机器人类似人或动物的渐进学习过程,依据斯金纳的操作条件反射理论建立了一种自治操作条件反射自动机（Autonomous operant conditioning automaton,AOCA）模型,设计一种基于AOCA的仿生学习算法,并进行机器人姿态平衡学习实验仿真研究. 实验结果表明,基于AOCA的仿生学习方法能有效地实现机器人的自主平衡学习控制,机器人系统的平衡能力在学习控制过程中自组织地渐进形成,并得以发展和完善. 相似文献

6.

操作条件反射学习自动机及其在机器人平衡控制中的应用

郜园园阮晓钢宋洪军《控制与决策》2013,28(6):930-934

针对两轮机器人的平衡控制问题,在学习自动机理论的框架中,提出一种基于操作条件反射学习自动机的仿生学习模型.该模型引入认知学习单元和取向单元,分别用来实现操作行为学习和指导系统进化的方向.模拟两轮自平衡机器人的平衡控制仿真实验表明,该学习模型具有可行性和有效性,能使机器人自主学会平衡控制技能,并使其具有高度的自适应能力. 相似文献

7.

Skinner 操作条件反射的一种仿生学习算法与机器人控制 总被引：1，自引：0，他引：1

任红格阮晓钢《机器人》2010,32(1):1

针对两轮自平衡机器人的运动平衡控制问题,提出了基于Skinner 操作条件反射理论的BP 神经网络与资格迹相结合的仿生自主学习算法作为两轮机器人的学习机制．该算法利用资格迹能解决延迟影响、加快学习速度和提高可靠性的特点,将其与BP 神经网络相结合构成复合学习算法,能够预测机器人将要获得的行为评价函数, 并依据概率取向机制以一定的概率选择最大评价值对应的最优行为,从而使机器人能够在未知环境下通过与环境的交互、学习和训练,获得像人或动物一样的自主学习技能,实现对两轮机器人的运动平衡控制．最后,分别用基于 Skinner 操作条件反射理论的BP 算法和BP 资格迹复合算法对两轮机器人做了仿真实验并进行了比较．结果表明, 基于Skinner 操作条件反射理论的BP 资格迹复合仿生自主学习算法的学习机制能够使机器人获得良好的动态性能和较快的学习速度,体现了机器人较强的自主学习技能和平衡控制能力．相似文献

8.

基于内在动机的智能机器人自主发育算法

任红格向迎帆李福进《计算机应用》2015,35(9):2602-2605

针对两轮自平衡机器人在学习过程中主动性差的问题,受心理学内在动机理论启发,提出一种基于内在动机的智能机器人自主发育算法。该算法在强化学习的理论框架中,引入模拟人类好奇心的内在动机理论作为内部驱动力,与外部奖赏信号一起作用于整个学习过程。采用双层内部回归神经网络存储知识的学习与积累,使机器人逐步学会自主平衡技能。最后针对测量噪声污染对机器人平衡控制中两轮角速度的影响,进一步采用卡尔曼滤波方法进行补偿,以提高算法收敛速度,降低系统误差。仿真实验表明,该算法能够使两轮机器人通过与环境的交互获得认知,成功地学会运动平衡控制技能。相似文献

9.

一种基于操作条件反射原理的学习模型

阮晓钢黄静范青武魏若岩《控制与决策》2014,29(6):1016-1020

针对认知机器人的自主学习问题,提出一种基于操作条件反射原理的学习模型(OCLM).该模型采用状态空间、操作行为空间、概率分布函数、仿生学习机制、系统熵等进行描述,给出状态的"负理想度"的概念,定义了取向函数的计算方法.运用模型对机器人避障导航问题进行仿真实验,并对参数设置进行了讨论.实验结果表明,基于OCLM模型的机器人能通过与环境的交互获得认知,成功避障到达目的地,具有一定的自学习能力,从而表明了模型的有效性. 相似文献

10.

一种自治操作条件反射自动机

阮晓钢戴丽珍于乃功于建均《控制理论与应用》2012,29(11):1452-1457

针对仿生自主学习控制问题,根据自动机的原理,以操作条件反射学习机制为基础,运用仿生的自组织学习方法,提出一种自治操作条件反射自动机(autonomous operant conditioning automata,AOCA)模型,主要包括:操作集合、状态集合、“条件-操作”规则集合、可观测的状态转移以及操作条件反射学习律;定义了基于AOCA状态取向值的操作熵;给出了AOCA操作熵收敛性证明;分析了AOCA自组织特性;规定了AOCA的递归运行程序.同时,将其应用于斯金纳动物实验的模拟,动物分阶段学习,并且成功习得技能,实验结果表明AOCA实现了模拟操作条件反射学习机制. 相似文献

11.

基于小脑-基底神经节机理的行为认知计算模型

陈静阮晓钢戴丽珍《模式识别与人工智能》2012,25(1):29-36

针对智能体的行为认知问题,提出一种小脑与基底神经节相互协调的行为认知计算模型。该模型核心为操作条件学习算法,包括评价机制、行为选择机制、取向机制及小脑与基底神经节的协调机制。初期的学习信号来自于下橄榄体和黑质两部分,在熵的意义上说明该算法是收敛的。采用该学习方法为自平衡两轮机器人建立运动神经认知系统,利用RBF网络逼近行为和评价网络。仿真实验表明该方法改善仅有基底神经节作用的行为-评价算法学习速度慢和失败次数多的问题,学习后期通过温度的不断降低,加快学习速度,震荡逐渐消失,改善学习效果。相似文献

12.

两轮机器人在坡面上的运动平衡控制

阮晓钢李亚磊朱晓庆《传感器与微系统》2014,(3):44-47

两轮机器人在坡面上运动时,由于受到重力作用的影响,其姿态平衡控制变得更加复杂。为实现机器人在坡面上的平衡控制,首先建立了两轮机器人在坡面上的动力学模型,然后针对两轮机器人设计一种非线性PD控制器。与传统的线性PD控制器进行仿真实验对比,实验结果说明:在响应速度、稳定性、鲁棒性方面,非线性PD控制有着更好的效果。最后,在姿态平衡控制中加入速度控制,构成双环的PD控制,实现了两轮机器人在坡面上的静态平衡。相似文献

13.

基于非线性PID的柔性两轮机器人运动控制

阮晓钢李世臻侯旭阳李欣源《控制工程》2012,19(3):498-501

柔性两轮机器人是一种不稳定、非线性、强耦合系统。该系统的突出特点是在机器人的腰部装有柔性的机体结构,能够更好地模拟人和动物的生物动力学特性,具有更好的仿生性质,同时,系统的控制难度显著增大,为使机器人能够平衡直立运动,且具有较强的鲁棒性,提出了非线性PD的姿态平衡控制方法,实现了机器人的姿态平衡,并同时设计了PID航向差动控制结构驱动左右轮电机,使机器人能够完成直线行进、自旋、环绕等多种运动平衡模式。实验结果表明,机器人具有优良的平衡能力和机动性能,从而验证了方法的有效性。相似文献

14.

柔性双轮平衡机器人的动力学建模与分析 总被引：1，自引：0，他引：1

李欣源阮晓钢任红格《机器人》2010,32(1):1

提出了一种柔性双轮平衡机器人,其机身具有以一段弹簧作为弹性阻尼的被动俯仰旋转关节．运用拉格朗日方法建立了此机器人在平面运动的动力学模型．基于此模型,首先证明了柔性双轮平衡机器人在直立平衡点不稳定和局部可控．其次,分析了关节刚度对线性二次型最优姿态平衡控制系统的影响．结果显示,关节刚度减小在理论上能够加强系统的鲁棒性,却使得控制系统动态性能下降．本文提出的模型及相关分析为柔性双轮平衡机器人的设计和控制提供了一定理论依据．相似文献

15.

两轮机器人具有内发动机机制的感知运动系统的建立

张晓平阮晓钢肖尧朱晓庆《自动化学报》2016,42(8):1175-1184

针对两轮机器人运动平衡控制问题,为其建立起一种人工感知运动系统TWR-SMS（Two-wheeled robot sensorimotor system）,使机器人在与环境的接触过程中可以通过学习自主掌握运动平衡技能.感知运动系统的认知系统以学习自动机为数学模型,引入好奇心和取向性概念,设计了能够主动探索环境以及主动学习环境的内发动机机制.实验结果证明内发动机机制的引入不仅提高了机器人的自学习和自组织特性,同时能够有效避免小概率事件的发生,稳定性较高.与传统线性二次型调节器（Linear quadratic regulator,LQR）控制方法的对比实验表明系统具有更好的鲁棒性. 相似文献

16.

两轮自平衡机器人的无源控制器设计

罗俊芝杨万利李红燕刘艳霞《计算机工程与应用》2015,51(5):50-53

以两轮自平衡机器人为研究对象,基于其状态空间模型,利用线性矩阵不等式的方法,设计两轮自平衡机器人平衡的无源控制器,并给出了两轮自平衡机器人无源控制器存在的充分条件。仿真结果表明,设计的无源控制器对于机器人的平衡是有效的。相似文献

17.

基于强化学习规则的两轮机器人自平衡控制 总被引：1，自引：0，他引：1

阮晓钢蔡建羡陈静《计算机测量与控制》2009,17(2):321-323

两轮机器人是一个典型的不稳定,非线性,强耦合的自平衡系统,在两轮机器人系统模型未知和没有先验经验的条件下,将强化学习算法和模糊神经网络有效结合,保证了函数逼近的快速性和收敛性,成功地实现两轮机器人的自学习平衡控制,并解决了两轮机器人连续状态空间和动作空间的强化学习问题;仿真和实验表明:该方法不仅在很短的时间内成功地完成对两轮机器人的平衡控制,而且在两轮机器人参数变化较大时,仍能维持两轮机器人的平衡。相似文献

18.

基于滑模思想和Elman 网络的操作条件反射学习控制方法

阮晓钢陈静《控制与决策》2011,26(9):1398-1401

针对一类单输入单输出高阶非线性控制系统,提出一种基于滑模思想和Elman网络的操作条件反射（OCR）学习控制方法．该方法采用Elman网络构造滑模面-行为对的评价函数,通过滑模面的变化设计奖赏函数,根据奖赏信号更新评价函数,实现行为选择概率的更新．通过每轮次熵的定义,定量分析了所学知识的变化量．针对行走倒立摆系统的仿真实验结果表明,采用该仿生的OCR学习控制方法,可实现行走倒立摆的平衡控制．相似文献

19.

两轮自平衡机器人动力学建模及其平衡控制* 总被引：3，自引：0，他引：3

阮晓钢任红格《计算机应用研究》2009,26(1):99-101

针对高阶次、不稳定、多变量、非线性、强耦合的两轮自平衡移动机器人系统,采用Lagrange方程推导出动力学模型,对其进行稳定性和可控性判断,并利用LQR和龙伯格极点配置的方法在此模型的基础上对两轮自平衡机器人的姿态和速度进行控制,可获得较为稳定的动态平衡过程。给出了数学模型推导的具体步骤,分别采用以上两种方法进行了仿真研究和比较。仿真实验结果表明,这两种控制方法对机器人的稳定性控制都是有效的。其中龙伯格极点配置控制方法使系统的跟踪速度更快、稳定性更高,具有较高的实际应用价值。相似文献

20.

进化操作行为学习模型及在移动机器人避障上的应用

郜园园朱凡宋洪军《计算机应用》2013,33(8):2283-2288

针对移动机器人避障上存在的自适应能力较差的问题,结合遗传算法(GA)的进化思想,以自适应启发评价(AHC)学习和操作条件反射(OC)理论为基础,提出了一种基于进化操作行为学习模型(EOBLM)的移动机器人学习避障行为的方法。该方法是一种改进的AHC学习模式,评价单元采用多层前向神经网络来实现,利用TD算法和梯度下降法进行权值更新,这一阶段学习用来生成取向性信息,作为内在动机决定进化的方向;动作选择单元主要用来优化操作行为以实现状态到动作的最佳映射。优化过程分两个阶段来完成,第一阶段通过操作条件反射学习算法得到的信息熵作为个体适应度,执行GA学习算法搜索最优个体;第二阶段由OC学习算法选择最优个体内的最优操作行为,并得到新的信息熵值。通过移动机器人避障仿真实验,结果表明所设计的EOBLM能使机器人通过不断与外界未知环境进行交互主动学会避障的能力,与传统的AHC方法相比其自学习自适应的能力得到加强。相似文献