首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性.  相似文献   

2.
为提高机器人自主学习能力,提出一种基于奖励引导的机器人自主步态学习算法.首先给出自主设计的机械式步态同步六足机器人的机械结构,其独特的多层钢堆叠腿部设计方案和特有的机械同步传动方案为机器人后续步态学习研究奠定良好基础;接下来提出一种基于奖励引导的机器人步态学习算法,该算法可以让机器人在未知环境中进行技能学习;最后,在MATLAB和ADAMS联合仿真平台上进行算法验证实验,实验结果显示以速度和高度分别为主评价指标会呈现出2种合理的收敛结果,且在该算法下六足机器人可以自主学习到翻越木块的高难度技能.  相似文献   

3.
强化学习方法在移动机器人导航中的应用   总被引:1,自引:0,他引:1  
路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力.  相似文献   

4.
机器人对操作技能的自主学习是未来机器人服务人类社会所需具备的重要技能之一,也是机器人研究领域的热点问题之一。对目前机器人操作技能学习的主流模式、方式、算法以及不同方法的优缺点做了全面综述,归纳了在未来知识共享模式下个体机器人实现操作技能的自主学习所面临的挑战和亟待解决的关键问题,并介绍了一种将机器人个体学习模式与共享学习模式有机结合提升机器人操作技能的自主认知与学习的潜在解决方案。  相似文献   

5.
针对两轮机器人自平衡运动控制问题,提出了一种基于Boltzamnn机的Skinner操作条件反射学习机制作为机器人仿生自主学习的算法.该算法利用Boltzamnn机中Metropolis判据平衡Skinner操作条件反射学习中探索和利用的比例,并依据概率取向机制以一定的概率选择最优行为,从而使机器人在未知环境下可获得像人或动物一样的仿生自主学习技能,实现机器人的自平衡运动控制.最后,分别用基于Boltzamnn机的Skinner操作条件反射的学习算法和基于贪婪策略的Skinner操作条件反射的学习算法做了仿真实验并进行了比较.结果表明,基于Boltzamnn机的Skinner操作条件反射的学习算法能使机器人获得较强的运动平衡控制技能和较好的动态性能,体现了机器人的自主学习特性.  相似文献   

6.
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%.  相似文献   

7.
基于路径引导知识启发的强化学习方法   总被引:1,自引:0,他引:1  
为了提高强化学习算法的运行效率和收敛速度,提出了一种基于路径引导知识启发的强化学习方法PHQL。采用PHQL方法,不需要提前植入先导知识,agent在每一轮学习过程中更新Q表的同时,各个状态的路径知识也自主地建立起来并逐步修正和优化。算法利用已经获得的路径知识来指导和加速agent以后的强化学习过程,以减少agent学习过程的盲目性。分析了PHQL算法的探索、利用和启发3种行为的执行概率以及行为选取方法,提出一种行为选择概率随时间渐变的算法。以一个路径搜索问题为实例,对PHQL方法进行了验证、分析并与几种相关的强化学习算法进行了性能对比。实验结果表明,作者提出的方法对学习过程具有明显的加速作用,收敛性能有了较大的提高。  相似文献   

8.
强化学习与深度学习结合的深度强化学习(Deep Reinforcement Learning,DRL)模型,目前被广泛应用于机器人控制领域。机器人强化学习需要在3D仿真环境中训练模型,然而在缺乏环境先验知识的情况下,在3D环境中进行试错学习会导致训练周期长、开发成本高的问题。因此提出一种贯通2D到3D的机器人强化学习训练模式,将计算量大、耗时多的工作部署到2D环境中,再把算法结果迁移到3D环境中进行测试。实验证明,这种训练模式能使基于个人电脑的机器人强化学习的开发效率提升5倍左右。  相似文献   

9.
针对移动机器人在静态未知环境中的路径规划问题,提出了一种将深度自动编码器( deep auto-encoder)与Q学习算法相结合的路径规划方法,即DAE-Q路径规划方法。利用深度自动编码器处理原始图像数据可得到移动机器人所处环境的特征信息;Q学习算法根据环境信息选择机器人要执行的动作,机器人移动到新的位置,改变其所处环境。机器人通过与环境的交互,实现自主学习。深度自动编码器与Q学习算法相结合,使系统可以处理原始图像数据并自主提取图像特征,提高了系统的自主性;同时,采用改进后的Q学习算法提高了系统收敛速度,缩短了学习时间。仿真实验验证了此方法的有效性。  相似文献   

10.
增强蚁群算法的机器人最优路径规划   总被引:2,自引:0,他引:2  
为解决复杂环境中机器人最优路径规划问题,本文结合增强学习和人工势场法的原理,提出一种基于增强势场优化的机器人路径规划方法,引入增强学习思想对人工势场法进行自适应路径规划.再把该规划结果作为先验知识,对蚁群算法进行初始化,提高了蚁群算法的优化效率,同时克服了传统人工势场法的局部极小问题.仿真实验结果表明,该方法在复杂环境中,对机器人的路径规划效果令人满意.  相似文献   

11.
在分析教学过程的基础上,提出了教授率、学习效率、专业知识和技能吸收率的概念,并应用这些概念建立了教学过程最优控制模型。应用模型提出了预测算法、学生潜能预测算法以及学生培养计划算法。模型描述了学生专业水平的提高是一个知识和技能逐渐积累的过程,其提高程度与教师的教授率、学习效率、专业知识和专业技能的吸收率有关。理论分析表明,学生存在一个最大的知识和技能的接受能力,学习强度和接受能力之间存在一种非线性关系,同时也表明学生的学习能力呈现加速增长的趋势。  相似文献   

12.
贝叶斯网络杂交学习算法及其在中医中的应用   总被引:7,自引:0,他引:7  
针对贪婪贝叶斯模式搜索算法(GBPS)在搜索最优贝叶斯网络结构时易陷入局部最优的不足,提出了一种改进的GBPS算法.在GBPS算法的邻域生成过程中引入了有向边的变向操作,并通过仿真实验研究了样本数量和网络节点的连接边数对算法寻优能力、结果准确度和计算量的影响.将该改进算法用于从中医临床诊断数据中辨识症状与辨证要素间的复杂关系.结果表明,该改进算法的学习结果优于GBPS算法和贪婪贝叶斯有向无环图搜索算法(GBDS).所发现的症状-辨证要素间的相关关系与中医专家经验吻合较好,可用于从中医诊断数据中自动获取中医专家知识.  相似文献   

13.
介绍了一个可用于自动获取农作物病虫害诊断规则的自动知以获取系统,该系统是用示例学习方法来自动获取知识的。文中介绍了系统的学习策略,系统的总体结构和归纳学习算法AIL以及应用情况。  相似文献   

14.
针对直线运动的轮式倒立摆常规自平衡控制方法存在自适应性差和鲁棒性差的问题,建立轮式倒立摆反应式认知系统,在与环境交互过程中涌现出自平衡控制规则.该系统由感知模块、执行模块和认知模块组成,前两者分别负责系统的输入与输出.认知模块涉及到知识模型与学习策略:前者由连续动作学习自动机组构成,用于描述控制规则;后者负责优化知识模型,采用不确定性动机驱动的学习算法.详细描述该系统的结构、原理和算法,理论证明学习算法的收敛性,并通过仿真实验验证系统的自学习能力.结合常规PID和LQR算法通过仿真实验验证自适应性和鲁棒性.实验结果表明,该系统能够自主涌现出自平衡控制规则,表现出良好的自主学习认知技能,具有较好的自适应性与鲁棒性.  相似文献   

15.
将神经网络技术应用于船舶控制系统故障诊断专家系统,给出了系统的组成和知识的表达方法;提出了自增长动态网络学习算法,其优点在于学习迅速,能动态建造多层网;给出了神经网络专家系统的推理方法。  相似文献   

16.
联邦学习(FL)中客户端数据异构导致训练的统一模型无法满足每个客户端对性能的需求。针对这一问题,提出了一种个性化联邦学习算法——元蒸馏联邦学习,将知识蒸馏和元学习与FL结合,并将个性化过程嵌入FL。在每次全局迭代中,每个客户端的本地模型(即学生模型)在蒸馏全局模型(即教师模型)的同时将自身情况反馈给教师模型并使其不断更新,从而获得一个更优的教师模型以进行个性化学习。仿真结果表明,与现有个性化算法相比,所提算法在提高个性化精度的同时能在全局精度和个性化精度之间取得较好的折中。  相似文献   

17.
基于MMHC算法的贝叶斯网络结构学习算法研究   总被引:2,自引:0,他引:2  
贝叶斯网络是人工智能领域研究不确定环境下知识表示和因果推理的有效工具之一,迄今为止已经提出了许多贝叶斯网络结构学习算法.MMHC算法是一种较新的贝叶斯网络结构学习算法,该算法的评分搜索阶段应用了贪婪搜索算法,但该算法容易陷入局部最优而无法得到全局最优网络,针对该缺点,在MMHC算法的评分搜索阶段应用模拟退火、随机重启爬山搜索、禁忌搜索3种搜索策略取代贪婪搜索,详尽的实验结果表明在MMHC算法中这3种搜索算法的效果普遍优于贪婪搜索,其中模拟退火搜索学习效果最好,MMHC算法的评分搜索阶段可以用模拟退火搜索替代贪婪搜索达到提升算法的学习效果.  相似文献   

18.
A method of knowledge representation and learning based on fuzzy Petri nets was designed. In this way the parameters of weights, threshold value and certainty factor in knowledge model can be adjusted dynamically. The advantages of knowledge representation based on production rules and neural networks were integrated into this method. Just as production knowledge representation, this method has clear structure and specific parameters meaning. In addition, it has learning and parallel reasoning ability as neural networks knowledge representation does. The result of simulation shows that the learning algorithm can converge, and the parameters of weights, threshold value and certainty factor can reach the ideal level after training.  相似文献   

19.
A method of knowledge representation and learning based on fuzzy Petri nets was designed.In this way the parameters of weights,threshold value and certainty factor in knowledge model can be adjusted dynamically.The advantages of knowledge representation based on production rules and neural networks were integrated into this method.Just as production knowledge representation,this method has clear structure and specific parameters meaning.In addition,it has learning and parallel reasoning ability as neural networks knowledge representation does.The result of simulation shows that the learning algorithm can converge,and the parameters of weights,threshold value and certainty factor can reach the ideal level after training.  相似文献   

20.
研究在线学习模糊控制规则的方法.建立基于多维学习自动机阵列的模糊控制器模型,提出在学习自动机阵列中按照贡献分配奖励的学习算法.在没有任何预置知识和规则的前提下,该控制器能通过与被控对象的交互动作建立自身的规则库.对机械手自学习视觉伺服控制的仿真结果验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号