共查询到18条相似文献,搜索用时 93 毫秒
1.
人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型(2D模型)再复杂模型(3D模型)的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。 相似文献
2.
3.
4.
5.
受限于水下环境和观察角度,精确地控制水下机械臂完成水下自主作业任务具有很大的挑战性。针对这一问题,考虑到强化学习算法对环境具有强大的自适应能力,文章提出一种水下机械臂自主控制方法。首先,其设计了一种近端策略优化(PPO)结合行动器-评判器(AC)的强化学习算法训练自主控制策略;其次,对训练过程中出现的稀疏奖励问题,提出了一种基于人工势场法的奖励塑造方法;最后,在仿真试验环境中对基于上述方法训练得到的自主控制策略进行了验证。验证结果表明,该策略可以有效收敛并自主控制水下机械臂向目标位置精确移动,移动快速、过程流畅,末端执行器运动轨迹平滑、稳定。 相似文献
6.
优化交通信号的控制策略可以提高道路车辆通行效率, 缓解交通拥堵. 针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题, 构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法, 通过对传统PPO算法中代理目标函数进行最大化提取, 有效提高了模型选择样本的质量, 采用多维交通状态向量作为模型观测值的输入方法, 以及时跟踪并利用道路交通状态的动态变化过程. 为了验证MPPO算法模型的准确性和有效性, 在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比. 仿真实验表明, 相比于值函数强化学习控制方法, 该方法更贴近真实的交通场景, 显著加快了车辆累计等待时间的收敛速度, 车辆的平均队列长度和平均等待时间明显缩短, 有效提高了单路口车辆的通行效率. 相似文献
7.
8.
探讨空间连续型机械臂执行在轨操作任务过程中的自适应轨迹跟踪控制器设计问题.首先,对于具有显著非线性特征的连续型机械臂动力学模型,考虑运动过程中存在的建模误差和外部干扰因素,设计变结构动力学控制器;然后,基于深度强化学习(deep reinforcement learning, DRL)对变结构控制器参数进行在线调整,实时优化控制器性能;最后,提出一种针对强化学习网络稀疏训练方法,训练过程中采用具有随机稀疏拓扑结构的稀疏连接层代替神经网络的全连接层,并以一定概率对连接薄弱的网络进行迭代剪枝,使得DRL的策略网络由初始稀疏拓扑结构演化为无标度网络,在不降低训练精度的基础上压缩网络规模.仿真结果表明,所提出基于强化学习的自适应控制器能够有效地进行连续型机械臂的跟踪控制,通过稀疏学习的方法,控制器在保证控制精度的同时,双隐层网络节点参数量下降99%,大幅降低了计算成本. 相似文献
9.
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 相似文献
10.
强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。 相似文献
11.
针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体(agents)结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC(多智能体与Soft Actor-Critic结合)和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性。实现孪生体自主规划决策,反向控制物理体同步运动的目的。 相似文献
12.
仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模型替代CFD方式产生训练数据,提高数据的产生效率;引入高效的PPO算法,加快策略模型的学习速度,提高训练数据的效用;引入速度参数,解决鱼体在急转弯区域无法顺利循迹的问题.实验表明,我们提出的方法在多种类型的路径上均具有更快的收敛速度和更加稳定的控制能力,在仿生机器鱼的智能控制方面具有重要的指导意义. 相似文献
13.
现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用户规模的时变性,构建了动态异构群智感知系统任务指派的多目标约束优化模型.模型以最大化感知质量和最小化感知成本为目标,综合考虑用户的最大任务执行数量、无人机的受限工作时间等约束.为解决该优化问题,提出一种基于近端策略优化的多目标进化优化算法.采用近端策略优化,根据种群的当前进化状态,选取具有最高奖励值的进化算子,生成子代种群.面向不同异构群智感知实例,与多种算法的对比实验结果表明,所提算法获得的Pareto最优解集具有最佳的收敛性和分布性,进化算子选择策略可以有效提升对时变因素的适应能力,改善算法性能. 相似文献
14.
邢印强 《计算机测量与控制》2021,29(3):140-144
机械臂是多臂机器人的重要组成部分,针对基于姿态识别控制及位置识别控制系统受到被控量振荡影响,而导致机械臂运动轨迹控制不精准的问题,提出了基于FuzzyP的多臂机器人机械臂控制系统设计;基于FuzzyP控制系统,找到系统控制平衡点,设计系统硬件结构包含3个机械臂,共十八个自由度,简化关节控制器连线,选择直流有刷电机,采用增量型编码器,设计H桥电路,配合74ACT244增强驱动电路,利用NRF24L01无线模块获取与处理位置信息;使用FuzzyP控制器,抑制被控量振荡,控制连杆运动,完成多臂机器人机械臂控制方案设计;由实验结果可知,该系统轨迹与预期轨迹基本一致,较好解决多臂机器人机械臂对接精确定位要求。 相似文献
15.
针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。 相似文献
16.
17.
通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。 相似文献
18.
基于神经网络的机器人自学习控制器 总被引:3,自引:0,他引:3
提出一种神经网络与PID控制相结合的机器人自学习控制器.为加快神经网络的学习收敛性,研究了有效的优化学习算法.以两关节机器人为对象的仿真表明,该控制器使机器人跟踪希望轨迹,其系统响应、跟踪精度和鲁棒性优于常规的控制策略. 相似文献