期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献

2.

基于SAC算法的多源信息融合机械臂控制方法

权双璐郭艳婕费逢宇瑜熙敬宋小云辛顺恒王超《自动化应用》2024,(5):52-54

融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自主精准控制。在实验平台上,开展了3个由易到难的机械臂运动控制任务,以验证所提多源信息融合机械臂控制方案的有效性。相似文献

3.

基于深度强化学习的机械臂容错控制方法

《传感器与微系统》2020,(1)

针对机械臂突发单关节故障的情况,提出一种基于深度强化学习的机械臂容错控制方法。在建立环境模型和奖罚机制的基础上,针对机械臂正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练。在Rviz中建立机械臂模型并使用上述网络进行在线控制。实验证明:该算法可以有效完成机械臂的正常控制和容错控制。相似文献

4.

基于深度强化学习的二连杆机械臂运动控制方法

王建平王刚毛晓彬马恩琪《计算机应用》2021,41(6):1799-1804

针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法.首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制.对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一... 相似文献

5.

基于深度强化学习的水下机械臂自主控制研究

李忻阳卢倪斌吕诗为刘海瑞《控制与信息技术》2023,(6):45-50

受限于水下环境和观察角度,精确地控制水下机械臂完成水下自主作业任务具有很大的挑战性。针对这一问题,考虑到强化学习算法对环境具有强大的自适应能力,文章提出一种水下机械臂自主控制方法。首先,其设计了一种近端策略优化（PPO）结合行动器-评判器（AC）的强化学习算法训练自主控制策略;其次,对训练过程中出现的稀疏奖励问题,提出了一种基于人工势场法的奖励塑造方法;最后,在仿真试验环境中对基于上述方法训练得到的自主控制策略进行了验证。验证结果表明,该策略可以有效收敛并自主控制水下机械臂向目标位置精确移动,移动快速、过程流畅,末端执行器运动轨迹平滑、稳定。相似文献

6.

基于样本优化的PPO算法在单路口信号控制的应用

张国有张新武《计算机系统应用》2024,33(6):161-168

优化交通信号的控制策略可以提高道路车辆通行效率, 缓解交通拥堵. 针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题, 构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法, 通过对传统PPO算法中代理目标函数进行最大化提取, 有效提高了模型选择样本的质量, 采用多维交通状态向量作为模型观测值的输入方法, 以及时跟踪并利用道路交通状态的动态变化过程. 为了验证MPPO算法模型的准确性和有效性, 在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比. 仿真实验表明, 相比于值函数强化学习控制方法, 该方法更贴近真实的交通场景, 显著加快了车辆累计等待时间的收敛速度, 车辆的平均队列长度和平均等待时间明显缩短, 有效提高了单路口车辆的通行效率. 相似文献

7.

基于深度强化学习的机械臂避障路径规划研究

《软件工程师》2019,(3):12-15

为了解决现有的机械臂焊接系统调整动作的难度大,缺乏灵活性的问题,本文采用了深度强化学习算法来解决机械臂的路径规划问题;该方法使用一个三层的DNN网络,输入为机械臂的状态信息,输出为机械臂的运动关节角度,通过离线训练,机械臂能够自行训练出一条接近于最优的运动轨迹,能够成功地避开障碍物到达目标点;仿真在一个三自由度点焊机器人的模拟平台上进行,仿真实验表明,采用深度强化学习技术的机械臂能为焊接机械臂规划出一条无碰撞的路径,具有较强的避障能力。相似文献

8.

基于稀疏学习的连续型机械臂自适应控制器

江达蔡志勤刘忠振彭海军吴志刚《控制与决策》2023,38(9):2563-2568

探讨空间连续型机械臂执行在轨操作任务过程中的自适应轨迹跟踪控制器设计问题.首先,对于具有显著非线性特征的连续型机械臂动力学模型,考虑运动过程中存在的建模误差和外部干扰因素,设计变结构动力学控制器;然后,基于深度强化学习(deep reinforcement learning, DRL)对变结构控制器参数进行在线调整,实时优化控制器性能;最后,提出一种针对强化学习网络稀疏训练方法,训练过程中采用具有随机稀疏拓扑结构的稀疏连接层代替神经网络的全连接层,并以一定概率对连接薄弱的网络进行迭代剪枝,使得DRL的策略网络由初始稀疏拓扑结构演化为无标度网络,在不降低训练精度的基础上压缩网络规模.仿真结果表明,所提出基于强化学习的自适应控制器能够有效地进行连续型机械臂的跟踪控制,通过稀疏学习的方法,控制器在保证控制精度的同时,双隐层网络节点参数量下降99%,大幅降低了计算成本. 相似文献

9.

基于注意力的循环PPO算法及其应用

吕相霖臧兆祥李思博王俊英《计算机技术与发展》2024,(1):136-142

针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。相似文献

10.

基于互信息最大化的意图强化学习方法的研究

赵婷婷吴帅杨梦楠陈亚瑞王嫄杨巨成《计算机应用研究》2022,39(11)

强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。相似文献

11.

多智能体强化学习的机械臂运动控制决策研究

下载免费PDF全文

羊波王琨马祥祥范彪徐磊闫浩《计算机工程与应用》2023,59(6):318-325

针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体（agents）结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC（多智能体与Soft Actor-Critic结合）和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性。实现孪生体自主规划决策,反向控制物理体同步运动的目的。相似文献

12.

基于PPO算法的仿生鱼循迹智能控制

李云飞严嫏张来平邓小刚邹舒帆《计算机系统应用》2023,32(9):230-238

仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模型替代CFD方式产生训练数据,提高数据的产生效率;引入高效的PPO算法,加快策略模型的学习速度,提高训练数据的效用;引入速度参数,解决鱼体在急转弯区域无法顺利循迹的问题.实验表明,我们提出的方法在多种类型的路径上均具有更快的收敛速度和更加稳定的控制能力,在仿生机器鱼的智能控制方面具有重要的指导意义. 相似文献

13.

异构群智感知PPO多目标任务指派方法

下载免费PDF全文

杨潇郭一楠吉建娇刘旭《控制理论与应用》2024,41(6):1056-1066

现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用户规模的时变性,构建了动态异构群智感知系统任务指派的多目标约束优化模型.模型以最大化感知质量和最小化感知成本为目标,综合考虑用户的最大任务执行数量、无人机的受限工作时间等约束.为解决该优化问题,提出一种基于近端策略优化的多目标进化优化算法.采用近端策略优化,根据种群的当前进化状态,选取具有最高奖励值的进化算子,生成子代种群.面向不同异构群智感知实例,与多种算法的对比实验结果表明,所提算法获得的Pareto最优解集具有最佳的收敛性和分布性,进化算子选择策略可以有效提升对时变因素的适应能力,改善算法性能. 相似文献

14.

基于FuzzyP的多臂机器人机械臂控制系统设计

下载免费PDF全文

邢印强《计算机测量与控制》2021,29(3):140-144

机械臂是多臂机器人的重要组成部分,针对基于姿态识别控制及位置识别控制系统受到被控量振荡影响,而导致机械臂运动轨迹控制不精准的问题,提出了基于FuzzyP的多臂机器人机械臂控制系统设计;基于FuzzyP控制系统,找到系统控制平衡点,设计系统硬件结构包含3个机械臂,共十八个自由度,简化关节控制器连线,选择直流有刷电机,采用增量型编码器,设计H桥电路,配合74ACT244增强驱动电路,利用NRF24L01无线模块获取与处理位置信息;使用FuzzyP控制器,抑制被控量振荡,控制连杆运动,完成多臂机器人机械臂控制方案设计;由实验结果可知,该系统轨迹与预期轨迹基本一致,较好解决多臂机器人机械臂对接精确定位要求。相似文献

15.

面向机械臂轨迹规划的强化学习奖励函数设计

下载免费PDF全文

靳栋银李跃邵振洲施智平关永《计算机工程与应用》2022,58(19):302-308

针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。相似文献

16.

基于计算转矩控制结构的机械手鲁棒神经网络补偿控制 总被引：6，自引：1，他引：6

白萍方廷健葛运建《控制理论与应用》2001,18(6):897-901

提出了一种新的不确定性机器人跟踪控制策略,文中基于计算转矩控制结构,采用了函数链网络实现一个神经网络补偿器,并叠加一个鲁棒控制项,以补偿模型的不确定性部分,另外,还考虑了神经网络逼近误差非一致有界的情形,设计了自适应的鲁棒控制项,算法可保证跟踪误差及神经网络权估计最终一致有界,与其它有关基于计算转矩控制的方法相比,该算法既不需要测量关节角加速度,也不要求惯性矩阵已知,理论和仿真均证明了算法和可靠性和有效性。相似文献

17.

基于深度强化学习的机器人操作行为研究综述

陈佳盼郑敏华《机器人》2022,44(2):236-256

通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。相似文献

18.

基于神经网络的机器人自学习控制器 总被引：3，自引：0，他引：3

王耀南《自动化学报》1997,23(5):698-702

提出一种神经网络与PID控制相结合的机器人自学习控制器.为加快神经网络的学习收敛性,研究了有效的优化学习算法.以两关节机器人为对象的仿真表明,该控制器使机器人跟踪希望轨迹,其系统响应、跟踪精度和鲁棒性优于常规的控制策略. 相似文献