期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张永超于智伟丁丽林《工矿自动化》2021,(1):36-42

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。相似文献

2.

基于LSTM与非对称网络的改进DDPG算法研究

何富君王晓争刘凯《计算机应用研究》2022,39(1):183-187

针对深度强化学习算法在复杂动态环境中训练时,由于环境的部分可观测性原因导致智能体难以获得有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于LSTM和非对称actor-critic网络的改进DDPG算法。该算法在actor-critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环境的完全状态进行训练构成非对称网络,加快了训练收敛速度。通过在ROS中进行机械臂抓取仿真实验,结果显示该算法相比于DDPG、PPO和LSTM-DDPG算法获得了更高的成功率,同时具有较快的收敛速度。相似文献

3.

基于深度强化学习的机械臂容错控制方法

《传感器与微系统》2020,(1)

针对机械臂突发单关节故障的情况,提出一种基于深度强化学习的机械臂容错控制方法。在建立环境模型和奖罚机制的基础上,针对机械臂正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练。在Rviz中建立机械臂模型并使用上述网络进行在线控制。实验证明:该算法可以有效完成机械臂的正常控制和容错控制。相似文献

4.

深度强化学习算法在智能军事决策中的应用

下载免费PDF全文

况立群李思远冯利韩燮徐清宇《计算机工程与应用》2021,57(20):271-278

深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度（DDPG）算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智能体完成战术机动,实现绕过障碍物抵达优势区域进行射击等战术行为,算法拥有更快的收敛速度和更好的稳定性,可得到更高的回合奖励,达到了提高智能军事决策效率的目的。相似文献

5.

基于深度强化学习的机械臂控制快速训练方法

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献

6.

基于深度强化学习的AGV智能导航系统设计

贺雪梅匡胤《计算机应用研究》2022,39(5)

针对现有的AGV在大规模未知复杂环境中进行自主导航配送的问题,基于深度强化学习完成了AGV智能导航系统设计。首先,结合传感器对周围的障碍物进行探测感知,利用DDPG（deep deterministic policy gradient）算法实现AGV小车从环境的感知输入到动作的直接输出控制,帮助AGV完成自主导航和避障任务。此外,针对训练样本易受环境干扰的问题,提出了一种新颖的DL（disturb learning）- DDPG算法,通过对学习样本中相关数据进行高斯噪声预处理,帮助智能体适应噪声状态下的训练环境,提升了AGV在真实环境中的鲁棒性。仿真实验表明,经改进后的DL-DDPG 算法能够为AGV导航系统提供更高效的在线决策能力,使AGV小车完成自主导航与智能控制。相似文献

7.

基于SAC算法的多源信息融合机械臂控制方法

权双璐郭艳婕费逢宇瑜熙敬宋小云辛顺恒王超《自动化应用》2024,(5):52-54

融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自主精准控制。在实验平台上,开展了3个由易到难的机械臂运动控制任务,以验证所提多源信息融合机械臂控制方案的有效性。相似文献

8.

面向软体机械臂抓取的单目深度估计方法

张竞豪邓礼楠沈逸《控制工程》2024,(2):352-358

软体机械臂在非结构化环境中执行物体抓取任务时,具有柔顺性和安全性的优势。但由于传统的立体视觉系统难以安装在软体机械臂上,软体机械臂获取目标物体的三维位置仍存在挑战。首先,建立了描述软体机械臂运动状态和目标物体位置的协作坐标系模型。随后,提出了一种改进运动恢复结构的单目深度估计方法：(1)针对深度估计的实时性要求,提出采用主成分分析-尺度不变特征变换(principal component analysis-scale invariant feature transform,PCA-SIFT)方法对特征描述符降维;(2)将机械臂末端的移动距离作为约束恢复深度估计的真实尺度。最后,通过实验验证了所提出的协作坐标系和深度估计方法的有效性。实验结果表明,所提深度估计方法在多种光照和遮挡环境中,特征匹配时间缩短了16.02%,平均误差控制在5 mm以内。相似文献

9.

基于深度强化学习的双足机器人斜坡步态控制方法 总被引：1，自引：0，他引：1

吴晓光刘绍维杨磊邓文强贾哲恒《自动化学报》2021,47(8):1976-1987

为提高准被动双足机器人斜坡步行稳定性, 本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法. 通过分析准被动双足机器人的混合动力学模型与稳定行走过程, 建立了状态空间、动作空间、episode过程与奖励函数. 在利用基于DDPG改进的Ape-X DPG算法持续学习后, 准被动双足机器人能在较大斜坡范围内实现稳定行走. 仿真实验表明, Ape-X DPG无论是学习能力还是收敛速度均优于基于PER的DDPG. 同时, 相较于能量成型控制, 使用Ape-X DPG的准被动双足机器人步态收敛更迅速、步态收敛域更大, 证明Ape-X DPG可有效提高准被动双足机器人的步行稳定性. 相似文献

10.

改进DDPG无人机航迹规划算法

下载免费PDF全文

高敬鹏胡欣瑜江志烨《计算机工程与应用》2022,58(8):264-272

针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法.围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型... 相似文献

11.

基于改进DDPG算法的车辆低速跟驰行为决策研究

罗颖秦文虎翟金凤《测控技术》2019,38(9):19-23

车辆跟驰行为决策研究对于车辆跟驰驾驶技术的发展至关重要,以深度强化学习方法研究车辆低速跟驰场景,提出了一种改进型DDPG决策算法,该算法在DDPG算法的基础上,结合了CBF控制器以进行安全补偿控制与策略探索指导;同时,设计了符合低速跟驰期望目标的奖励函数。在对比实验中,通过高斯过程模型模拟跟驰车队系统,分别用DDPG算法和DDPG-CBF改进算法控制其中一辆车的跟驰行为,实验结果表明,相比于DDPG算法,DDPG-CBF改进算法可以更有效地保证跟驰决策的安全性,同时具有更高的学习效率,能够应用于车辆低速跟驰场景。相似文献

12.

多智能体强化学习的机械臂运动控制决策研究

下载免费PDF全文

羊波王琨马祥祥范彪徐磊闫浩《计算机工程与应用》2023,59(6):318-325

针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体（agents）结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC（多智能体与Soft Actor-Critic结合）和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性。实现孪生体自主规划决策,反向控制物理体同步运动的目的。相似文献

13.

基于深度强化学习与旋量法的机械臂路径规划EI北大核心CSCD

王寅王永华尹泽中万频《控制理论与应用》2023,40(3):516-524

深度强化学习在机械臂路径规划的应用中仍面临样本需求量大和获取成本高的问题.针对这些问题,本文基于数据增强的思路,提出了深度强化学习与旋量法的融合算法.本算法通过旋量法将与环境交互所得的自然轨迹进行有效复制,使深度强化学习样本利用率和算法训练效率得到提高;复制轨迹的同时对被控物体、障碍物等环境元素进行同步复制,以此提高机械臂在非结构环境中的泛化性能.最后,在具备物理模拟引擎的Mujoco仿真平台中,通过Fetch机械臂和UR5机械臂在非结构化环境下进行实验对比分析,结果表明了本文算法对于提升深度强化学习样本利用率和机械臂模型泛化性能的可行性及有效性. 相似文献

14.

智能车辆深度强化学习的模型迁移轨迹规划方法

余伶俐邵玄雅龙子威魏亚东周开军《控制理论与应用》2019,36(9):1409-1422

针对智能驾驶车辆传统路径规划中出现车辆模型跟踪误差和过度依赖问题,提出一种基于深度强化学习的模型迁移的智能驾驶车辆轨迹规划方法.首先,提取真实环境的抽象模型,该模型利用深度确定性策略梯度(DDPG)和车辆动力学模型,共同训练逼近最优智能驾驶的强化学习模型;其次,通过模型迁移策略将实际场景问题迁移至虚拟抽象模型中,根据该环境中训练好的深度强化学习模型计算控制与轨迹序列;而后,根据真实环境中评价函数选择最优轨迹序列.实验结果表明,所提方法能够处理连续输入状态,并生成连续控制的转角控制序列,减少横向跟踪误差;同时通过模型迁移能够提高模型的泛化性能,减小过度依赖问题. 相似文献

15.

Reinforcement learning based on movement primitives for contact tasks

《Robotics and Computer》2020

Recently, robot learning through deep reinforcement learning has incorporated various robot tasks through deep neural networks, without using specific control or recognition algorithms. However, this learning method is difficult to apply to the contact tasks of a robot, due to the exertion of excessive force from the random search process of reinforcement learning. Therefore, when applying reinforcement learning to contact tasks, solving the contact problem using an existing force controller is necessary. A neural-network-based movement primitive (NNMP) that generates a continuous trajectory which can be transmitted to the force controller and learned through a deep deterministic policy gradient (DDPG) algorithm is proposed for this study. In addition, an imitation learning algorithm suitable for NNMP is proposed such that the trajectories similar to the demonstration trajectory are stably generated. The performance of the proposed algorithms was verified using a square peg-in-hole assembly task with a tolerance of 0.1 mm. The results confirm that the complicated assembly trajectory can be learned stably through NNMP by the proposed imitation learning algorithm, and that the assembly trajectory is improved by learning the proposed NNMP through the DDPG algorithm. 相似文献