首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对移动机器人在局部可观测的非线性动态环境下,实现轨迹跟踪和动态避障时容易出错和不稳定的问题,提出了基于深度强化学习的视觉感知与决策方法.该方法以一种通用的形式将卷积神经网络的感知能力与强化学习的决策能力结合在一起,通过端对端的学习方式实现从环境的视觉感知输入到动作的直接输出控制,将系统环境感知与决策控制直接形成闭环,其中最优决策策略是通过最大化机器人与动力学环境交互的累计奖回报中学习获得.仿真实验结果证明,该方法可以满足多任务智能感知与决策要求,较好地解决了传统算法存在的容易陷入局部最优、在相近的障碍物群中震荡且不能识别路径、在狭窄通道中摆动以及障碍物附近目标不可达等问题,并且大大提高了机器人轨迹跟踪和动态避障的实时性和适应性.  相似文献   

2.
为了解决较大时空范围内的动态预测无法获得精确解的问题,采用支持较复杂工作流模式的群智计算方式,提出一种基于关系转移和增强学习的动态预测算法,解决时空数据中的优化问题。设计一个关系转移块,通过对时空数据进行特征提取来学习关系转移概率。建立一个预测增强学习块,随时间序列并行处理转移关系概率,根据特征偏好对时空数据进行优先排序,进而预测问题状态趋势。采用一种深度多步迭代策略优化方法,获得合理的解。从理论上详细地分析和讨论所提出算法的收敛性和收敛速率。在专利转移数据上的试验结果验证了该方法的优势,并证明通过应用关系转移块和预测增强学习块排序精度能得到明显地改善。  相似文献   

3.
为了提高数控加工中的机床效能和加工效率,探究深度强化学习在加工参数优化问题中的适用性,提出一种基于深度强化学习的数控铣削加工参数优化方法. 选取切削力合力和材料除去率作为效能和效率的优化目标,利用遗传算法优化反向传播神经网络(GA-BPNN)构建切削力合力和铣削参数的优化函数,并采用经验公式建立材料除去率的优化函数. 应用竞争网络架构(Dueling DQN)算法获得切削力合力和材料除去率多目标优化的Pareto前沿,并结合优劣解距离法和熵值法从Pareto前沿中选择决策解. 基于45钢的铣削试验,验证了Dueling DQN算法用于加工参数优化的有效性,相比经验选取加工参数,通过Dueling DQN优化得到的加工方案使切削力合力降低了8.29%,加工效率提高了4.95%,为加工参数的多目标优化方法和加工参数的选择提供了指导.  相似文献   

4.
Xie  ZongWu  Zhang  Qi  Jiang  ZaiNan  Liu  Hong 《中国科学:技术科学(英文版)》2020,63(8):1325-1334
Learning from demonstration(LfD) is an appealing method of helping robots learn new skills. Numerous papers have presented methods of LfD with good performance in robotics. However, complicated robot tasks that need to carefully regulate path planning strategies remain unanswered. Contact or non-contact constraints in specific robot tasks make the path planning problem more difficult, as the interaction between the robot and the environment is time-varying. In this paper, we focus on the path planning of complex robot tasks in the domain of LfD and give a novel perspective for classifying imitation learning and inverse reinforcement learning. This classification is based on constraints and obstacle avoidance. Finally, we summarize these methods and present promising directions for robot application and LfD theory.  相似文献   

5.
针对不同工况下轴承监测数据分布差异性导致的诊断精度下降问题,基于深度学习与迁移学习,提出一种多领域深度对抗迁移网络,用于变工况下轴承的智能诊断。将不同工况下的样本集视作属于不同的领域,在特征提取时利用深度残差网络将轴承源域的训练数据与目标域的测试数据映射到高维特征空间,提取监测数据高层抽象的特征表示;设计多领域对抗模块,以支持多故障模式的轴承样本在不同领域对抗模块上进行对抗迁移训练,保障源域与目标域数据在特征空间中的分布有效对齐;在利用源域数据训练故障分类器时引入标签平滑约束,增强故障识别的泛化能力,将源域故障诊断知识迁移到目标域数据的故障信息识别,实现变工况下的轴承智能诊断。利用变工况下的齿轮箱轴承故障数据集与电机轴承数据集对提出方法进行验证,结果表明:相比其他方法,提出的新方法考虑了轴承监测数据的多故障模式结构,更好地提取了领域不变特征,提升了变工况下轴承故障的识别精度。  相似文献   

6.
强化学习与深度学习结合的深度强化学习(Deep Reinforcement Learning,DRL)模型,目前被广泛应用于机器人控制领域。机器人强化学习需要在3D仿真环境中训练模型,然而在缺乏环境先验知识的情况下,在3D环境中进行试错学习会导致训练周期长、开发成本高的问题。因此提出一种贯通2D到3D的机器人强化学习训练模式,将计算量大、耗时多的工作部署到2D环境中,再把算法结果迁移到3D环境中进行测试。实验证明,这种训练模式能使基于个人电脑的机器人强化学习的开发效率提升5倍左右。  相似文献   

7.
针对受限通信条件下机器人群集协同控制问题,提出基于图卷积模仿学习的分布式群集控制策略. 该策略旨在实现群集内避障、速度一致性的基础上,提高群集鲁棒性,提升避免群集分裂的成功率. 提出基于熵评价的群集鲁棒性量化评价指标,建立节点和链路重要性的均衡分布与群集鲁棒性的联系. 提出重要度相关图卷积网络,用于实现受限通信条件下非欧氏数据的特征提取和加权聚合. 采用图卷积模仿学习方法,根据提升群集鲁棒性的要求设计集中式专家策略,通过对集中式专家策略的模仿,得到分布式群集协同控制策略. 设计仿真实验,证明所得的分布式策略基于受限通信条件实现了接近集中式的专家策略的控制效果.  相似文献   

8.
针对多任务下机器人模仿学习控制策略的获取问题,构建复合协方差函数,采用高斯过程回归方法对示教机器人的示教行为样本点建立高斯过程回归模型,并对其中的超参数进行优化,从而得出模仿学习控制策略,模仿机器人应用控制策略完成模仿任务。以Braitenberg车为仿真实验研究对象,对其趋光、避障多任务的模仿学习进行研究。仿真实验研究结果表明:与基于单一协方差函数的模仿学习算法相比,基于复合协方差函数的模仿学习算法不仅能够实现单任务环境下的机器人模仿学习,而且能够实现多任务环境下的机器人模仿学习,且精度更高。任务环境改变实验研究结果表明该方法有很好的适应性。  相似文献   

9.
为改善板料拉深制造的成品质量,采用深度强化学习的方法进行拉深过程的压边力优化控制. 提出一种基于深度强化学习与有限元仿真集成的压边力控制模型,结合深度神经网络的感知能力与强化学习的决策能力,进行压边力控制策略的学习优化. 基于深度强化学习的压边力优化算法,利用深度神经网络处理巨大的状态空间,避免了系统动力学的拟合,并且使用一种新的网络结构来构建策略网络,将压边力策略划分为全局与局部两部分,提高了压边力策略的控制效果. 将压边力的理论知识用于初始化回放经验池,提高了深度强化学习算法在压边力控制任务中的学习效率. 实验结果表明,与传统深度强化学习算法相比,所提出的压边力控制模型能够更有效地进行压边力控制策略优化,成品在内部应力、成品厚度以及材料利用率3个质量评价指标的综合表现优于传统深度强化学习算法. 将深度强化学习中的策略网络划分为线性部分与非线性部分,并结合理论压边力知识来初始化回放经验,能够提高深度强化学习在压边力优化控制中的控制效果,提高算法的学习效率.  相似文献   

10.
Robot path planning in dynamic environment based on reinforcement learning   总被引:4,自引:0,他引:4  
0 INTRODUCTIONOneofthemostimportantproblemsinmobilerobotcontrolispathplanning .Therearealreadysomemeth odsthatsolvepathplanningproblems ,suchasartificialpotentialmethodandgridmethod .Inthesemethods,itisnecessarytoestablishtheenvironment’smodelbeforeperfo…  相似文献   

11.
A dynamic cooperation model of multi-agent is established by combining reinforcement learning with distributed artificial intelligence(DAI),in which the concept of individual optimization loses its meaning because of the dependence of repayment on each agent itself and the choice of other agents.Utilizing the idea of DAI,the intellectual unit of each robot and the change of task and environment,each agent can make decisions independently and finish various complicated tasks by communication and reciprocation between each other.The method is superior to other reinforcement learning methods commonly used in the multi-agent system.It can improve the convergence velocity of reinforcement learning,decrease requirements of computer memory,and enhance the capability of computing and logical ratiocinating for agent.The result of a simulated robot soccer match proves that the proposed cooperative strategy is valid.  相似文献   

12.
Robots have important applications in industrial production, transportation, environmental monitoring and other fields, and multi-robot collaboration is a research hotspot in recent years. Multi-robot autonomous collaborative tasks are limited by communication, and there are problems such as poor resource allocation balance, slow response of the system to dynamic changes in the environment, and limited collaborative operation capabilities. The combination of 5G and beyond communication and edge computing can effectively reduce the transmission delay of task offloading and improve task processing efficiency. First, this paper designs a robot autonomous collaborative computing architecture based on 5G and beyond and mobile edge computing(MEC). Then, the robot cooperative computing optimization problem is studied according to the task characteristics of the robot swarm. Then, a reinforcement learning task offloading scheme based on Q-learning is further proposed, so that the overall energy consumption and delay of the robot cluster can be minimized. Finally, simulation experiments demonstrate that the method has significant performance advantages.  相似文献   

13.
针对机器人模仿学习控制策略获取的问题,基于高斯过程的方法,建立示教机器人示教行为的样本数据的高斯过程回归模型并加以训练,以求解示教机器人的感知和行为之间的映射关系,并将此映射关系作为模仿机器人的控制策略来实现对示教行为的模仿.以Braitenberg车为仿真对象,研究趋光模仿学习行为.仿真实验表明:基于高斯过程的机器人模仿学习算法具有有效性,模仿机器人在不同任务环境下具有很好的适应性.  相似文献   

14.
讨论了连续动作的强化学习系统实现及学习方法。首先介绍了连续动作的强化学习系统的组成原理,讨论了采用神经网络实现强化学习系统的方法,然后,介绍了强化学习机制在智能机器人避碰行为学习系统中的应用,并给出了系统的仿真结果。仿真结果表明机器人具有较好的避碰能力。  相似文献   

15.
基于煤-电双目标下回转窑工艺参数优化问题,提出了有模型强化学习的解决方法. 首先,以固定时间间隔为单位对历史工艺参数和运行目标进行数据处理与聚合. 其次,搭建概率神经网络建立回转窑控制参数与影响参数、运行目标值的关系模型,该模型被用作为后期强化学习框架中的奖励模型. 然后,利用基于模型的离线策略优化的强化学习算法构建控制参数推荐智能体,同时优化回转窑生产过程的煤电消耗. 最后,给出一个案例证明所提方法对回转窑工艺参数优化的适应性、高效性.  相似文献   

16.
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。  相似文献   

17.
图像自动标注是目前计算机视觉和自然语言处理交叉研究领域的一个研究热点。对图像自动标注领域中的深度学习方法进行综述;针对图像自动标注领域的国内外研究现状,按照基于多模态空间、基于多区域、基于编码-解码、基于强化学习和基于生成式对抗网络等五个分类标准进行详细综述;介绍图像自动标注领域相关的数据集和评价标准,对比不同图像自动标注方法的优缺点;通过分析图像自动标注领域的当前研究现状,提出该领域亟待解决的3个关键问题,进一步指出未来的研究方向,并对本研究进行总结。  相似文献   

18.
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好.  相似文献   

19.
0 INTRODUCTIONActually,moreandmoregamerobotsystemsareshownoutintheworld .Ofthem ,soccerrobotsystemsarethemostpopularones .Someworldassociationsofsoccerrobothavebeenorganized .Theircompetitionsareholdinmanycountrieseachyear.Soccerrobotsystem(SRS) (smallsize)i…  相似文献   

20.
为了提高水龙头等工件的抛光效率,提高抛光精度及质量,设计了新型多工位工作岛式抛光机器人.为使该机器人结构更加紧凑,在建立抛光机器人运动学和逆运动学方程基础上,分析了该机器人的灵活加工空间,提出采用多目标的粒子群法对抛光机器人的多个布局参数进行优化分析.该方法同时对抛光机器人的2个重要布局参数进行了优化,并应用粒子群法计算该机器人抛光不同大小工件时各自由度的最大关节空间.最后通过分析抛光机器人在不同工作平面上的灵活加工点验证了优化结果的正确性.实验结果表明,优化布局后的机器人完全能满足指定工件的抛光加工需求,并有较大的加工余量,获得了较好的实验抛光效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号