首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 126 毫秒
1.
在多约束复杂环境下,多数无人飞行器(UAV)航迹规划方法无法从历史经验中获得先验知识,导致对多变的环境适应性较差。提出一种基于深度强化学习的航迹规划策略自学习方法,利用飞行约束条件设计UAV的状态及动作模式,从搜索宽度和深度2个方面降低航迹规划搜索规模,基于航迹优化目标设计奖惩函数,利用由卷积神经网络引导的蒙特卡洛树搜索(MCTS)算法学习得到航迹规划策略。仿真结果表明,该方法自学习得到的航迹规划策略具有泛化能力,相对未迭代训练的网络,该策略仅需17%的NN-MCTS仿真次数就可引导UAV在未知飞行环境中满足约束条件并安全无碰撞地到达目的地。  相似文献   

2.
目标搜索是多无人机协同控制的重要研究内容。多架UAV(Unmanned Aeiral Vehicle)同时对一个未知区域进行搜索,目的在于获取搜索区域的信息,尽可能多地发现目标。针对不确定目标的搜索问题,研究多无人机协同搜索控制的新方法。建立多UAV运动模型,用目标存在概率对搜索环境进行描述,给出基于Bayesian准则的搜索环境更新方法,考虑了环境探测回报、目标发现回报和无人机协同回报,采用MPC实现对多目标优化问题的迭代求解。通过仿真实验和对比分析,证明了该方法具有更好的搜索性能。  相似文献   

3.
针对未知环境中多无人机协同搜索的信息融合问题进行研究,建立了环境模型及无人机搜索模型,在此基础上,提出基于D-S证据理论的无人机协同搜索信息融合方法。在协同搜索中运用该方法不仅能够快速发现目标,并能有效识别不同性质的目标。将该方法与传统的贝叶斯融合方法分别应用于多无人机协同搜索决策中,通过比较仿真结果验证了D-S信息融合方法的有效性及优越性。  相似文献   

4.
基于集散式模型预测控制的多无人机协同分区搜索   总被引:1,自引:0,他引:1  
针对多无人机在对大范围目标区域执行协同搜索任务时搜索资源分配不均、容易因频繁转场造成资源浪费等问题,借鉴集中式控制和分布式控制结构的优点,建立了集散式多无人机(unmanned aerial vehicle,UAV)协同搜索结构体系,通过聚类分析和V图划分等方法对目标区域进行分区,结合各子区域任务特点对无人机群进行搜索任务分配,并采用一种经改进后可有效增大UAV预测范围的预测控制模型,研究了动态环境下多UAV集散式协同分区搜索问题,最后,将所提方法与常见几种协同搜索方法进行对比仿真,获取仿真结果验证了所提方法在目标发现概率和搜索效率方面的有效性和优越性.  相似文献   

5.
林谦  余超  伍夏威  董银昭  徐昕  张强  郭宪 《软件学报》2024,35(2):711-738
近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程中.通过在虚拟仿真环境中以较低成本获取大量训练样本进行策略训练,并将学习策略迁移至真实环境,能有效缓解真实机器人训练中存在的安全性、可靠性以及实时性等问题.然而,由于仿真环境与真实环境存在差异,仿真环境中训练得到的策略直接迁移到真实机器人往往难以获得理想的性能表现.针对这一问题,虚实迁移强化学习方法被提出用以缩小环境差异,进而实现有效的策略迁移.按照迁移强化学习过程中信息的流动方向和智能化方法作用的不同对象,提出一个虚实迁移强化学习系统的流程框架,并基于此框架将现有相关工作分为3大类:基于真实环境的模型优化方法、基于仿真环境的知识迁移方法、基于虚实环境的策略迭代提升方法,并对每一分类中的代表技术与关联工作进行阐述.最后,讨论虚实迁移强化学习研究领域面临的机遇和挑战.  相似文献   

6.
阳杰  张凯 《微处理机》2021,(1):47-51
未知连续环境状态下的Q学习路径规划算法在执行对环境的试错时收敛速度慢,容易陷入局部,不利于对真实未知环境的探索,为解决此问题,针对Q学习路径规划问题提出一种基于Metropolis准则的区域扩张策略的势场强化学习算法。算法为环境提供势场先验知识初始化状态信息,消除初始时刻的盲目性,提高学习效率,同时引入基于Metropolis准则的区域扩张陷阱区域剔除探索,剔除陷阱障碍物环境的凹形区域。通过MATLAB对多种环境的仿真实验,验证了算法有效性。  相似文献   

7.
随着物联网的普及,对物联网终端设备可使用能量的要求也在提高.能量收集技术拥有广阔前景,其能通过产生可再生能量来解决设备能量短缺问题.考虑到未知环境中可再生能量的不确定性,物联网终端设备需要合理有效的能量分配策略来保证系统持续稳定工作.文中提出了一种基于DQN的深度强化学习能量分配策略,该策略通过DQN算法直接与未知环境交互来逼近目标最优能量分配策略,而不依赖于环境的先验知识.在此基础上,还基于强化学习的特点和系统的非时变系统特征,提出了一种预训练算法来优化该策略的初始化状态和学习速率.在不同的信道数据条件下进行仿真对比实验,结果显示提出的能量分配策略在不同信道条件下均有好于现有策略的性能,且兼具很强的变场景学习能力.  相似文献   

8.
自主导航是移动机器人的一项关键技术。该文采用强化学习结合模糊逻辑的方法实现了未知环境下自主式移动机机器人的导航控制。文中首先介绍了强化学习原理,然后设计了一种未知环境下机器人导航框架。该框架由避碰模块、寻找目标模块和行为选择模块组成。针对该框架,提出了一种基于强化学习和模糊逻辑的学习、规划算法:在对避碰和寻找目标行为进行独立学习后,利用超声波传感器得到的环境信息进行行为选择,使机器人在成功避碰的同时到达目标点。最后通过大量的仿真实验,证明了算法的有效性。  相似文献   

9.
使用强化学习解决机器人操作问题有着诸多优势,然而传统的强化学习算法面临着奖励稀疏的困难,且得到的策略难以直接应用到现实环境中。为了提高策略从仿真到现实迁移的成功率,提出了基于目标的域随机化方法:使用基于目标的强化学习算法对模型进行训练,可以有效地应对机器人操作任务奖励稀疏的情况,得到的策略可以在仿真环境下良好运行,与此同时在算法中还使用了目标驱动的域随机化方法,在提高策略泛用性以及克服仿真和现实环境之间的差距上有着良好的效果,仿真环境下的策略容易迁移到现实环境中并成功执行。结果表明,使用了基于目标的域随机化方法的强化学习算法有助于提高策略从仿真到现实迁移的成功率。  相似文献   

10.
随着室内导航定位技术的兴起,无人机(Unmanned Aerial Vehicle,UAV)技术在室内环境中的应用得到前所未有的发展,对无人机航迹规划能力提出了更高的要求。由于室内环境空间较为复杂,且现有的强化学习算法收敛速度慢,提出一种基于强化学习的集成方法。通过给定的起点和终点位置的坐标连线,判断出主要障碍物及围绕主要障碍物的节点,减少无用节点的搜索;在Q值初始化过程中通过数学关系构造出方向趋向函数,确定出目标点所在的方向,以提高算法的收敛速度;在三维栅格地图中对优化算法进行仿真验证。仿真结果表明:改进的三维航迹规划算法使得空间搜索节点数目减少了55.49%,收敛时间缩短了98.57%。  相似文献   

11.
近年来, 无人机在物流、通信、军事任务、灾害救援等领域中展现出了巨大的应用潜力, 然而无人机的续航 能力是制约其使用的重大因素, 在无线充电技术不断突破和发展的背景下, 本文基于深度强化学习方法, 提出了一 种考虑无线充电的无人机路径在线优化方法, 通过无线充电技术提高无人机的任务能力. 首先, 对无人机功耗模型 和无线充电模型进行了构建, 根据无人机的荷电状态约束, 设计了一种基于动态上下文向量的深度神经网络模型, 通过编码器和解码器的模型架构, 实现无人机路径的直接构造, 通过深度强化学习方法对模型进行离线训练, 从而 应用于考虑无线充电的无人机任务路径在线优化. 文本通过与传统优化方法和深度强化学习方法进行实验对比, 所提方法在CPU算力和GPU算力下分别实现了4倍以及100倍以上求解速度的提升.  相似文献   

12.
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。  相似文献   

13.
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法。围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型参数的更新机制,训练网络模型,实现无人机航迹决策控制。仿真结果表明,所提算法整体训练时长仅为原型算法单次平均训练时长的1.98倍,大幅度提升网络训练效率,降低时间成本,且在满足飞行实时性情况下,符合无人机航迹质量需求,为推动深度强化学习在航迹规划的实际应用提供新思路。  相似文献   

14.
This paper introduces a method of learning search control knowledge in schedule optimization problems through application of reinforcement learning. Reinforcement learning is an effective approach for the problem faced by the agent that learns its behavior through trial-and-error interactions with a dynamic environment. Nevertheless, reinforcement learning has a difficulty of slow convergence when applied to the problems with a large state space. The paper discusses the case-based function approximation technique, which makes reinforcement learning applicable to the large scale problems such as a job-shop scheduling problem. To show effectiveness of the approach, reinforcement learning is applied to acquire search control knowledge in repair-based schedule optimization process. Preliminary experiment results show that repair-action selection made by learned search control knowledge succeeded in improving scheduling quality efficiently.  相似文献   

15.
针对传统第二代非支配排序遗传算法(NSGA-II)求解无人机多目标三维航迹规划早熟收敛及多样性不足的局限性,提出了支持强化学习RNSGA-II算法。设置两个独立种群分别用NSGA-II算法独立演化,隔代在两种族之间迁徙,接着各种群进行寻优进化,根据种群多样性的变化运用强化学习算法动态地优化各种群间“迁徙”的比例参数,从而使进化过程保持种群多样性,一定程度上解决了收敛速度和全局收敛性之间的矛盾。仿真结果表明,RNSGA-II算法较单一NSGA-II收敛精度更高,解集具有更好的分布性和多样性。  相似文献   

16.
无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正纠偏COACH(corrective advice communicated humans)方法的深度强化学习比例积分微分(proportional-integral-derivative, PID)方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏COACH方法的深度强化学习PID方法优于传统控制方法,且能稳定完成在移动平台上的降落任务。  相似文献   

17.
针对室内无人机随机目标搜索效率不高、准确率低等问题,提出了一种基于空间位置标注的好奇心驱动的深度强化学习方法。用正六边形对探索空间进行区域划分,并标记无人机在各区域的访问次数,将其作为好奇心,产生内部奖励,以鼓励无人机不断探索新领域,有效避免其陷入到局部区域;训练时采用近端策略优化算法(PPO)优化神经网络参数,该算法能使无人机更快找到最优搜索策略,较好躲避障碍物,有效缩短训练周期,提升搜索效率和准确率。  相似文献   

18.
激励学习已被证明是在控制领域中一种可行的新方法。相比其他的方法,它能较好地处理未知环境问题,但它仍然不是一种有效的方法。幸运的是,在现实世界中,智能体总是会有一些环境的先验知识,这些能形成启发式信息。启发式搜索是一种常用的搜索方法,有很快的搜索速度,但需要精确的启发式信息,这在有些时候难以得到。文中分析比较了启发式搜索和激励学习的各自特点,提出一类新的基于启发式搜索的激励学习算法,初步的实验结果显示了较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号