首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
王艺均  冯勇  刘明  刘念伯 《软件学报》2024,35(3):1485-1501
高效的移动充电调度是构建长生命期、可持续运行的无线可充电传感器网络(WRSN)的关键之一.现有基于强化学习的充电策略只考虑了移动充电调度问题的一个维度,即移动充电器(MC)的路径规划,而忽略了充电调度问题中的另一维度,即充电时长调整,因而仍然存在性能限制.提出一种基于深度强化学习的WRSN动态时空充电调度方法(SCSD),建立充电序列调度和充电时长动态调整的深度强化学习模型.针对移动充电调度中离散的充电序列规划和连续的充电时长调整问题,使用DQN为待充电节点优化充电序列,并基于DDPG计算并动态调整序列中待充电节点的充电时长.通过分别从空间和时间两个维度的优化,在避免节点缺电失效的同时,所提出的SCSD可实现充电性能的有效提高.大量仿真实验结果表明,SCSD与现有的几种有代表性的充电方案相比,其充电性能具有明显的优势.  相似文献   

2.
无人机反应式扰动流体路径规划   总被引:1,自引:1,他引:0  
针对复杂三维障碍环境,提出一种基于深度强化学习的无人机(Unmanned aerial vehicles, UAV)反应式扰动流体路径规划架构.该架构以一种受约束扰动流体动态系统算法作为路径规划的基本方法,根据无人机与各障碍的相对状态以及障碍物类型,通过经深度确定性策略梯度算法训练得到的动作网络在线生成对应障碍的反应系数和方向系数,继而可计算相应的总和扰动矩阵并以此修正无人机的飞行路径,实现反应式避障.此外,还研究了与所提路径规划方法相适配的深度强化学习训练环境规范性建模方法.仿真结果表明,在路径质量大致相同的情况下,该方法在实时性方面明显优于基于预测控制的在线路径规划方法.  相似文献   

3.
为提高无人机在观光农业混合型无线传感器网络中的数据采集效率,提出一种基于深度强化学习的无人机路径规划策略。基于社会力模型引入人流参量,结合Semi-Markov-Option分层强化学习方法以降低模型复杂度,基于Rainbow算法提出SMO-Rainbow(Semi-Markov-Option-Rainbow)路径规划策略。在ε-greedy探索策略中引入Tanh函数,提出AT-ε-greedy(adaptive-Tanh-greedy)策略,进一步平衡深度强化学习模型训练中的探索与利用阶段。实验结果表明,在观光农业场景中,所提路径规划策略与其它深度强化学习无人机路径规划策略相比,数据采集效率与训练稳定性均更优,有效降低了模型训练难度。  相似文献   

4.
无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正纠偏COACH(corrective advice communicated humans)方法的深度强化学习比例积分微分(proportional-integral-derivative, PID)方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏COACH方法的深度强化学习PID方法优于传统控制方法,且能稳定完成在移动平台上的降落任务。  相似文献   

5.
考虑无人机群体行为决策与状态变化的内在驱动,从信息处理角度提出基于决策知识学习的多无人机航迹协同规划方法.首先,基于马尔科夫决策过程对无人机的行为状态进行知识表示,形成关于连续动作空间的决策知识;然后,提出基于知识决策学习的深度确定性策略梯度算法,实现无人机在决策知识层次上的协同规划.实验结果表明:在研发设计演示系统的基础上,所提方法通过强化学习能够得到一个最优航迹规划策略,同时使航迹综合评价和平均奖励收敛稳定,为无人机任务执行提供了决策支持.  相似文献   

6.
无线传感器网络应用越来越广泛,为了解决传感器节点的能量问题,将无线充电技术应用到传感器网络中.使用无人机为传感器节点进行无线充电,但是无人机的电池容量有限,合理的规划能够让无人机以最小的充电代价获得最大的网络效用.以最小化无人机能耗为优化目标,对无人机能量消耗进行分析,将优化目标简化成最小化路径距离,并使用遗传算法对无...  相似文献   

7.
【目的】东数西算场景下的数据流通策略需要综合考虑能耗、成本、时延等各类系统优化目标,本文采用深度强化学习算法实现高效的数据分级和流转策略。【方法】首先对东数西算场景下的数据要素流通系统架构和关键业务逻辑进行分析,并基于数据分类分级、数据传输、数据服务等关键流程的控制因素,融合多类业务优化目标,构建系统优化的通用数学模型,最后通过深度强化学习实现问题求解和策略优化。【结果】通过系统仿真,与多种基线算法进行对比,验证了本文方法在收敛性、系统长期收益、目标均衡等方面的优势。【局限】本文中方法对相关系统进行了合理的简化建模,在生产中需要基于现有方法,结合实际系统进行策略分析和回报函数定义,以进一步提升方法的推广能力和应用效果。【结论】东数西算等复杂场景下,综合考虑多种业务优化目标,并通过深度强化学习等算法对数据流通策略进行优化,能够在保障服务质量的基础上,有效提升系统自身性能。  相似文献   

8.
为了提高覆盖路径规划任务的性能,提出了一种基于深度强化学习的多尺度地图无人机覆盖路径规划方法。首先对地图进行中心化和不同尺寸映射的处理,其次加入了Luong注意力机制,最后设计不同权重的奖励函数。实验表明改进后的无人机覆盖路径规划方法可以提高无人机对目标区域的覆盖范围以及成功着陆率。  相似文献   

9.
多无人机分布式协同异构任务分配   总被引:4,自引:1,他引:3  
研究异构无人机对不同类型目标执行侦察、打击和评估任务的协同任务分配问题.采用信息论中熵的变化量对侦察与评估任务中所获取的信息量进行度量,将无人机对不同类型目标的打击能力抽象为对目标的毁伤概率,并考虑各个任务之间的相互关联,建立异构多无人机协同任务分配模型.设计了基于相邻局部通信的分布式拍卖算法,实现了多无人机协同任务分配问题的优化求解.仿真结果表明了所建模型的合理性和求解方法的有效性.  相似文献   

10.
感知任务的合理分配是影响无人机目标区域覆盖的重要因素,针对任务需求差异并考虑无人机局部观测性和环境不确定性,提出一种面向目标区域协同覆盖的感知任务分配方法.将目标区域进行差异划分,构建基于分布式马尔可夫覆盖模型的任务分配控制框架;利用目标线路集和任务扩散调度序列集对目标区域进行差异化计算,并提出基于强化学习的任务差异化分配方法,实现动态目标区域的最优覆盖策略.仿真实验结果表明:在满足航向速率和空速的条件下,任意两台无人机之间可以合理地扩散调度任务,同时通过差异化学习方法使覆盖线路代价和目标函数适应值收敛稳定且覆盖率达到90%以上,实现对任务分配的有效控制.  相似文献   

11.
本文主要研究了在室内场景中使用多台无人机设备对受害者进行合作搜索的问题.在室内场景中,依赖全球定位系统获取受害者位置信息可能是不可靠的.为此,本文提出一种基于多智能体强化学习(MARL)方案,该方案着重对无人机团队辅助救援时的路径规划问题进行研究.相比于传统方案,所提方案在大型室内救援场景中更具优势,例如部署多台救援无...  相似文献   

12.
为了解决无人机轨迹优化、用户功率分配和任务卸载策略问题,提出了一种双层深度强化学习任务卸载算法。上层采用多智能体深度强化学习来优化无人机的轨迹,并动态分配用户的传输功率以提高网络传输速率;下层采用多个并行的深度神经网络来求解最优卸载决策以最小化网络的时延和能耗。仿真结果表明,该算法使得无人机能够跟踪用户的移动,显著降低系统的时延和能耗,能够给用户提供更优质的任务卸载服务。  相似文献   

13.
With the developing demands of massive-data services, the applications that rely on big geographic data play crucial roles in academic and industrial communities. Unmanned aerial vehicles (UAVs), combining with terrestrial wireless sensor networks (WSN), can provide sustainable solutions for data harvesting. The rising demands for efficient data collection in a larger open area have been posed in the literature, which requires efficient UAV trajectory planning with lower energy consumption methods. Currently, there are amounts of inextricable solutions of UAV planning for a larger open area, and one of the most practical techniques in previous studies is deep reinforcement learning (DRL). However, the overestimated problem in limited-experience DRL quickly throws the UAV path planning process into a locally optimized condition. Moreover, using the central nodes of the sub-WSNs as the sink nodes or navigation points for UAVs to visit may lead to extra collection costs. This paper develops a data-driven DRL-based game framework with two partners to fulfill the above demands. A cluster head processor (CHP) is employed to determine the sink nodes, and a navigation order processor (NOP) is established to plan the path. CHP and NOP receive information from each other and provide optimized solutions after the Nash equilibrium. The numerical results show that the proposed game framework could offer UAVs low-cost data collection trajectories, which can save at least 17.58% of energy consumption compared with the baseline methods.  相似文献   

14.
搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是, SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设计SAR的局部搜索和全局搜索操作,并增加路径调整操作,采用异步优势演员评论家算法(A3C)训练强化学习模型使得SAR个体获得自适应选择算子的能力.所有智能体在威胁区数量、位置和大小均随机生成的动态环境中训练,进而从每个动作的贡献、不同威胁区下规划出的路径长度和每个个体的执行操作序列3个方面对训练好的模型进行探索性实验.实验结果表明, RLSAR比标准SAR、差分进化算法、松鼠搜索算法具有更高的收敛速度,能够在随机生成的三维动态环境中成功地为无人机规划出更加经济且安全有效的可行路径,表明所提出算法可作为一种有效的无人机路径规划方法.  相似文献   

15.
针对城市环境中多约束条件下多无人机协同追踪地面目标问题,综合考虑具有不同重要性等级的多个优化目标,提出了一种基于分布式预测控制的模糊多目标航迹规划方法.首先,考虑城市环境中建筑物对无人机视线遮挡、无人机和传感器能量消耗等因素,分别采用目标覆盖度、控制输入代价和开关量形式传感器能耗等为目标函数,将多无人机协同追踪航迹规划转化为多目标优化问题;然后,基于分布式预测控制框架,利用每架无人机未来有限时域内的预测状态,构建多无人机之间的避碰约束,并结合最小转弯半径等约束,形成分布式协同航迹规划模型;最后,针对多个优化目标的不同重要性等级要求,利用模糊满意优化思想将目标模糊化,并根据更重要目标具有更重要满意度的原则,将优先等级表示为松弛满意度序,通过在线求解得到有限时域内每架无人机的局部航迹;与传统多目标加权算法仿真结果对比,验证了所提方法的有效性,充分说明了该方法能够获得同时满足目标优化和重要性等级要求的最优航迹.  相似文献   

16.
无人机因其成本低、操控性强等优势,在电网线路与电塔的巡检任务中取得了广泛的应用。在大范围电网巡检任务中,单台无人机由于其续航半径有限,需要多架无人机协作完成巡检任务。传统任务规划方法存在计算速度慢、协作效果不突出等问题。针对以上问题,本文提出一种基于多智能体强化学习值混合网络(QMIX)的任务规划算法,采用集中训练、分散执行的框架,为每架无人机建立循环神经网络,并通过混合网络得到联合动作值函数指导训练。该算法通过设计任务奖赏函数以激发多智能体的协作能力,有效解决多无人机任务规划协作效率低的问题。仿真实验结果表明所提算法的任务时间相比于常用的值分解网络(VDN)算法减少了350.4 s。  相似文献   

17.
在无线可充电传感网的研究中面临诸多挑战,如无线功率传输中易衰弱、充电规划复杂度高、内存数据易溢出导致丢包。为此,引入智能反射面(IRS)并基于强化学习设计一种无线传感网能量传输和数据收集方案IRS_MDP。首先,该方案建立反射相位偏移优化问题,计算出以任一传感器节点为充电目标节点时IRS的最优相移值,实现最大化目标节点处所接收的功率。其次,根据上述结果并结合传感器实时状态,基于强化学习设计关于充电和数据传输过程的优化充电策略实现丢包率降低。仿真结果表明,该方案相较其他方案可以更好地提升网络吞吐量和降低数据丢包率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号