基于PPO算法的无人机近距空战自主引导方法 |
| |
引用本文: | 邱妍,赵宝奇,邹杰,刘仲凯.基于PPO算法的无人机近距空战自主引导方法[J].电光与控制,2023(1):8-14. |
| |
作者姓名: | 邱妍 赵宝奇 邹杰 刘仲凯 |
| |
作者单位: | 1. 光电控制技术重点实验室;2. 中国航空工业集团公司洛阳电光设备研究所 |
| |
基金项目: | 航空科学基金(2020Z015013001); |
| |
摘 要: | 针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合了全连接神经网络的PPO算法(标准PPO算法)和长短时记忆网络的PPO算法(改进PPO算法)模型进行了仿真训练。根据训练的结果可以证明,相比于标准PPO算法,所提的改进PPO算法能够更有效地处理与时间序列高度相关的无人机自主引导任务。
|
关 键 词: | 近距空战 近端策略优化 自主引导 长短时记忆网络 |
|
|