基于PPO算法的无人机近距空战自主引导方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于PPO算法的无人机近距空战自主引导方法

引用本文：	邱妍,赵宝奇,邹杰,刘仲凯.基于PPO算法的无人机近距空战自主引导方法[J].电光与控制,2023(1):8-14.

作者姓名：	邱妍赵宝奇邹杰刘仲凯

作者单位：	1. 光电控制技术重点实验室;2. 中国航空工业集团公司洛阳电光设备研究所

基金项目：	航空科学基金(2020Z015013001)；

摘要：	针对无人机近距空战的自主决策问题，提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励，建立了无人机三自由度模型，在速度坐标系上构建强化学习的状态和动作，分别对结合了全连接神经网络的PPO算法(标准PPO算法)和长短时记忆网络的PPO算法(改进PPO算法)模型进行了仿真训练。根据训练的结果可以证明，相比于标准PPO算法，所提的改进PPO算法能够更有效地处理与时间序列高度相关的无人机自主引导任务。
关键词：	近距空战近端策略优化自主引导长短时记忆网络