首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于深度强化学习的多机协同空战方法研究   总被引:1,自引:0,他引:1  
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision...  相似文献   

2.
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。  相似文献   

3.
由于对抗双方态势的快速变化,无人机近距空战机动自主决策困难且复杂,是空中对抗的一个难点。对此,提出一种基于有限忍耐度鸽群优化(FTPIO)算法的无人机近距空战机动决策方法。该方法主要包括基于机动动作库的对手行动预测和基于FTPIO算法的机动控制量和执行时间优化求解两个部分。为提升基本鸽群优化(PIO)算法的全局探索能力,引入有限忍耐度策略,在鸽子个体几次迭代中没有找到更优解时对其属性进行一次重置,避免陷入局部最优陷阱。该方法采用的优化变量是无人机运动模型控制变量的增量,打破了机动库的限制。通过和极小极大方法、基本PIO算法和粒子群优化(PSO)算法的仿真对抗测试结果表明,所提出的机动决策方法能够在近距空战中有效击败对手,产生更为灵活的欺骗性机动行为。  相似文献   

4.
为实现复杂任务环境中多无人机的自主飞行, 本文采用改进的强化学习算法,设计了一种具有避碰避障功能的多无人机智能航迹规划策略。通过改进搜索策略、引入具有近似功能的神经网络函数、构造合理的立即回报函数等方法,提高算法运算的灵活性、降低无人机运算负担, 使得多无人机能够考虑复杂任务环境中风速等随机因素以及静态和动态威胁的影响, 自主规划出从初始位置到指定目标点的安全可行航迹。为了探索所提算法在实际飞行过程的可行性, 本文以四旋翼无人机为实验对象, 在基于ROS的仿真环境中验证了算法的可行性与有效性。  相似文献   

5.
移动边缘计算(mobile edge computing, MEC)已逐渐成为有效缓解数据过载问题的手段, 而在高人流密集的场景中, 固定在基站上的边缘服务器可能会因网络过载而无法提供有效的服务. 考虑到时延敏感型的通信需求, 双层无人机(unmanned aerial vehicle, UAV)的高机动性和易部署性成为任务计算卸载的理想选择, 其中配备计算资源的顶层无人机(top-UAV, T-UAV)可以为抓拍现场画面的底层UAV (bottom-UAV, B-UAV)提供卸载服务. B-UAV搭载拍摄装置, 可以选择本地计算或将部分任务卸载给T-UAV进行计算. 文中构建了双层UAV辅助的MEC系统模型, 并提出了一种DDPG-CPER (deep deterministic policy gradient offloading algorithm based on composite prioritized experience replay)新型计算卸载算法. 该算法综合考虑了决策变量的连续性以及在T-UAV资源调度和机动性等约束条件下优化了任务执行时延, 提高了处理效率和响应速度, 以保证现场观众对比赛的实时观看体验. 仿真实验结果表明, 所提算法表现出了比DDPG等基线算法更快的收敛速度, 能够显著降低处理延迟.  相似文献   

6.
隋丽蓉  高曙  何伟 《控制与决策》2023,38(5):1395-1402
船舶避碰是智能航行中首要解决的问题,多船会遇局面下,只有相互协作,共同规划避碰策略,才能有效降低碰撞风险.为使船舶智能避碰策略具有协同性、安全性和实用性,提出一种基于多智能体深度强化学习的船舶协同避碰决策方法.首先,研究船舶会遇局面辨识方法,设计满足《国际海上避碰规则》的多船避碰策略.其次,研究多船舶智能体合作方式,构建多船舶智能体协同避碰决策模型:利用注意力推理方法提取有助于避碰决策的关键数据;设计记忆驱动的经验学习方法,有效积累交互经验;引入噪音网络和多头注意力机制,增强船舶智能体决策探索能力.最后,分别在实验地图与真实海图上,对多船会遇场景进行仿真实验.结果表明,在协同性和安全性方面,相较于多个对比方法,所提出的避碰策略均能获得具有竞争力的结果,且满足实用性要求,从而为提高船舶智能航行水平和保障航行安全提供一种新的解决方案.  相似文献   

7.
8.
印元军 《现代计算机》2023,(19):22-25+47
无人机多目标检测技术广泛应用于交通、航空等重要领域,发展前景广阔,市场需求空间巨大。传统的目标检测算法已无法满足无人机进行多目标检测过程中可能遇到的目标数量多、目标种类多、拍摄目标小等需求,因此提升无人机多目标检测能力成为了急需解决的难题,也是重要的研究方向。针对无人机对目标检测实时性要求较高,同时考虑到提高多目标和小目标的检测精度以及推理速度,选用YOLO目标检测算法为模型,分析YOLO系列算法的优缺点,并对各算法进行总结归纳。  相似文献   

9.
为了解决无人机轨迹优化、用户功率分配和任务卸载策略问题,提出了一种双层深度强化学习任务卸载算法。上层采用多智能体深度强化学习来优化无人机的轨迹,并动态分配用户的传输功率以提高网络传输速率;下层采用多个并行的深度神经网络来求解最优卸载决策以最小化网络的时延和能耗。仿真结果表明,该算法使得无人机能够跟踪用户的移动,显著降低系统的时延和能耗,能够给用户提供更优质的任务卸载服务。  相似文献   

10.
随着人工智能研究的进一步加深,以及在俄乌战场上相关技术的大放异彩,其在军事领域扮演的角色越来越重要。针对于日益复杂的战场环境,当前的导弹突防领域存在着信息维度高、指挥反应缓慢、突防机动战术不够灵活等问题。提出了一种基于多智能体深度确定性策略梯度(MADDPG)的训练方法,用以快速制定导弹攻击机动方案,协助军事指挥官进行战场决策。同时改进算法的经验回放策略,添加经验池筛选机制缩短训练的时长,达到现实场景中的快速反应需求。通过设置多目标快速拦截策略,仿真验证了所设计的方法能够突防的机动策略优势,通过协作智能地对目标进行突防打击,并通过比较,验证了本方法相较其他算法可以提升8%的收敛速度以及10%的成功率。  相似文献   

11.
金明  李琳琳  张文瑾  刘文 《计算机应用研究》2020,37(11):3456-3460,3466
针对服务功能链映射对网络时延和部署失败率的影响,提出了一种基于深度强化学习的服务功能链映射算法DQN-SFC。首先构建了一个多层次NFV管理编排架构,以满足算法对资源感知和设备配置的需求;然后基于马尔可夫决策过程建模,对SFC映射问题进行形式化描述;最后构建了一个深度强化学习网络,将网络平均时延和部署失败产生的运维开销作为奖惩反馈,经过训练后可根据网络状态决定虚拟网络功能的部署位置。通过仿真实验,对该算法的正确性和性能优势进行了验证。实验表明:与传统算法相比,该算法能有效降低网络平均时延和部署失败率,同时算法运行时间具有一定优势。  相似文献   

12.
目前对于随机工期的分布式资源受限多项目调度问题(SDRCMPSP)的研究较少且大多数为静态调度方案,无法针对环境的变化实时地对策略进行调整优化,及时响应频繁发生的动态因素。为此建立了最小化总拖期成本为目标的随机资源受限多项目动态调度DRL模型,设计了相应的智能体交互环境,采用强化学习中的DDDQN算法对模型进行求解。实验首先对算法的超参数进行灵敏度分析,其次将最优组合在活动工期可变和到达时间不确定两种不同条件下对模型进行训练及测试,结果表明深度强化学习算法能够得到优于任意单一规则的调度结果,有效减少随机资源受限多项目期望总拖期成本,多项目调度决策优化提供良好的依据。  相似文献   

13.
赵宇晴  向阳 《计算机应用》2017,37(10):2813-2818
面向对话生成问题,提出一种构建对话生成模型的方法--基于分层编码的深度增强学习对话模型(EHRED),用以解决当前标准序列到序列(seq2seq)结构采用最大似然函数作为目标函数所带来的易生成通用回答的问题。该方法结合了分层编码和增强学习技术,利用分层编码来对多轮对话进行建模,在标准seq2seq的基础上新增了中间层来加强对历史对话语句的记忆,而后采用了语言模型来构建奖励函数,进而用增强学习中的策略梯度方法代替原有的最大似然损失函数进行训练。实验结果表明EHRED能生成语义信息更丰富的回答,在标准的人工测评中,其效果优于当前广泛采用的标准seq2seq循环神经网络(RNN)模型5.7~11.1个百分点。  相似文献   

14.
面对当前电力系统的负荷不确定、新能源并网与双碳目标等现状,在充分考虑供需双方福利前提下,建立了智能电网背景下考虑负荷不确定与碳交易的实时定价模型,并基于强化学习能够处理变量复杂性、非凸非线性问题优点,采用强化学习中Q学习算法对模型进行迭代求解。首先,将用户与供电商实时交互过程转换为强化学习框架对应的马尔可夫决策过程;其次,通过智能体在动态环境中的反复探索表示用户与供电商的信息交互;最后,通过强化学习中的Q学习算法寻找最优值即最大社会福利值。仿真结果表明,所提实时定价策略能够有效提升社会福利,降低碳排放总量,这验证了所提模型和算法的有效性。  相似文献   

15.
增强学习可以帮助协商Agent选择最优行动实现其最终目标。对基于增强学习的协商策略进行优化,在协商过程中充分利用对手的历史信息,加快协商解的收敛和提高协商解的质量。最后通过实验验证了算法的有效性和可用性。  相似文献   

16.
针对对抗环境下的海上舰船防空反导导弹目标分配问题, 本文提出了一种融合注意力机制的深度强化学习算法. 首先, 构建了舰船多类型导弹目标分配模型, 并结合目标多波次拦截特点将问题建模为马尔可夫决策过程.接着, 基于编码器–解码器框架搭建强化学习策略网络, 融合多头注意力机制对目标进行编码, 并在解码中结合整体目标和单个目标编码信息实现舰船可靠的导弹目标分配. 最后, 对导弹目标分配收益、分配时效以及策略网络训练过程进行了仿真实验. 实验结果表明, 本文方法能生成高收益的导弹目标分配方案, 相较于对比算法的大规模决策计算速度提高10%~94%, 同时其策略网络能够快速稳定收敛.  相似文献   

17.
朱国晖  李庆  梁申麟 《计算机应用研究》2021,38(6):1834-1837,1842
在域内部分信息隔离场景下,针对SFC映射对传输时延和资源开销的影响,提出一种基于深度强化学习的服务功能链跨域映射算法.首先提出一个集中式编排架构,在此架构下上层控制器利用全网格聚合技术来构建抽象拓扑,降低域间映射复杂度;其次将SFC请求分割问题建模为马尔可夫决策过程,使得虚拟网络功能均衡地分配到各个域中;最后以域间传输时延以及映射资源开销为奖励函数构建深度强化学习网络,通过训练完成域间映射,如果域内映射失败则采用反馈机制提高SFC请求接受率.仿真结果表明,该算法有效地减小了传输时延和资源开销,同时提高了请求接受率.  相似文献   

18.
机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。  相似文献   

19.
王竣禾      姜勇   《智能系统学报》2023,18(1):2-11
针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模型输出的动作为笛卡尔空间位移,使用逆运动学调整机器人到达期望位置。与此同时,提出一种对带有资格迹的时序差分算法改进的神经网络参数更新方法,可缩短模型训练时间。在实验部分,首先在圆孔–轴的简单环境中进行预训练,随后在真实场景下继续训练。实验证明提出的方法可以很好地适应动态装配任务中柔性、动态的装配环境。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号