首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
于博文  吕明 《控制与决策》2022,37(3):605-615
陆战场防御作战场景中的多阶段武器协同火力分配问题是典型的约束组合优化问题,其目的是生成合理有效的火力分配方案.为了更接近实际作战情况,引入双方对抗过程,建立包含敌方作战单元战场剩余价值、作战资源消耗、作战单元战场价值损失的武器火力分配模型.针对多阶段武器协同火力分配问题,在非支配排序遗传算法III(non-domina...  相似文献   

2.
针对有人/无人战斗机协同空战中的火力分配问题,建立了以目标总存活概率最小和武器消耗数量最少的火力分配多目标优化模型,并提出一种改进的多目标蛙跳算法用于求解问题的Pareto最优解集.该改进算法充分利用混洗蛙跳算法收敛速度快、收敛精度高的算法优势进行全局寻优,利用自适应网格法对非劣解进行维护和更新,并在青蛙种群的全局进化过程中引入Tent混沌变异以避免算法早熟收敛.为便于从求解得到的Pareto最优解集中选择出最优火力分配方案,提出了一种最优火力分配方案的自主选择规则.最后通过仿真实验验证了所提方法的可行性和有效性.实验结果表明,所提方法能有效求解有人/无人战斗机协同空战中的火力分配问题.  相似文献   

3.
基于强化学习与对策的多代理协同技术   总被引:2,自引:0,他引:2  
本文从强化学习与Markov对策相结合方面考察了多代理协同技术的发展,系统地分析了已有的研究成果,并指出基于强化学习与对策的多代理协同技术研究中存在的问题及未来研究方向。  相似文献   

4.
多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。  相似文献   

5.
火力分配是现代和将来作战中的关键要素,在战斗中具有非常重要的研究意义。文章针对步战车的火力分配运用问题提出了基于改进麻雀搜索算法的步战车火力分配模型。首先,提出了一种步战车火力分配相关的数学模型;其次,为了求取步战车火力分配最优方案,提出了一种基于强化学习的自学习麻雀搜索算法(Self-learning Sparrow Search Algorithm Based on Reinforcement Learning,SSA-RL);最后,为了避免不良麻雀个体进入子代种群,提出了一种个体精度约束方法。对本文的改进算法进行多次防真实验,证明了SSA-RL的有效性,为解决火力分配问题提供了新的方法和思路。  相似文献   

6.
作为自动化和智能化时代的代表,机器人技术的发展成为智能控制领域研究的焦点,各种基于机器人的智能控制技术应运而生,机器人被越来越多地应用于实现与环境之间的复杂多接触交互任务.本文以机器人复杂多接触交互任务为核心问题展开讨论,结合基于强化学习的机器人智能体训练相关研究,对基于强化学习方法实现机器人多接触交互任务展开综述.概述了强化学习在机器人多接触任务研究中的代表性研究,当前研究中存在的问题以及改进多接触交互任务实验效果的优化方法,结合当前研究成果和各优化方法特点对未来机器人多接触交互任务的智能控制方法进行了展望.  相似文献   

7.
针对目前网络化协同设计系统研究的现状,分析了协同设计的特点及优势,研究了协同设计系统中的任务规划、任务分解。在此基础上,提出了一种基于满意度的任务分解方法。  相似文献   

8.
为了进一步提高防空导弹目标分配问题的求解效率和解算能力,建立了防空导弹目标火力分配模型,提出了一种非线性规划协同进化遗传算法(NLPCGA).该算法是综合非线性规划算法(NLPA)局部搜索能力强和协同进化算法(CA)求解质量高的优点,并利用遗传理论提高算法的求解效率.通过结合实例,仿真结果表明NLPCGA算法在求解防空目标火力分配问题上要优于单独两种智能算法,可以有效快速地找到最优火力分配方案,为防空作战指挥决策提供支持.  相似文献   

9.
基于深度强化学习的多机协同空战方法研究   总被引:1,自引:0,他引:1  
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision...  相似文献   

10.
《信息与电脑》2019,(24):135-136
针对传统方法网络通信任务分配均衡性较差问题,笔者提出基于多目标优化的网络通信任务均衡分配方法。首先该方法应用层次描述法对分层描述网络通信任务,将网络通信任务按类别划分,以延迟最小、耗能最小、分配均衡作为分配目标,然后建立任务均衡分配的目标函数,运用遗传算法对函数求解,最后得到最合理的分配方案。经对比实验,证明了本方法对网络通信任务分配的均衡性提升有较好的效果。  相似文献   

11.
针对集群导弹在线任务分配面临的环境不确定、耗时过长等问题,本文研究了一种基于分区间强化学习的集群导弹快速任务分配算法.首先,建立集群导弹的综合攻防性能模型,并将存在环境不确定性的集群导弹任务分配问题表述为马尔可夫决策过程.其次,针对该过程采用分区间强化学习,通过将搜索空间划分成若干个子区间,降低搜索维度,加快算法的收敛过程,并通过理论证明给出了最优区间划分依据.最后,通过3组仿真实验,分别从收敛速度、不确定条件下的寻优能力以及导弹和目标数量可变情况下的决策能力3个方面,验证了所提算法的快速性和优化性能.  相似文献   

12.
Task decomposition and State abstraction are crucial parts in reinforcement learning. It allows an agent to ignore aspects of its current states that are irrelevant to its current decision, and therefore speeds up dynamic programming and learning. This paper presents the SVI algorithm that uses a dynamic Bayesian network model to construct an influence graph that indicates relationships between state variables. SVI performs state abstraction for each subtask by ignoring irrelevant state variables and lower level subtasks. Experiment results show that the decomposition of tasks introduced by SVI can significantly accelerate constructing a near-optimal policy. This general framework can be applied to a broad spectrum of complex real world problems such as robotics, industrial manufacturing, games and others.  相似文献   

13.
最佳卸载策略直接影响移动计算任务卸载的时延与能耗,因此提出基于强化学习方法的移动边缘计算任务卸载方法。首先对移动设备的计算任务卸载形式展开具体分析,并基于分析结果获取计算任务卸载能量消耗、发射功率、传输速率等相关参数值,以此建立移动边缘计算任务卸载模型。最后基于建立的卸载模型结合Q-Learning算法对计算任务实施强化学习,找出计算任务的最佳卸载策略,从而实现移动边缘计算任务的实时卸载。实验结果表明,使用强化学习方法开展移动边缘计算任务卸载时,卸载能耗低、时延小。  相似文献   

14.
目前多智能体强化学习算法多采用集中学习,分散行动的框架。该框架存在算法收敛时间过长和可能无法收敛的问题。为了加快多智能体的集体学习时间,提出多智能体分组学习策略。通过使用循环神经网络预测出多智能体的分组矩阵,通过在分组内部共享智能体之间经验的机制,提高了多智能体的团队学习效率;同时,为了弥补分组带来的智能体无法共享信息的问题,提出了信息微量的概念在所有智能体之间传递部分全局信息;为了加强分组内部优秀经验的留存,提出了推迟组内优秀智能体死亡时间的生灭过程。最后,在迷宫实验中,训练时间比MADDPG减少12%;夺旗实验中,训练时间比MADDPG减少17%。  相似文献   

15.
In order to accomplish diverse tasks successfully in a dynamic (i.e., changing over time) construction environment, robots should be able to prioritize assigned tasks to optimize their performance in a given state. Recently, a deep reinforcement learning (DRL) approach has shown potential for addressing such adaptive task allocation. It remains unanswered, however, whether or not DRL can address adaptive task allocation problems in dynamic robotic construction environments. In this paper, we developed and tested a digital twin-driven DRL learning method to explore the potential of DRL for adaptive task allocation in robotic construction environments. Specifically, the digital twin synthesizes sensory data from physical assets and is used to simulate a variety of dynamic robotic construction site conditions within which a DRL agent can interact. As a result, the agent can learn an adaptive task allocation strategy that increases project performance. We tested this method with a case project in which a virtual robotic construction project (i.e., interlocking concrete bricks are delivered and assembled by robots) was digitally twinned for DRL training and testing. Results indicated that the DRL model’s task allocation approach reduced construction time by 36% in three dynamic testing environments when compared to a rule-based imperative model. The proposed DRL learning method promises to be an effective tool for adaptive task allocation in dynamic robotic construction environments. Such an adaptive task allocation method can help construction robots cope with uncertainties and can ultimately improve construction project performance by efficiently prioritizing assigned tasks.  相似文献   

16.
Axle temperature forecasting technology is important for monitoring the status of the train bogie and preventing the hot axle and other dangerous accidents. In order to achieve high-precision forecasting of axle temperature, a hybrid axle temperature time series forecasting model based on decomposition preprocessing method, parameter optimization method, and the Back Propagation (BP) neural network is proposed in this study. The modeling process consists of three phases. In stage I, the empirical wavelet transform (EWT) method is used to preprocess the original axle temperature series by decomposing them into several subseries. In stage II, the Q-learning algorithm is used to optimize the initial weights and thresholds of the BP neural network. In stage III, the Q-BPNN network is used to build the forecasting model and complete predicting all subseries. And the final forecasting results are generated by combining all prediction results of subseries. By comparing all results over three case predictions, it can be concluded that: (a) the proposed Q-learning based parameter optimization method is effective in improving the accuracy of the BP neural network and works better than the traditional population-based optimization methods; (b) the proposed hybrid axle temperature forecasting model can get accurate prediction results in all cases and provides the best accuracy among eight general models.  相似文献   

17.
针对协同设计任务分配中忽略设计人员自我发展需求的问题,在对设计人员知识作业过程进行分析的基础上,提出显性知识的学习模型和知识集合的概念,并构建了一个能实现任务与设计人员之间双向选择的优化模型,从而实现任务的合理分配,达到任务完成时间最短和设计人员知识学习最大化之间的平衡。最后,通过算例分析验证了模型的有效性:模型的使用有利于设计人员知识扩容;模型的循环使用对完成任务时间的缩短有利。  相似文献   

18.
赵旭  黄光球  江晋  李巾 《控制与决策》2022,37(11):3052-3057
在节点性能有限的边缘计算环境下进行分布式入侵检测系统(distributed intrusion detection system, DIDS)的任务分配,是一种典型的资源受限任务调度问题.针对该问题,提出基于深度强化学习的DIDS低负载任务调度方案.该方案将任务调度过程描述为马尔科夫决策过程(Markov decision process, MDP)并建立模型的相关空间和价值函数,找到保持DIDS低负载状态的最优策略.针对状态和动作空间过大且高维连续的问题,提出通过深度循环神经网络进行函数拟合.实验表明,所提出方案可使DIDS在网络变化中动态调节调度策略,保持系统整体的低负载,而安全指标没有明显降低.  相似文献   

19.
移动边缘计算是解决机器人大计算量任务需求的一种方法。传统算法基于智能算法或凸优化方法,迭代时间长。深度强化学习通过一次前向传递即可求解,但只针对固定数量机器人进行求解。通过对深度强化学习分析研究,在深度强化学习神经网络中输入层前进行输入规整,在输出层后添加卷积层,使得网络能够自适应满足动态移动机器人数量的卸载需求。最后通过仿真实验验证,与自适应遗传算法和强化学习进行对比,验证了所提出算法的有效性及可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号