首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
针对空中对接任务中的目标自主跟踪问题,提出了一种基于深度强化学习的端到端的目标跟踪方法。该方法采用近端策略优化算法,Actor网络与Critic网络共享前两层的网络参数,将无人机所拍摄图像作为卷积神经网络的输入,通过策略网络控制多旋翼无人机电机转速,实现端到端的目标跟踪,同时采用shaping方法以加速智能体训练。通过物理引擎Pybullet搭建仿真环境并进行训练验证,仿真结果表明该方法能够达到设定的目标跟踪要求且具有较好的鲁棒性。  相似文献   

2.
针对分簇Ad Hoc网络中固定时隙分配算法信道资源浪费和竞争时隙分配算法传输延迟不固定的问题,提出一种基于时分多址接入的无冲突动态时隙分配算法。该算法根据网络负载动态调整帧长,即当网络负载增大时,增加帧长,提高信道利用率;当网络负载减小时,减少帧长,降低信道申请时延。仿真结果表明,与NEBS算法和时隙ALOHA算法相比,该算法可根据网络负载动态调整资源分配,从而提高系统的吞吐量。  相似文献   

3.
为了提高数据链系统的时隙利用率,提出一种基于固定和动态时隙预约相融合的TDMA分配算法。采用固定时隙分配算法对部分时隙进行分配,用极限学习机对用户业务量进行预测,并根据预测结果确定所需时隙数,这样可以根据不同业务特点动态调整时隙分配策略,以满足用户通信需求;最后使用OPNET仿真软件对算法性能进行测试。实验结果表明,相对其他时隙分配算法,该算法提高了时隙利用率,大幅度减少了平均时延。  相似文献   

4.
曾斌  樊旭  李厚朴 《自动化学报》2023,(7):1519-1529
复杂多变的战场环境要求后装保障能够根据战场环境变化,预见性地做出决策.为此,提出基于强化学习的动态调度方法.为准确描述保障调度问题,提出支持抢占调度、重分配及重部署决策的马尔科夫决策过程(Markov decision process, MDP)模型,模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响;随后设计改进策略迭代算法,训练基于神经网络的保障调度模型;训练后的神经网络模型能够近似计算状态价值函数,从而求解出产生最大期望价值的优化调度策略.最后设计一个分布式战场保障仿真实验,通过与常规调度策略的对比,验证了动态调度算法具有良好的自适应性和自主学习能力,能够根据历史数据和当前态势预判后续变化,并重新规划和配置保障资源的调度方案.  相似文献   

5.
申怡  刘全 《计算机科学》2021,48(12):297-303
强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现.近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低.针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimiza-tion Based on Self-Directed Action Selection,SDAS-PPO).SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导.SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习.为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验.实验结果表明,该方法在绝大多数环境下具有更好的表现.  相似文献   

6.
针对单宿点无线传感器网络的时延大、容易出现传输瓶颈等问题,提出了多宿点无线传感器网络模型以及该模型的基于遗传算法(GA)的时分多址(TDMA)时隙分配算法。该算法根据宿点的数量以及位置将整个传感器网络划分成多个小传感器网络,并采用遗传算法对时隙分配结果进行优化。仿真结果表明,基于遗传算法的多宿点无线传感器网络TDMA时隙分配算法得到的时隙分配结果在时隙分配帧长度、数据包平均时延以及节点平均能耗方面均要优于图着色算法。  相似文献   

7.
文中提出了一个异构网络下无人机基站辅助的弹性视频多播机制.结合SVC编码,将无人机动态部署和资源分配问题联合考虑,目的是最大化用户整体的视频质量.考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变,传统的启发式算法难以应对用户移动的复杂性.对此,采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重.在模型收敛后,学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略.仿真结果表明,所提方案达到了预期目标并且优于现有的基于Q-learning的方案.  相似文献   

8.
蔡中民 《计算机仿真》2020,37(1):138-141,243
现有的混合网络数据动态交换时隙再分配方法,存在时延较大、时隙利用率较低等问题,提出基于WCDMA和数据链的交换时隙再分配方法,去除信道中的干扰信号,补偿由于数据传输造成的信号衰弱,通过信道的信干比估计,完成对信道的处理。当前分配时隙资源不能满足信息发送所需时,会在固定时隙内,周期性的发送时隙再分配消息给混合网络单元,并提出所需时隙资源,根据时隙动态分配方法,定制出混合网络时隙分配表,通过定制的时隙分配表,实现对混合网络数据动态交换的时隙再分配。仿真结果表明,所提方法能够在低时延、高时隙利用率的情况下,实现对混合网络数据动态交换时隙的再分配。  相似文献   

9.
针对低空智联网协同认知干扰决策过程中,多架电子干扰无人机对抗多部多功能雷达的干扰资源分配问题,提出了一种基于数字孪生和深度强化学习的认知干扰决策方法。首先,将协同电子干扰问题建模为马尔可夫决策问题,建立认知干扰决策系统模型,综合考虑干扰对象、干扰功率和干扰样式选择约束,构建智能体动作空间、状态空间和奖励函数。其次,在近端策略优化(Proximal policy optimization, PPO)深度强化学习算法的基础上,提出了自适应学习率近端策略优化(Adaptive learning rate proximal policy optimization, APPO)算法。同时,为了以高保真的方式提高深度强化学习算法的训练速度,提出了一种基于数字孪生的协同电子干扰决策模型训练方法。仿真结果表明,与已有的深度强化学习算法相比,APPO算法干扰效能提升30%以上,所提训练方法能够提高50%以上的模型训练速度。  相似文献   

10.
空中移动无线自组织网络是一种拓扑结构快速变化,有自组织性的多跳无中心网络;针对传统时隙分配算法资源利用率低、吞吐量不足、通信距离近等问题,采用引入分配系数的混合时隙分配模式,通过节点业务优先级和流量预测相结合,设计了一种基于TDMA定向分布式资源动态调度算法(M-TDMA);对比分析了节点数量、传输速率、分配系数以及不同拓扑等多个维度对算法传输时延、吞吐量以及丢包率的影响;最后通过仿真实验对资源调度算法进行验证;仿真结果表明,在20个网络节点时,网络的最大传输时延小于600 ms,网络吞吐量可以达到4.5 Mbps以上, M-TDMA算法通过高效的资源调度,有效降低了网络传输时延并提高了网络吞吐量;  相似文献   

11.
小基站的密集随机部署会产生严重干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能效,构建一种基于深度强化学习(DRL)的资源分配和功率控制联合优化框架。综合考虑超密集异构网络中的同层干扰和跨层干扰,提出对频谱与功率资源联合控制能效以及用户QoS的联合优化问题。针对该联合优化问题的NP-Hard特性,提出基于DRL框架的资源分配和功率控制联合优化算法,并定义联合频谱和功率分配的状态、动作以及回报函数。利用强化学习、在线学习和深度神经网络线下训练对网络资源进行控制,从而找到最佳资源和功率控制策略。仿真结果表明,与枚举算法、Q-学习算法和两阶段算法相比,该算法可在保证用户QoS的同时有效提升网络能效。  相似文献   

12.
A challenge in the convergence of heterogeneous networks is how to combine the ubiquitous resources and provide the diversified individual services. This paper designs a market model for aggregating reconfiguration in heterogeneous networks based on the tradeoff between resource allocation and consumers’ requirement. To unify the benefits of operators and consumers, a novel Stackelberg-based dynamic incentive pricing algorithm is proposed. The results of the theoretical analysis and simulation demonstrate that the proposed strategy provides incentive for cooperation by means of appropriate resource allocation, and improves the utilization of network resources, thereby effectively realizing the optimization of the whole network performance.  相似文献   

13.
王晓楠  巨永锋  高婷  张福泉 《计算机科学》2017,44(10):109-112, 141
为了 最大化 多媒体无线信道资源分配的网络效用,提出了一种新的基于粒子群算法的信道时间分配算法。该算法能够优化分配给网络内每个设备的时间,以便为每位网络用户 提供最优化的服务质量(QoS)。所提算法结合了多样性增加函数以及基于个体最优值的学习方法,并基于自适应粒子群算法进行了改进,在持续增强QoS的同时加快了收敛速度。在多达40个设备的千兆网络环境内对所提算法进行了测试。实验结果表明,提出的算法能够大大提升资源分配能力,尤其是在网络规模较大的情况下。  相似文献   

14.
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。  相似文献   

15.
We present a decentralized market-based approach to resource allocation in a heterogeneous overlay network. This resource allocation strategy dynamically assigns resources in an overlay network to requests for service based on current system utilization, thus enabling the system to accommodate fluctuating demand for its resources. Our approach is based on a mathematical model of this resource allocation environment that treats the allocation of system resources as a constrained optimization problem. From the solution to the dual of this optimization problem, we derive a simple decentralized algorithm that is extremely efficient. Our results show the near optimality of the proposed approach through extensive simulation of this overlay network environment. The simulation study utilizes components taken from a real-world middleware application environment and clearly demonstrates the practicality of the approach in a realistic setting.  相似文献   

16.
孙利  宋喜忠 《计算机应用》2015,35(10):2858-2862
针对无线传感器网络(WSN)在数据传输过程中节点能量负载不均衡问题,提出了一种基于动态树拓扑的多时隙分配无线传感器网络数据传输算法。该算法首先建立了树链路模型来分析无线传感器网络的数据传输模式以及时隙需求问题;接着通过在树拓扑上使用父代和子代的关系,使节点基于时隙需求执行帧时隙分配,并给出了接收时隙的一个序列模式和发送时隙的序列模式,允许节点更加有序且在干扰更少的信道下接收其他节点发送的数据包,减少时隙的浪费并提高信道利用效率。最后,实验仿真结果表明,与基于数据传输优化的无线传感器网络的生命周期延长算法,以及基于能量感知和时隙分配的可靠数据传输算法相比,所提算法的网络能量效率分别提高了42.8%和51.7%,节点平均寿命延长了1.7%和37.5%,网络的能量效率和网络生命周期得到了提高。  相似文献   

17.
为实现复杂任务环境中多无人机的自主飞行, 本文采用改进的强化学习算法,设计了一种具有避碰避障功能的多无人机智能航迹规划策略。通过改进搜索策略、引入具有近似功能的神经网络函数、构造合理的立即回报函数等方法,提高算法运算的灵活性、降低无人机运算负担, 使得多无人机能够考虑复杂任务环境中风速等随机因素以及静态和动态威胁的影响, 自主规划出从初始位置到指定目标点的安全可行航迹。为了探索所提算法在实际飞行过程的可行性, 本文以四旋翼无人机为实验对象, 在基于ROS的仿真环境中验证了算法的可行性与有效性。  相似文献   

18.
安全服务链中的虚拟网络功能(virtual network function,VNF)将传统网络安全功能与硬件设备解耦,使得服务功能的部署更具动态性和可扩展性。然而,VNF向节点的合理分配以及节点上VNF的高效调度问题仍亟待解决。为此,基于软件定义网络(software defined network,SDN)和网络功能虚拟化(network function virtualization,NFV)环境,提出基于优化算法的解决方案。首先,对资源分配与调度问题进行举例并形式化定义问题的优化目标;其次,提出基于贪心算法的资源分配方案和基于混合蜂群算法的资源调度方案,统一协调解决VNF的资源分配与调度问题。最后,设计仿真实验,验证所提算法的时间复杂性和在总资源成本和总服务收益方面的提升;同时,对比混合蜂群算法和传统蜂群算法,结果显示前者具有更快的收敛速度。  相似文献   

19.
考虑雾无线接入网(Fog Radio Access Network,F-RAN)中的性能优化问题,提出一种基于深度神经网络(Deep Neural Network,DNN)的资源分配方案。该方案旨在通过资源分配策略来最大化经济频谱效率(Economical Spectral Efficiency,ESE)。为解决传统资源分配方案需要大量计算的问题,该方案借助神经网络模型,将ESE作为损失函数,使用更少的计算量来确定用户的波束赋形,从而实现实时处理。仿真结果表明,相比于基于传统凸优化功率分配方案或者是基于监督学习的CNN方法,所提出的方案的光谱效率(Spectral Efficiency,SE)和ESE的最大增益分别可以达到5%和20%。此外,该方案在执行时间上与CNN方案接近,明显优于传统算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号