首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的基于统计的多智能体Q学习算法,该算法将统计学习与增强学习有机结合,有效地解决了智能体环境部分感知、信息不确定以及其他智能体行为策略学习的问题,经RoboCup仿真实验证明该算法具有较强的自适应能力和学习效率。  相似文献   

2.
在电动负载模拟器的控制系统设计中,其参数优化一般需要大量试验.根据负载模拟器的工作原理建立了伺服电机的数学模型,在分析CMAC神经网络控制结构的基础上,引入了更新系数和补偿环节,提出了一种基于CMAC神经网络的改进算法.对各控制参数进行了寻优,获得了参数的选择域.通过对系统的数字仿真表明,该方法可稳定地跟踪非线性输入,...  相似文献   

3.
针对“先听后传”的机会频谱接入中认知用户的信道选择问题,本文提出了一种基于Q学习的信道选择算法。在非理想感知的条件下,通过建立认知用户的信道选择模型并设计恰当的奖励函数,使智能体能够与未知环境不断交互和学习,进而选择长期累积回报最大的信道接入。在学习过程中,本文引入了Boltzmann实验策略,运用模拟退火思想实现了资源探索与资源利用之间的折衷。仿真结果表明,所提算法能够在未知环境先验知识条件下可以快速选择性能较好的信道接入,有效提高认知用户的接入吞吐量和系统的平均容量。   相似文献   

4.
一般工业控制中都会存在纯滞后现象,针对于纯滞后性质对控制系统稳定性的影响,采用在大林算法的基础上加入CMAC(小脑神经网络)的方法,CMAC用于前馈控制,对大林控制器的输出进行学习,从而提高系统的响应速度,克服大林算法调节时间长的缺点。文中给出了在MATLAB中编写的M文本文件控制器的仿真结果,进而将控制算法编写成函数文件,运用到SIMULINK仿真中,大大的提高了控制算法的实用性。  相似文献   

5.
电梯群控调度是一类开放、动态、复杂系统的多目标优化问题.目前应用于群控电梯调度的算法主要有分区算法、基于搜索的算法、基于规则的算法和其他一些自适应的学习算法.但已有方法在顾客平均等待时间等目标上并不能够达到较好的优化性能.本文采用强化学习技术应用到电梯群控调度系统中,使用CMAC神经网络函数估计模块逼近强化学习的值函数,通过Q-学习算法来优化值函数,从而获得优化的电梯群控调度策略.通过仿真实验表明在下行高峰模式下,本文所提出的基于CMAC网络强化学习的群控电梯调度算法,能够有效地减少平均等待时间,提高电梯运行效率.  相似文献   

6.
无线传感网络存在关键区域节点能量消耗过快,节点能量供应有限以及通信链路拥塞等问题,容易造成节点故障和路由破坏。为减小上述问题对网络传输造成的影响,提出一种基于Q学习的无线传感网络自愈算法,通过引入Q学习的反馈机制,动态感知网络的状态信息,当故障发生时,自适应地选择恢复路径,保证数据实时顺利传输。仿真结果表明,该算法降低了错误选择故障或拥塞路径的概率,在故障感知、故障恢复和延长网络寿命等方面,表现出了良好的性能。  相似文献   

7.
熊丹妮  李屹 《通信学报》2015,36(9):252-258
基于地面辅助基站(ATC)的星地融合网络(MSS-ATC)具有覆盖范围广、用户体验佳的特点,切换机制是该融合网络主要研究的问题之一。针对卫星链路时延大、卫星网用户速度范围广的特点,综合考虑了用户接收信号强度(RSS)和用户运动速度,提出了一种基于卡尔曼滤波和Q学习的切换决策算法。比较了所提算法与传统算法在链路衰减率、切换次数和网络收益的性能,实验结果表明所提算法在性能上得到了很大的提升,并且能很好地适应高速运动状态。  相似文献   

8.
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经网络,得到最佳选网策略。实验结果表明,该文算法显著改善了因休眠机制导致的高动态性网络切换性能下降问题,同时降低了传统深度Q学习算法在线上选网过程中的时间复杂度。  相似文献   

9.
舰载雷达伺服系统采用单一的PID控制算法往往难以取得较高的控制品质和控制精度,本文阐述了采用CMAC神经网络和传统PID相结合的复合控制方法,介绍了CMAC神经网络的原理及其结构模型,给出了其学习算法,并对其在某雷达转台上的实际应用进行了详细的论述。  相似文献   

10.
《现代电子技术》2016,(23):13-16
在LTE-A中采用异构网络能提高用户的性能,但是由于小区间使用相同的频谱资源,产生了小区间干扰,影响了用户性能,从而需要采用小区间干扰协调技术来控制小区间干扰(ICI)。虽然现有的小区间干扰协调技术可以降低小区间干扰,但是存在Macro用户性能影响较大的问题。为此,提出了基于Q学习的ETPS算法,在不影响Macro用户性能的前提下,降低小区间干扰。仿真结果表明,QL-ETPS算法较传统固定ABS/RP-ABS子帧配置方案性能更优,可以在尽量不影响Macro基站用户的前提下,提高Pico基站边缘用户的吞吐量。  相似文献   

11.
分布式强化学习在RoboCup中的应用   总被引:1,自引:0,他引:1  
强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注。基于主Agent的概念改进了传统的群体强化学习算法,应用于机器人足球(Robocup)仿真实验中,取得了初步结果。  相似文献   

12.
赵季红  张彬  王力  曲桦  郑浪 《电视技术》2016,40(6):68-72
由于网络流量动态变化,控制器负载均衡成为大规模部署软件定义网络研究的重点.提出基于Q-learning的动态交换机迁移算法,首先对软件定义网络中的控制器部署问题建模,再应用Q-learning反馈机制学习实时网络流量,最后根据Q表格将交换机从高负载控制器动态迁移到低负载控制器上,实现控制器的负载均衡.仿真结果表明,所提算法能够获得较低的控制器负载标准方差.  相似文献   

13.
中继方案的选择对无线资源有效利用尤为重要,本文我们提出了一个通过使用Q学习算法的高效无线协作网的中继选择方案。该方案中,通过我们定义的状态、动作和达到到良好SER(误符号率)表现时的回报来选择少量中继参与合作。仿真结果表明,相对于通过数学分析得到中继最佳数目的方案,该方案能通过使用更少数目的中继达到具有更可比性的SER性能,从而更有效地使用资源。仿真结果表明该方案可以被认为是一个很好的对未来通信的尝试。  相似文献   

14.
张胜利  谢培军 《信息技术》2003,27(12):25-27,37
机器人世界杯足球锦标赛(The Robot World Cup),简称RoboCup,通过提供一个标准任务来促进分布式人工智能、智能机器人技术及其相关领域的研究与发展。在介绍RoboCup仿真环境的基础上,系统完整地介绍了客户端程序的开发设计流程,阐述了其中涉及到的一些主要问题和算法,最后简要综述目前国际上的典型高层算法结构。希望能够对开展机器人足球比赛及相关领域的研究有启发意义。  相似文献   

15.
HTTP adaptive streaming (HAS) has become the standard for adaptive video streaming service.In changing network environments,current hardcoded-based rate adaptation algorithm was less flexible,and it is insufficient to consider the quality of experience (QoE).To optimize the QoE of users,a rate control approach based on Q-learning strategy was proposed.the client environments of HTTP adaptive video streaming was modeled and the state transition rule was defined.Three parameters related to QoE were quantified and a novel reward function was constructed.The experiments were employed by the Q-learning rate control approach in two typical HAS algorithms.The experiments show the rate control approach can enhance the stability of rate switching in HAS clients.  相似文献   

16.
杨艳丽  曹广忠 《电子学报》2002,30(Z1):2153-2154
本文根据CMAC的样本选取方法、权值修正方法、量化方法选择的不同,提出了一种适于可编程逻辑硬件实现的CMAC快速学习方法--变分辨率无交叠感受域法.通过二维函数的学习仿真验证了此学习方法是快速有效的,在精度上有进一步的改进.  相似文献   

17.
Most of the existing stochastic games are based on the assumption of complete information,which are not consistent with the fact of network attack and defense.Aiming at this problem,the uncertainty of the attacker’s revenue was transformed to the uncertainty of the attacker type,and then a stochastic game model with incomplete information was constructed.The probability of network state transition is difficult to determine,which makes it impossible to determine the parameter needed to solve the equilibrium.Aiming at this problem,the Q-learning was introduced into stochastic game,which allowed defender to get the relevant parameter by learning in network attack and defense and to solve Bayesian Nash equilibrium.Based on the above,a defense decision algorithm that could learn online was designed.The simulation experiment proves the effectiveness of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号