共查询到17条相似文献,搜索用时 78 毫秒
1.
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的基于统计的多智能体Q学习算法,该算法将统计学习与增强学习有机结合,有效地解决了智能体环境部分感知、信息不确定以及其他智能体行为策略学习的问题,经RoboCup仿真实验证明该算法具有较强的自适应能力和学习效率。 相似文献
2.
3.
针对“先听后传”的机会频谱接入中认知用户的信道选择问题,本文提出了一种基于Q学习的信道选择算法。在非理想感知的条件下,通过建立认知用户的信道选择模型并设计恰当的奖励函数,使智能体能够与未知环境不断交互和学习,进而选择长期累积回报最大的信道接入。在学习过程中,本文引入了Boltzmann实验策略,运用模拟退火思想实现了资源探索与资源利用之间的折衷。仿真结果表明,所提算法能够在未知环境先验知识条件下可以快速选择性能较好的信道接入,有效提高认知用户的接入吞吐量和系统的平均容量。 相似文献
4.
一般工业控制中都会存在纯滞后现象,针对于纯滞后性质对控制系统稳定性的影响,采用在大林算法的基础上加入CMAC(小脑神经网络)的方法,CMAC用于前馈控制,对大林控制器的输出进行学习,从而提高系统的响应速度,克服大林算法调节时间长的缺点。文中给出了在MATLAB中编写的M文本文件控制器的仿真结果,进而将控制算法编写成函数文件,运用到SIMULINK仿真中,大大的提高了控制算法的实用性。 相似文献
5.
电梯群控调度是一类开放、动态、复杂系统的多目标优化问题.目前应用于群控电梯调度的算法主要有分区算法、基于搜索的算法、基于规则的算法和其他一些自适应的学习算法.但已有方法在顾客平均等待时间等目标上并不能够达到较好的优化性能.本文采用强化学习技术应用到电梯群控调度系统中,使用CMAC神经网络函数估计模块逼近强化学习的值函数,通过Q-学习算法来优化值函数,从而获得优化的电梯群控调度策略.通过仿真实验表明在下行高峰模式下,本文所提出的基于CMAC网络强化学习的群控电梯调度算法,能够有效地减少平均等待时间,提高电梯运行效率. 相似文献
6.
7.
基于地面辅助基站(ATC)的星地融合网络(MSS-ATC)具有覆盖范围广、用户体验佳的特点,切换机制是该融合网络主要研究的问题之一。针对卫星链路时延大、卫星网用户速度范围广的特点,综合考虑了用户接收信号强度(RSS)和用户运动速度,提出了一种基于卡尔曼滤波和Q学习的切换决策算法。比较了所提算法与传统算法在链路衰减率、切换次数和网络收益的性能,实验结果表明所提算法在性能上得到了很大的提升,并且能很好地适应高速运动状态。 相似文献
8.
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经网络,得到最佳选网策略。实验结果表明,该文算法显著改善了因休眠机制导致的高动态性网络切换性能下降问题,同时降低了传统深度Q学习算法在线上选网过程中的时间复杂度。 相似文献
9.
舰载雷达伺服系统采用单一的PID控制算法往往难以取得较高的控制品质和控制精度,本文阐述了采用CMAC神经网络和传统PID相结合的复合控制方法,介绍了CMAC神经网络的原理及其结构模型,给出了其学习算法,并对其在某雷达转台上的实际应用进行了详细的论述。 相似文献
10.
11.
12.
13.
宋夫静 《信息技术与信息化》2014,(2):114-118
中继方案的选择对无线资源有效利用尤为重要,本文我们提出了一个通过使用Q学习算法的高效无线协作网的中继选择方案。该方案中,通过我们定义的状态、动作和达到到良好SER(误符号率)表现时的回报来选择少量中继参与合作。仿真结果表明,相对于通过数学分析得到中继最佳数目的方案,该方案能通过使用更少数目的中继达到具有更可比性的SER性能,从而更有效地使用资源。仿真结果表明该方案可以被认为是一个很好的对未来通信的尝试。 相似文献
14.
机器人世界杯足球锦标赛(The Robot World Cup),简称RoboCup,通过提供一个标准任务来促进分布式人工智能、智能机器人技术及其相关领域的研究与发展。在介绍RoboCup仿真环境的基础上,系统完整地介绍了客户端程序的开发设计流程,阐述了其中涉及到的一些主要问题和算法,最后简要综述目前国际上的典型高层算法结构。希望能够对开展机器人足球比赛及相关领域的研究有启发意义。 相似文献
15.
HTTP adaptive streaming (HAS) has become the standard for adaptive video streaming service.In changing network environments,current hardcoded-based rate adaptation algorithm was less flexible,and it is insufficient to consider the quality of experience (QoE).To optimize the QoE of users,a rate control approach based on Q-learning strategy was proposed.the client environments of HTTP adaptive video streaming was modeled and the state transition rule was defined.Three parameters related to QoE were quantified and a novel reward function was constructed.The experiments were employed by the Q-learning rate control approach in two typical HAS algorithms.The experiments show the rate control approach can enhance the stability of rate switching in HAS clients. 相似文献
16.
17.
Most of the existing stochastic games are based on the assumption of complete information,which are not consistent with the fact of network attack and defense.Aiming at this problem,the uncertainty of the attacker’s revenue was transformed to the uncertainty of the attacker type,and then a stochastic game model with incomplete information was constructed.The probability of network state transition is difficult to determine,which makes it impossible to determine the parameter needed to solve the equilibrium.Aiming at this problem,the Q-learning was introduced into stochastic game,which allowed defender to get the relevant parameter by learning in network attack and defense and to solve Bayesian Nash equilibrium.Based on the above,a defense decision algorithm that could learn online was designed.The simulation experiment proves the effectiveness of the proposed method. 相似文献