期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

傅启明刘全孙洪坤高龙李瑾王辉《模式识别与人工智能》2013,(3):282-292

Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 相似文献

2.

人工情感Q学习的互联电网自动发电控制算法

殷林飞郑宝敏余涛《控制理论与应用》2016,33(12):1650-1657

对互联电网中自动发电控制AGC中控制策略进行改进,设计了人工智能中的人工心理学和人工智能中的机器学习结合的控制策略.分别对Q学习算法和Q(λ)学习算法进行改进,设计了具有人工情感的智能体.提出了人工情感Q学习算法和人工情感Q(λ)学习算法.且将人工情感分别作用于Q学习算法和Q(λ)学习算法中的输出动作、学习率和奖励函数.最后在IEEE标准两区域和南方电网四区域的互联电网Simulink模型中进行数值仿真.绘制并统计了控制性能指标、区域控制误差和频率偏差的值.从仿真结果看,所提人工情感Q学习算法和人工情感Q(λ)学习算法控制效果优于原有Q学习算法、Q(λ)学习算法、R(λ)算法、Sarsa算法、Sarsa(λ)算法和PID控制算法,该数值仿真结果验证了所提算法的可行性和有效性. 相似文献

3.

一种基于线性函数逼近的离策略Q(λ)算法

傅启明刘全王辉肖飞于俊李娇《计算机学报》2014,(3):3677-3686

将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性. 相似文献

4.

基于多步回溯Q学习的自动发电控制指令动态优化分配算法

余涛王宇名甄卫国叶文加刘前进《控制理论与应用》2011,28(1):58-64

单步Q学习在火电占优、机组时延较大的A动发电控制(AGC)功率指令动态优化分配中的应用表现出收敛速度慢等不足而影响最优策略的获取.具有多步预见能力的多步回溯Q学习(Q(λ))显式利用资格迹进行高效回溯操作,能够有效解决火电机组大时滞环节带来的延时回报问题,算法平均收敛时间较Q学习缩短50%以上.算法奖励函数引入调节费用... 相似文献

5.

基于自适应状态聚集Q学习的移动机器人动态规划方法

王辉宋昌统《计算机测量与控制》2014,22(10):3419-3422

针对现有移动机器人路径规划方法存在的收敛速度慢和难以进行在线规划的问题,研究了一种基于状态聚集SOM网和带资格迹Q学习的移动机器人路径动态规划方法——SQ(λ);首先,设计了系统的总体闭环规划模型,将整个系统分为前端(状态聚集)和后端(路径规划);然后,在传统的SOM基础上增加输出层构建出三层的SOM网实现对移动机器人状态的聚集,并给出了三层SOM网的训练算法;最后,基于聚集的状态提出了一种基于带资格迹和探索因子自适应变化的改进Q学习算法实现最优策略的获取,并能根据改进Q学习算法的收敛速度自适应地控制前端SOM输出层神经元的增减,从而改进整体算法的收敛性能;仿真实验表明:文中设计的SQ(λ)能有效地实现移动机器人的路径规划,较其它算法相比,具有收敛速度快和寻优能力强的优点,具有较大的优越性。相似文献

6.

RST融合改进Q学习算法的在线网络IDS设计 总被引：1，自引：0，他引：1

李群黄立宏《计算机应用研究》2015,32(7)

针对现有入侵检测系统(IDS)缺乏能构造有效执行误用和异常检测的分类器的问题,提出了一种融合粗糙集理论(RST)和Q学习算法的实时入侵检测系统.首先,针对RST仅处理离散数据的特点,运用割操作离散化训练数据的属性获得约简;然后,通过改进Q学习算法学习各种属性的最优割,以便分类网络流量数据时对应的约简能产生最大分类精度;最后,将RST和改进Q学习算法进行融合得到入侵检测系统.实验结果表明,方法Q学习更快速,并且降低了IDS的复杂度,使用实时数据获得了98％的分类精度,相比其他几种较新的方法具有更加优越的性能. 相似文献

7.

基于环境感知的多路径路由算法

林沛胡建军《计算机应用》2013,33(10):2750-2752

认知网络能够提高网络端到端的性能,确保服务质量(QoS)要求。而目前普遍使用的路由算法不具备网络认知能力。针对这一问题,提出一种具有认知能力的负载均衡多路径路由算法,该算法结合了Q学习算法和蚁群算法各自的优点,通过蚁群算法完成路径的建立和维护,Q学习算法实现拥塞规避和负载均衡。使用OPNET仿真比较,表明该算法在时延、带宽利用方面均具有较好的性能。相似文献

8.

多Agent Q学习几点问题的研究及改进 总被引：1，自引：0，他引：1

孟祥萍王圣镔王欣欣《计算机工程与设计》2009,30(9)

提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习.在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降.另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值.在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题.最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率. 相似文献

9.

样本有限关联值递归Q学习算法及其收敛性证明 总被引：5，自引：0，他引：5

殷苌茗陈焕文谢丽娟《计算机研究与发展》2002,39(9):1064-1070

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题，求解最优决策一般有两种途径：一种是求最大奖赏方法，另一种最求最优费用方法，利用求解最优费用函数的方法给出了一种新的Q学习算法，Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法，尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性，但是在他给出的算法中，没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响，因此提出的关联值递归Q学习算法改进了原来的Q学习算法，并且这种算法有比较好的收敛性质，从求解最优费用函数的方法出发，给出了Q学习的关联值递归算法，这种方法的建立可以使得动态规划（DP）算法中的许多结论直接应用到Q学习的研究中来。相似文献

10.

基于强化蚁群算法的任务DAG在线网格集群资源调度

下载免费PDF全文

袁秀利赵连胜 《计算机测量与控制》2015,23(1):287-290

网格集群资源调度是一个NP难题,而现有的调度方法通常具有任务调度效率低和负载不均衡的问题,由此设计了一种基于强化学习算法和蚁群算法融合的协同依赖型任务调度方法;首先对基于DAG的网格集群协同调度数学模型进行了定义,然后,采用改进的一步TD算法即Q-Learning算法实现集群资源的初始分配,从而得到最优调度方案以及对应的Q值,在此基础上提出一种改进的蚁群算法实现网格集群资源到任务分配的进一步优化,将Q-Learning算法得到的分配方案的Q值用于初始化蚁群路径中的信息素,以避免蚁群的盲目搜索,同时将Q值引入路径概率函数中使得蚂蚁具有启发式的搜索能力,从而获得协同依赖多任务集群调度的最终方案;在Gridsim环境下进行仿真试验,结果表明文中方法能有效地实现网格集群调度,且较其它方法具有任务调度效率高、CPU利用率高和负载均衡的优点,具有较大的优越性. 相似文献