期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张欣戴帅《计算机工程与科学》2010,32(1):55-56

本文提出了一种新的分层强化学习Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,采用模糊逻辑神经元的网络进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,生成Option,仿真实验结果表明了该算法的有效性。相似文献

2.

分层强化学习中的Option自动生成算法 总被引：3，自引：1，他引：2

沈晶顾国昌刘海波《计算机工程与应用》2005,41(34):4-6,15

分层强化学习中目前有Option、HAM和MAXQ三种主要方法,其自动分层问题均未得到有效解决,该文针对第一种方法,提出了Option自动生成算法,该算法以Agent在学习初始阶段探测到的状态空间为输入,采用人工免疫网络技术对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法的有效性。相似文献

3.

基于多智能体的Option自动生成算法 总被引：2，自引：0，他引：2

沈晶顾国昌刘海波《智能系统学报》2006,1(1):84-87

目前分层强化学习中的任务自动分层都是采用基于单智能体的串行学习算法,为解决串行算法学习速度较慢的问题,以Sutton的Option分层强化学习方法为基础框架,提出了一种基于多智能体的Option自动生成算法,该算法由多智能体合作对状态空间进行并行探测并集中应用aiNet实现免疫聚类产生状态子空间,然后并行学习生成各子空间上的内部策略,最终生成Option. 以二维有障碍栅格空间内2点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析.结果表明,基于多智能体的Option自动生成算法速度明显快于基于单智能体的算法. 相似文献

4.

基于核密度估计的分层强化学习自动分层算法

陆军付成伟《自动化技术与应用》2008,27(5):6-10

分层强化学习中自动分层问题目前仍未得到有效的解决,本文针对Option方法,研究了基于核密度估计的Option自动生成算法,该算法根据分层强化学习的特点并结合改进后的核密度估计层次聚类方法,实现分层强化学习的自动分层,生成子目标,并在此基础上构建出Options。实验结果表明这种算法可以大大加快学习的效率。相似文献

5.

分层强化学习中的动态分层方法研究 总被引：1，自引：0，他引：1

沈晶顾国昌刘海波《小型微型计算机系统》2007,28(2):287-291

分层强化学习中现有的自动分层方法均是在对状态空间进行一定程度探测之后一次性生成层次结构,不充分探测不能保证求解质量,过度探测则影响学习速度,为了克服学习算法性能高度依赖于状态空间探测程度这个问题,本文提出一种动态分层方法,该方法将免疫聚类及二次应答机制融入Sutton提出的Option分层强化学习框架,能对Option状态空间进行动态调整,并沿着学习轨迹动态生成Option内部策略,以二维有障碍栅格空间内两点间最短路径规划为学习任务进行了仿真实验,结果表明,动态分层方法对状态空间探测程度的依赖性很小,动态分层方法更适用于解决大规模强化学习问题. 相似文献

6.

分层强化学习中的并行自动分层方法研究

沈晶顾国昌刘海波《计算机工程与设计》2007,28(2):422-424

为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多智能体并行学习生成各子空间上内部策略,最终生成Option.以二维有障碍栅格空间内两点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析,结果表明,并行自动分层方法生成任务层次结构的速度明显快于以往的串行自动分层方法.本文的方法适用于空间探测、路径规划、追逃等类问题领域. 相似文献

7.

面向Option的k-聚类Subgoal发现算法 总被引：3，自引：0，他引：3

王本年高阳陈兆乾谢俊元陈世福《计算机研究与发展》2006,43(5):851-855

在学习过程中自动发现有用的Subgoal并创建Option,对提高强化学习的学习性能有着重要意义.提出了一种基于k-聚类的Subgoal自动发现算法,该算法能通过对在线获取的少量路径数据进行聚类的方法抽取出Subgoal.实验表明,该算法能有效地发现所有符合要求的Subgoal,与Q-学习和基于多样性密度的强化学习算法相比,用该算法发现Subgoal并创建Option的强化学习算法能有效提高Agent的学习速度. 相似文献

8.

一种基于状态聚类的SARSA(λ)强化学习算法 总被引：3，自引：0，他引：3

李春贵吴沧浦刘永信《计算机工程》2003,29(5):37-38,98

为求解大状态空间的强化学习问题，提出了一种基于状态聚类的SARSA（λ）强化学习算法，其基本思想是利用先验知识或事先训练控制器，对状态空间进行聚类，分为不同的簇，然后在簇空间上进行SARSA（λ）学习，若能进行适当的状态聚类，算法将可得到一个相对好的近似值函数。相似文献

9.

基于探索密度的Option子目标发现算法

孟江华朱纪洪孙增圻《模式识别与人工智能》2007,20(2)

提出状态探索密度的概念,通过检测状态对智能体探索环境能力的影响来发现学习的子目标并构建对应的Option.用该算法创建Option的再励学习算法能有效提高学习速度.算法具有和任务无关、不需要先验知识等优点,构造出的Option在同一环境下不同任务间可以直接共享. 相似文献

10.

改进的基于K均值聚类的SVDD学习算法 总被引：1，自引：0，他引：1

下载免费PDF全文

花小朋李先锋皋军田明《计算机工程》2009,35(17):184-186

针对基于K均值聚类的支持向量数据描述（SVDD）学习算法（KMSVDD）识别精度低于传统SVDD学习算法的问题,提出一种改进算法。将各聚类簇中支持向量合并学习生成中间模型,从支持向量以外的非支持向量数据中找出违背中间模型KKT条件的学习数据,并将这些数据与聚类簇中支持向量合并学习继而得到最终学习模型。实验结果证明,该改进算法的计算开销与KMSVDD相近,但识别精度却高于KMSVDD,与传统SVDD相近。相似文献

11.

基于联合强化学习的RoboCup-2D传球策略

下载免费PDF全文

常晓军《计算机工程与应用》2011,47(23):212-216

在传统Q学习算法基础上引入多智能体系统,提出了多智能体联合Q学习算法。该算法是在同一评价函数下进行多智能体的学习,并且学习过程考虑了参与协作的所有智能体的学习结果。在RoboCup-2D足球仿真比赛中通过引入球场状态分解法减少了状态分量,采用联合学习得到的最优状态作为多智能体协作的最优动作组,有效解决了仿真中各智能体之间的传球策略及其协作问题,仿真和实验结果证明了算法的有效性和可靠性。相似文献

12.

基于环境反馈机制的四足机器人运动技能学习

张思远朱晓庆阮晓钢李春阳刘鑫源《控制与决策》2024,39(5):1461-1468

哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励引导的强化学习算法(DSG-SAC),利用环境中的状态反馈机制来引导四足机器人进行有效探索,可以提高四足机器人仿生步态学习效果,并提高训练效率.在该算法中,策略网络与评价网络先近似拟合期望状态观测与当前状态的误差,再经过当前状态的正反馈后输出评价函数与动作,使四足机器人朝着期望的方向动作.将所提出算法在四足机器人上进行验证,通过实验结果可知,所提出的算法能够完成四足机器人的仿生步态学习.进一步,设计消融实验来探讨超参数温度系数和折扣因子对算法的影响,实验结果表明,改进后的算法具有比单纯的SAC算法更加优越的性能. 相似文献

13.

Fuzzy state machines to recognize totally unconstructed handwritten strokes

ISI Abuhaiba S Dattat MJJ Holt 《Image and vision computing》1995,13(10):755-769

An automatic off-line character recognition system for totally unconstrained handwritten strokes is presented. A stroke representation is developed and described using five types of feature. Fuzzy state machines are defined to work as recognizers of strokes. An algorithm to obtain a deterministic fuzzy state machine from a stroke representation, that is capable of recognizing that stroke and its variants is presented. An algorithm is developed to merge two fuzzy state machines into one machine. The use of fuzzy machines to recognize strokes is clarified through a recognition algorithm. The learning algorithm is a complex of the previous algorithms. A set of 20 stroke classes was used in the learning and recognition stages. The system was trained on 5890 unnormalized strokes written by five writers. The learning stage produced a fuzzy state machine of 2705 states and 8640 arcs. A total of 6865 unnormalized strokes, written freely by five writers other than the writers of the learning stage, was used in testing. The recognition, rejection and error rates were 94.8%, 1.2% and 4.0%, respectively. The system can be more developed to deal with cursive handwriting. 相似文献

14.

一种错误率可控的混沌时间序列区间预测算法

王迪王萍石君志《控制与决策》2019,34(5):956-964

针对高风险背景下的混沌时间序列区间预测问题,首次将回声状态网络与一致性预测框架相结合,提出基于两者的混沌时间序列区间预测算法.该算法将回声状态网络的拟合能力与一致性预测区间的可靠性相结合,使得最终的预测区间包含被预测值的频率或概率可以被显著性水平参数所控制,即预测区间具有极高的可信度.同时,由于使用岭回归学习回声状态网络的输出权重,使得算法在学习阶段对样本的留一交叉估计可以被快速地计算,极大地缩短了一致性预测的学习时间.理论分析表明,所提出算法的时间复杂度等价于原始回声状态网络算法的时间复杂度,即算法具有较快的计算速度.实验表明,所提出算法能够较精确地控制预测的错误率,对噪声具有鲁棒性,且预测区间比基于高斯过程的预测区间更加准确地刻画了被预测值的波动范围. 相似文献

15.

Kinematic path‐tracking of mobile robot using iterative learning control

Min K. Kang Jin S. Lee Kyoung L. Han 《野外机器人技术杂志》2005,22(2):111-121

This paper develops a kinematic path‐tracking algorithm for a nonholonomic mobile robot using an iterative learning control (ILC) technique. The proposed algorithm produces a robot velocity command, which is to be executed by the proper dynamic controller of the robot. The difference between the velocity command and the actual velocity acts as state disturbances in the kinematic model of the mobile robot. Given the kinematic model with state disturbances, we present an ILC‐based path‐tracking algorithm. An iterative learning rule with both predictive and current learning terms is used to overcome uncertainties and the disturbances in the system. It shows that the system states, outputs, and control inputs are guaranteed to converge to the desired trajectories with or without state disturbances, output disturbances, or initial state errors. Simulations and experiments using an actual mobile robot verify the feasibility and validity of the proposed learning algorithm. © 2005 Wiley Periodicals, Inc. 相似文献

16.

基于迁移学习策略的压板开关状态识别

陈翔邹庆年谢绍宇陈翠琼《计算机与现代化》2021,(5):120-126

为了实现变电站压板状态的自动巡检,提升变电站运行的可靠性和安全性,提出一种基于迁移学习策略的压板开关状态识别算法。首先利用Inception-V3在ImageNet数据集上进行目标检测训练出的网络参数,得到预训练模型,接着将训练后的瓶颈层特征参数提取至目标网络,作为目标压板开关图片数据集的特征提取器,而后构造基于粒子群优化的支持向量机算法完成压板开关状态的识别。通过与常用深度学习网络在学习效率和学习精度方面的实验结果进行对比,验证本文所提出算法的有效性和优越性,说明迁移学习结合卷积神经网络可以解决电力设备巡检中的小样本问题,提高压板开关状态识别精度和效率。相似文献

17.

Reinforcement learning of a continuous motor sequence with hidden states

《Advanced Robotics》2013,27(10):1215-1229

Reinforcement learning is the scheme for unsupervised learning in which robots are expected to acquire behavior skills through self-explorations based on reward signals. There are some difficulties, however, in applying conventional reinforcement learning algorithms to motion control tasks of a robot because most algorithms are concerned with discrete state space and based on the assumption of complete observability of the state. Real-world environments often have partial observablility; therefore, robots have to estimate the unobservable hidden states. This paper proposes a method to solve these two problems by combining the reinforcement learning algorithm and a learning algorithm for a continuous time recurrent neural network (CTRNN). The CTRNN can learn spatio-temporal structures in a continuous time and space domain, and can preserve the contextual flow by a self-organizing appropriate internal memory structure. This enables the robot to deal with the hidden state problem. We carried out an experiment on the pendulum swing-up task without rotational speed information. As a result, this task is accomplished in several hundred trials using the proposed algorithm. In addition, it is shown that the information about the rotational speed of the pendulum, which is considered as a hidden state, is estimated and encoded on the activation of a context neuron. 相似文献

18.

连续状态自适应离散化基于K-均值聚类的强化学习方法 总被引：5，自引：1，他引：5

文锋陈宗海卓睿周光明《控制与决策》2006,21(2):143-0148

使用聚类算法对连续状态空间进行自适应离散化．得到了基于K-均值聚类的强化学习方法．该方法的学习过程分为两部分：对连续状态空间进行自适应离散化的状态空间学习，使用K-均值聚类算法；寻找最优策略的策略学习．使用替代合适迹Sarsa学习算法．对连续状态的强化学习基准问题进行仿真实验，结果表明该方法能实现对连续状态空间的自适应离散化，并最终学习到最优策略．与基于CMAC网络的强化学习方法进行比较．结果表明该方法具有节省存储空间和缩短计算时间的优点．相似文献

19.

一种基于Off-Policy的无模型输出数据反馈H_∞ 控制方法

李臻范家璐姜艺柴天佑《自动化学报》2021,47(9):2182-2193

针对模型未知的线性离散系统在扰动存在条件下的调节控制问题, 提出了一种基于Off-policy的输入输出数据反馈的H_∞控制方法. 本文从状态反馈在线学习算法出发, 针对系统运行过程中状态数据难以测得的问题, 通过引入增广数据向量将状态反馈策略迭代在线学习算法转化为输入输出数据反馈在线学习算法. 更进一步, 通过引入辅助项的方法将输入输出数据反馈策略迭代在线学习算法转化为无模型输入输出数据反馈Off-policy学习算法. 该算法利用历史输入输出数据实现最优输出反馈策略的学习, 同时克服了On-policy算法需要频繁与实际环境进行交互这一缺点. 除此之外, 与On-policy算法相比, Off-policy学习算法具有克服学习噪声的影响, 使学习结果收敛于理论最优值这一优点. 最终, 通过仿真实验验证了学习算法的收敛性. 相似文献