期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于Q学习算法和遗传算法的动态环境路径规划 总被引：1，自引：0，他引：1

于乃功王琛默凡凡蔡建羡《北京工业大学学报》2017,43(7)

针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性. 相似文献

2.

基于强化学习的机器人曲面恒力跟踪研究

张铁肖蒙邹焱飚肖佳栋《浙江大学学报(工学版)》2019,53(10):1865-1873

针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习（PILCO）算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 相似文献

3.

未知环境下基于虚拟子目标的对立Q学习机器人路径规划

下载免费PDF全文

汪盛民林伟曾碧《广东工业大学学报》2019,36(1):51-56,62

针对Q学习算法在复杂的未知环境下Q值更新速度慢,容易产生维数灾难等问题,提出了一种未知环境下基于虚拟子目标的对立Q学习机器人路径规划算法.该算法根据移动机器人探索过的状态轨迹,建立了2个状态链分别记录状态-动作对和状态-反向动作对,并将每个单链当前状态的Q值,依次反馈影响前一状态的Q值,直到状态链的头端.同时,在局部探测域内通过寻找最优虚拟子目标的方法解决了大规模环境下Q学习容易产生维数灾难的问题.实验结果表明,在复杂的未知环境中,该算法可以有效地加快算法学习的收敛速度,提高学习效率,以较优的路径完成机器人导航任务. 相似文献

4.

集装箱码头集卡调度模型与Q学习算法 总被引：1，自引：0，他引：1

曾庆成杨忠振《哈尔滨工程大学学报》2008,29(1):1-4

研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,Q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略. 相似文献

5.

移动机器人的可变遗忘因子离散迭代学习控制

曹伟戴学丰刘艳菊《北京工业大学学报》2015,(10):1516-1521

为了提高迭代学习控制方法在移动机器人轨迹跟踪问题中的收敛速度,提出了一种带有可变遗忘因子的离散迭代学习控制算法.该算法是在开闭环离散迭代学习控制律基础上,通过可变遗忘因子对上一次的控制量进行调节,并增加了带有可变遗忘因子的初始修正项.通过适当选取学习律中的初始控制输入,带遗忘因子的初始修正项可以避免迭代轨迹的大幅度摆动,从而可以使迭代学习的收敛速度得到显著提高.并利用范数理论对算法的收敛性进行了严格证明,得到了使算法收敛的范数形式的充分条件.最后通过仿真实验验证了所提算法的有效性. 相似文献

6.

非线性系统的梯度变分迭代自学习控制

蒋凯陈杭周怀阳蒋春跃叶树明《浙江大学学报(工学版)》2008,42(8):1365-1369

研究了一类非线性系统的梯度变分迭代自学习算法,以提高此类非线性系统的控制品质.梯度变分迭代自学习算法是针对符合某一类范式的周期性或重复性输出控制的非线性系统而设计的一种自寻优自学习算法.该算法针对一类非线性系统的数学描述模型,给出了性能指标函数,通过梯度变分的方法寻找性能指标函数梯度的负方向,并利用迭代自学习得到性能指标函数的最小值,使系统收敛于目标输出.将该算法应用于极端环境模拟装置的压力控制系统,取得了比传统控制算法更高的效率与更快的收敛速度.梯度变分迭代自学习算法是符合一类数学模型的非线性系统的一种高效控制算法. 相似文献

7.

半监督k-部排序算法及在本体中的应用

高炜梁立徐天伟周菊香《中北大学学报(自然科学版)》2013,(2):140-146

为使k-部排序学习算法对所有结构的本体图都有效,提出一种半监督k-部排序学习算法.将训练样本集分成带标记和不带标记两类,通过推进的方法优化指数亏损模型,得到组合权值;并通过贪心的方法得到排序特征,由此得到排序函数.从而将本体图(或多本体结构图)中每个顶点映射成一个实数,由本体顶点对应实数间的差值判断概念间的相似程度.通过两个实验说明了新算法对于本体相似度计算和在不同本体间建立映射是有效的. 相似文献

8.

多步R学习算法

胡光华吴沧浦《北京理工大学学报(英文版)》1999,8(3):245-250

目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法. 相似文献

9.

基于UCB算法的交替深度Q网络

下载免费PDF全文

吴卿源谭晓阳《南京师范大学学报》2022,(1):024-29

在深度强化学习中,智能体需要与环境进行交互学习,这就需要智能体能够很好地去平衡利用与探索. 因此如何提升算法的样本有效性,增加算法的探索能力,一直是深度强化学习领域中非常重要的研究方向. 结合已有研究成果,提出了一种交替使用多个不同初始化深度Q网络方法,使用网络随机初始化带来的探索性能. 基于最大置信度上界算法先构造一种交替选择深度Q网络策略. 并将该调度网络策略与多个随机初始化的深度Q网络结合,得到基于最大置信度上界的交替深度Q网络算法. 在多个不同的标准强化学习实验环境上的实验结果表明,该算法比其他基准算法有更高的样本效率和算法学习效率. 相似文献

10.

飞机图像的轮廓提取与多边形拟合研究

孙爽滋谷欣超杨勇陈小超《长春理工大学学报(自然科学版)》2009,32(3):447-449,471

本文讨论在简单背景下,对飞机图像进行轮廓提取,以及在此基础上的多边形拟合技术.首先根据掏空内部点的准则和"探测准则",经过边界跟踪,得到只有一个像素宽度的飞机图像边界曲线.然后采用一种基于弦高度的多边形拟合算法,对得到的边界曲线进行拟合,从而得到了轮廓多边形.实验证明,该拟合算法去除了大量的冗余像素点,保留了重要的特征点,拟合效果令人满意,为进一步几何特征向量的提取奠定了基础. 相似文献

11.

基于变学习速率的自适应ICA算法

王莹张守成刘永凯刘圆圆《工程地球物理学报》2008,5(4):493-498

学习速率的优选问题是自适应ICA算法中的一个重要问题。本文建立了学习速率与相依性测度之间的一种非线性函数关系,以此为基础本文提出了一种新的变学习速率的自适应ICA算法。该算法具有初始阶段和未知系统时变阶段步长自动增大而稳态时步长很小的特点,克服了传统算法在稳态阶段步长调整过程中的不足,而且具有很快的收敛速度。计算机仿真结果与理论分析相一致,证实了该算法的性能。相似文献

12.

一类非线性系统的初态迭代学习控制

吴君晓《河南机电高等专科学校学报》2014,(6):18-21

针对一类非线性系统,提出了具有初态学习的开闭环PD型迭代学习算法,并给出了该算法的收敛充分条件。依据此收敛条件,可确定初态学习律和输入学习律的学习增益,而不必依赖系统的结构和参数,从而放宽了对初始定位的要求。初态学习允许在每次迭代开始时,其初态与期望初态有一定的定位误差,并允许初态在收敛条件范围内任意设置。利用压缩映射分析方法,证明了系统在任意初态下经过几次迭代后,实际输出能完全跟踪上期望轨迹。最后,通过仿真实例验证了所提算法的有效性和可行性。相似文献

13.

基于初态学习的非仿射非线性系统的开闭环PD型迭代学习控制

白敬彩吴君晓《宁夏工程技术》2011,10(3):211-214,218

针对非仿射非线性系统,提出了新的学习控制算法,即初态未知情况下系统的输入和初态都需要进行学习的开闭环PD型迭代学习控制,并给出了该算法的收敛性充分条件.初态学习允许系统在每次迭代开始时有一定的定位误差,不严格要求其初态与期望初态重合或固定于某一具体位置上.该算法允许初态在收敛性条件范围内任意设置,从而保证了学习控制系统具有初始定位误差的鲁棒收敛性.依据此收敛性条件,可确定输入学习律及初态学习律的学习增益.利用压缩映射分析方法,证明了系统在任意初始状态下经过迭代后,其输出能够完全跟踪期望轨迹.该算法解决了初始值未知情况下的收敛性问题,且放宽了收敛条件,并通过仿真结果验证了所提算法的有效性. 相似文献

14.

Adaptive learning with guaranteed stability for discrete-time recurrent neural networks

邓华吴义虎段吉安《中南工业大学学报(英文版)》2007,14(5):685-689

To avoid unstable learning, a stable adaptive learning algorithm was proposed for discrete-time recurrent neural networks. Unlike the dynamic gradient methods, such as the backpropagation through time and the real time recurrent learning, the weights of the recurrent neural networks were updated online in terms of Lyapunov stability theory in the proposed learning algorithm, so the learning stability was guaranteed. With the inversion of the activation function of the recurrent neural networks, the proposed learning algorithm can be easily implemented for solving varying nonlinear adaptive learning problems and fast convergence of the adaptive learning process can be achieved. Simulation experiments in pattern recognition show that only 5 iterations are needed for the storage of a 15×15 binary image pattern and only 9 iterations are needed for the perfect realization of an analog vector by an equilibrium state with the proposed learning algorithm. 相似文献

15.

A multiagent reinforcement learning approach based on different states

李珺潘启树《哈尔滨工业大学学报(英文版)》2010,17(3):419-423

In this paper we describe a new reinforcement learning approach based on different states. When the multiagent is in coordination state,we take all coordinative agents as players and choose the learning approach based on game theory. When the multiagent is in indedependent state,we make each agent use the independent learning. We demonstrate that the proposed method on the pursuit-evasion problem can solve the dimension problems induced by both the state and the action space scale exponentially with the number of agents and no convergence problems,and we compare it with other related multiagent learning methods. Simulation experiment results show the feasibility of the algorithm. 相似文献

16.

不准确网络信息下的实时流量优化

冯春燕张晨丁炜《北京邮电大学学报》2007,29(1):14-18

研究了不准确网络信息下的流量优化. 提出虚容量的概念，建立了基于本地状态信息的网络流量优化模型；提出的分布式实时无导师学习算法，根据网络流量变化的幅度和频度判断是否需要优化并行路径间的流量分配并且自适应的调整. 该算法不需要统计、刷新和存储网络中的各种状态信息以及流量矩阵，仿真证明其优化效果明显. 相似文献

17.

基于交替方向乘子法与深度强化学习算法的资源分配

郭兴康孙君《北京邮电大学学报》2022,45(6):126-130

为了研究在有限信道状态信息下,密集型网络的资源分配问题,提出了交替方向乘子法结合深度强化学习算法的模型驱动学习框架。该框架区别于数据驱动框架,能够根据具体问题进行一对一建模。针对资源分配的问题建模内容包括：将基站选择、功率和子载波分配用交替方向乘子法进行交替优化;用深度强化学习算法优化权重,求解目标函数,提高算法性能;框架利用有效信道状态信息而非多余信息,降低了通信开销;加强对最低用户服务质量要求参数的约束,可以在保证用户的体验下最大化小区频谱效率。仿真结果表明,该模型驱动学习框架在较少的迭代次数下即可收敛。相似文献

18.

基于线性平均的强化学习函数估计算法

陶隽源孙金玮李德胜《吉林大学学报(工学版)》2008,38(6):1407-1411

提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题。该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程。该算法利用强化学习算法的标准问-题Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值。相似文献

19.

无线Mesh网络功率控制与信道分配联合优化

石文孝王恩东王继红欧阳敏《北京邮电大学学报》2016,39(3):64-69

针对无线Mesh网络网关节点和网络链路承载的负载不均问题,择优选择网关节点,并设计链路权重,构建以网络加权吞吐量为优化目标的资源分配模型.在构建的资源分配模型下,提出一种基于Q学习和差分进化的联合功率控制与信道分配算法（QDJPCA）.该算法通过获取功率控制的反馈结果,采用基于多重变异和自适应交叉因子的差分进化算法进行信道分配;针对每次迭代产生的信道分配结果,采用基于状态聚类和状态修正的Q学习算法实现功率控制.NS-3仿真结果表明,QDJPCA能够有效求解所提资源分配模型,在优先保证网关负载均衡和高负载链路吞吐量性能的基础上提升网络整体性能. 相似文献