排序方式: 共有140条查询结果,搜索用时 218 毫秒
81.
现有强化学习方法的收敛性分析大多针对离散状态问题,对于连续状态问题强化学习的收敛性分析仅局限于简单的LQR控制问题.本文对现有两种用于LQR问题收敛的强化学习方法进行分析,针对存在的问题,提出一种只需部分模型信息的强化学习方法.该方法使用递推最小二乘TD(RLS-TD)方法估计值函数参数,递推最小二乘方法(RLS)估计贪心改进策略.并给出理想情况下此方法收敛的理论分析.仿真实验表明该方法收敛到最优控制策略. 相似文献
82.
83.
基于节点生长k-均值聚类算法的强化学习方法 总被引:3,自引:0,他引:3
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略. 相似文献
84.
一种新的基于线性EIV模型的鲁棒估计算法 总被引:2,自引:0,他引:2
提出了一种新的基于线性EIV模型的鲁棒估计算法——鲁棒扩充算法.该算法从结构化数据区域出发,逐渐扩充模型数据集,并不断更新模型参数的估计,直至找到所有模型数据.在每次迭代中,使用C-Step方法对集合进行调整,从而保证了算法的鲁棒性.同时,提出了关于粗差数据和结构化数据分布的结构化密度假设,结合Mean Shift算法,完成对算法的初始位置选取.仿真结果表明,该算法可以有效地处理含有多个结构和大量离群样本的混杂数据,与现有算法相比,具有更强的鲁棒性和更高的精度. 相似文献
85.
本文根据实时仿真和在线优化控制的需要,针对宽馏份连续重整反应器,提出了兼顾“模型的精确性”与“方法的有效性”的一地象数学模型的建立方法,并给出了模型运行的结果。 相似文献
86.
87.
88.
针对传统人工势场中存在局部陷阱问题,提出一种基于灰色定性理论的人工势场算法.首先将环境中自由空间分解为一组凸多边形,以凸多边形的顶点和邻接关系作为关键信息,并分别构成灰色定性基本元和灰色定性关系,由灰色定性关系推理从起始点到目标点需经过的凸多边形序列,再用广义白化函数计算凸多边形序列中的势场.理论分析和实验均表明该算法能够确保机器人在有限的时间内安全到达目标点. 相似文献
89.
基于“感知-行为”的智能模拟技术的现状及展望 总被引:4,自引:0,他引:4
本文详细评述“感知-行为”方法的智能模拟技
术发展的现状,介绍了“感知-行为”模式与传统人工智能方法的区别,并给出了“感知-行为”方法构造智能系统的设计原则. 相似文献
90.
给出了一种能够综合运用先验知识和启发性知识的基于定性定量模型的动态过程故障诊断新方法.首先描述了核心的模糊定性建模和仿真技术,接着设计一种新的知识观测器,其中正常和已知故障状态的知识用模糊定性模型表示,将观测的行为与模糊定性仿真预测行为比较,将匹配的结果诊断输出,若找不到匹配结果,进行故障假设和生成相应模型,并将其预测行为和观测行为比较直到正确诊断. 相似文献