排序方式: 共有76条查询结果,搜索用时 31 毫秒
51.
52.
53.
基于优先级扫描Dyna结构的贝叶斯Q学习方法 总被引:2,自引:0,他引:2
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。 相似文献
54.
西南铝加工厂的科技情报工作政策是:围绕本厂生产建设和科研课题的开展,广辟情报来源,加强文献工作,深入调查研究,掌握国内外铝加工工业科学技术发展水平及动向,有针对性地、及时地提供情报资料和分析研究资料,有效地为本厂经济建设服务。“七五”期间本厂情报部门生产的科技 相似文献
55.
为了减少能耗,降低成本,减轻重量,提高速度,各国对有色合金,特别是Al、Mg、Zn基合金材料在汽车铸件上的开发应用极为关注。本文就有色合金用于汽车铸件生产的现状及发展趋势作了介绍。作者认为,综合精炼、变质处理、合金化以及铸造合金的定向合成,如压力铸造和液态冲压等先进铸造方法的应用,对于具有高于一般合金的工艺性能和使用性能的有色金属汽车铸件的品种开发是非常有利的 相似文献
56.
57.
针对强化学习在大状态空间或连续状态空间中存在的“维数灾”问题,提出一种基于智能调度的可扩展并行强化学习方法—IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本—IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能. 相似文献
58.
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car 问题,实验结果表明,该算法收敛速度较快,收敛精度较好. 相似文献
59.
基于J2EE架构的B/S系统日益成为企业信息化的优选方案,同时系统的稳定运行也是很多企业信息化所关注的重点。通过论述对J2EE架构的B/S系统进行监控,实时或定时获取系统运行数据,并且根据采集的数据进行汇总比较,从而分析出当前信息系统存在的运行风险和问题,为保障企业信息系统稳定运行提供有力支撑和保障。 相似文献
60.
策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。 相似文献