首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   56篇
  免费   12篇
  国内免费   8篇
工业技术   76篇
  2024年   1篇
  2023年   3篇
  2022年   3篇
  2021年   7篇
  2020年   4篇
  2019年   11篇
  2017年   4篇
  2016年   1篇
  2015年   3篇
  2014年   5篇
  2013年   9篇
  2012年   1篇
  2011年   5篇
  2009年   1篇
  1997年   1篇
  1996年   1篇
  1995年   1篇
  1994年   1篇
  1993年   5篇
  1992年   1篇
  1991年   3篇
  1990年   1篇
  1989年   3篇
  1987年   1篇
排序方式: 共有76条查询结果,搜索用时 31 毫秒
51.
提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。  相似文献   
52.
施梦宇  刘全  傅启明 《通信学报》2015,36(2):186-192
针对自适应tile coding算法会产生多余划分的问题,提出一种支持合并的自适应tile coding算法——MATC。该算法能够消除传统自适应tile coding算法中产生的多余划分,进一步解决连续状态空间离散化的问题。将MATC算法应用于离散动作连续状态的Mountain Car问题上,实验结果表明,该算法在学习过程中能消除传统tile coding算法的误划分所产生的不良影响,更准确地自动调整划分的精度,并更快地收敛到最佳策略。  相似文献   
53.
基于优先级扫描Dyna结构的贝叶斯Q学习方法   总被引:2,自引:0,他引:2  
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。  相似文献   
54.
西南铝加工厂的科技情报工作政策是:围绕本厂生产建设和科研课题的开展,广辟情报来源,加强文献工作,深入调查研究,掌握国内外铝加工工业科学技术发展水平及动向,有针对性地、及时地提供情报资料和分析研究资料,有效地为本厂经济建设服务。“七五”期间本厂情报部门生产的科技  相似文献   
55.
为了减少能耗,降低成本,减轻重量,提高速度,各国对有色合金,特别是Al、Mg、Zn基合金材料在汽车铸件上的开发应用极为关注。本文就有色合金用于汽车铸件生产的现状及发展趋势作了介绍。作者认为,综合精炼、变质处理、合金化以及铸造合金的定向合成,如压力铸造和液态冲压等先进铸造方法的应用,对于具有高于一般合金的工艺性能和使用性能的有色金属汽车铸件的品种开发是非常有利的  相似文献   
56.
人类经过了几千年的文明史,才对信息的本质有了初步的认识:信息是物质世界各种事物的一种属性,是物质运动变化的一种反映。当前,信息这个词已被广泛地用于社会生活和人们的日常生活中。对信息的认识和重视程度正在日益增强。对信息的开发利用也越来越广泛和深入。在企业中,从原材料、劳动力、能源及资金的投入,到生产、加工直至产品销售及售后服务这一物质生产过程,都无时无刻地产生着大量的信息。物质流和信息流构成了企业的两大流。现代企业管理的实质就是对信息的管理。通过对信息的管理,才能对物  相似文献   
57.
针对强化学习在大状态空间或连续状态空间中存在的“维数灾”问题,提出一种基于智能调度的可扩展并行强化学习方法—IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本—IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能.  相似文献   
58.
傅启明  刘全  伏玉琛  周谊成  于俊 《软件学报》2013,24(11):2676-2686
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car 问题,实验结果表明,该算法收敛速度较快,收敛精度较好.  相似文献   
59.
基于J2EE架构的B/S系统日益成为企业信息化的优选方案,同时系统的稳定运行也是很多企业信息化所关注的重点。通过论述对J2EE架构的B/S系统进行监控,实时或定时获取系统运行数据,并且根据采集的数据进行汇总比较,从而分析出当前信息系统存在的运行风险和问题,为保障企业信息系统稳定运行提供有力支撑和保障。  相似文献   
60.
周鑫  刘全  傅启明  肖飞 《计算机科学》2014,41(9):232-238
策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号