期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于人类先验知识的强化学习综述

《计算机应用》2021,41(z2)

相似文献

2.

基于先验知识的改进强化学习及其在MAS中应用 总被引：1，自引：1，他引：1

下载免费PDF全文

毛俊杰刘国栋《计算机工程与应用》2008,44(24):156-158

针对传统的多Agent强化学习算法中,Agent学习效率低的问题,在传统强化学习算法中加入具有经验知识的函数;从心理学角度引入内部激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。最后将此算法运用到RoboCup仿真中,仿真结果表明该算法的学习效率和收敛速度明显优于传统的强化学习。相似文献

3.

基于事件驱动深度强化学习的建筑热舒适控制

李竹傅启明丁正凯刘璐张颖陈建平《计算机应用研究》2024,41(2)

住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程（event-driven Markov decision process,ED-MDP）框架,并在此基础上,提出了基于事件驱动的深度确定性策略梯度（event-driven deep deterministic policy gradient,ED-DDPG）方法,通过事件触发优化控制,结合强化学习算法求解最优控制策略。实验结果显示,与基准方法相比,ED-DDPG在提升学习速度和减少决策频率方面表现出色,并在节能和维持热舒适方面取得了显著成果。经过实验验证,该方法在优化住宅暖通空调控制方面展现出强大的鲁棒性和适应性。相似文献

4.

未知环境下基于有先验知识的滚动Q学习机器人路径规划 总被引：1，自引：0，他引：1

胡俊朱庆保《控制与决策》2010,25(9):1364-1368

提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意. 相似文献

5.

Q学习的改进研究及其仿真实验 总被引：1，自引：0，他引：1

张云刘建平《计算机仿真》2007,24(10):111-114

Q学习是一种重要的强化学习方法.针对Q学习的不足,进行了一些改进研究.首先引入轮盘赌的方法,通过概率的途径进行行为选择,避免了早期训练中高Q值的束缚,增加了随机性,更加符合Q学习的要求.其次针对复杂环境或是稀疏型回报函数的情况下计算量的指数增长,通过添加正负再励信号的方法进行改进,并通过大量的仿真实验进行反复验证,得出负的再励信号更加有效.理论和实验均证明,该方法具有较强的可行性,切实有效的加快了Q函数的收敛速度,提高了学习效率. 相似文献

6.

基于场景先验知识的室内人体行为识别方法

刘昕袁家斌王天星《计算机科学》2022,49(1):225-232

目前,室内人体行为识别技术被广泛应用于视频内容理解、居家养老、医疗护理等领域,现有研究方法更多的是对人体行为进行建模,忽略了视频中场景与人体行为间的联系。为了充分利用场景信息与室内人体运动的关联性,文中对基于场景先验知识的室内人体行为识别方法进行了研究,提出了一种基于场景先验知识的双流膨胀3D行为识别网络(Scene-Prior Know-ledge Inflated 3D ConvNet, SPI3D)。首先使用ResNet152网络提取场景特征进行场景分类,再基于场景分类的结果,引入量化后的场景先验知识,通过对权值进行约束来优化总体目标函数。另外,针对现有数据集多聚焦于人体行为特征、场景复杂且场景特征不明显的问题,自建了室内场景-行为识别数据集(Scene-Action DataBase, SADB)。实验结果表明,在SADB数据集上,SPI3D网络的识别准确率为87.9%,比直接利用I3D网络的识别准确率高6%。由此可见,引入场景先验知识后的室内人体行为识别模型具有更好的表现。相似文献

7.

基于先验知识的缺损数据研究

娄海彦楼巍严利民《控制工程》2004,11(6):539-541

缺损数据是企业在实现信息化管理过程中需要重视和处理的重点问题之一。以粮食企业信息化管理系统为实际操作的样本,在其关系型数据库中,属性之间的相互关联关系(称之为先验知识或领域知识)为修正和填充缺损数据提供了大量有益的帮助。采用了基于先验知识的缺损数据处理方法,重点针对系统中的离散属性的缺损数据进行了研究．对该系统中的缺损数据的处理有着很强的实用性,并为其他类似问题的解决提供了可借鉴的方案。相似文献

8.

融合先验知识的自适应行人跟踪算法 总被引：3，自引：0，他引：3

程有龙李斌张文聪庄镇泉《模式识别与人工智能》2009,22(5)

在实际监控场合中,行人的运动有着诸多不确定性,这些会对现有的跟踪算法产生干扰,从而造成跟踪丢失.基于此,文中提出一种将行人检测的先验知识融入到跟踪模型自学习过程的行人跟踪算法.首先通过离线训练,得到具有较强区分能力的子分类器集,这些子分类器蕴含了对于行人的先验知识.在跟踪过程中,使用online boosting算法从离线训练的子分类器集中学习并更新强分类器,对被跟踪行人进行动态建模.实验结果表明,该算法有效缓解算法自适应性与"漂移"之间的矛盾,能够在真实监控场合下跟踪具有复杂运动的行人. 相似文献

9.

基于KPCA的HVAC系统传感器故障诊断

高运广刘顺波张振仁《传感器与微系统》2008,27(5):37-40

传感器状态的好坏很大程度上影响暖通空调(HVAC)系统的运行,对其展开故障诊断十分必要。核主成分分析(KPCA)方法通过集成算子与非线性核函数计算高维特性空间的主元成分,有效捕捉过程变量中的非线性关系,将其用于传感器常见4种故障的诊断,先用Q统计量进行故障监测,再用T2贡献量百分比变化来识别故障。实验结果表明:KPCA方法具有很好的故障监测与诊断能力。相似文献

10.

一种先验知识引导的基于二阶段渐进网络的自主抓取策略

张森彦田国会张营刘小龙《机器人》2020,42(5):513-524

针对未知不规则物体在堆叠场景下的抓取任务,提出一种基于二阶段渐进网络(two-stage progressive network,TSPN)的自主抓取方法.首先利用端对端策略获取全局可抓性分布,然后基于采样评估策略确定最优抓取配置.将以上2种策略融合,使得TSPN的结构更加精简,显著减少了需评估样本的数量,能够在保证泛化能力的同时提升抓取效率.为了加快抓取模型学习进程,引入一种先验知识引导的自监督学习策略,并利用220种不规则物体进行抓取学习.在仿真和真实环境下分别进行实验,结果表明该抓取模型适用于多物体、堆叠物体、未知不规则物体、物体位姿随机等多种抓取场景,其抓取准确率和探测速度较其他基准方法有明显提升.整个学习过程历时10天,结果表明使用先验知识引导的学习策略能显著加快学习进程. 相似文献

11.

基于优势学习的深度Q网络

下载免费PDF全文

夏宗涛秦进《计算机工程与应用》2019,55(20):101-106

强化学习问题中，同一状态下不同动作所对应的状态-动作值存在差距过小的现象，Q-Learning算法采用MAX进行动作选择时会出现过估计问题，且结合了Q-Learning的深度Q网络（Deep Q Net）同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题，提出一种基于优势学习的深度Q网络，通过优势学习的方法构造一个更正项，利用目标值网络对更正项进行建模，同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时，更正项为零，不对评估函数的值进行改动，当选择的动作不是最优动作时，更正项的值为负，降低了非最优动作的评估值。和传统的深度Q网络相比，基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值，在krull、seaquest中取得了更加稳定的策略。相似文献

12.

基于深度学习与行为先验的吸烟和打电话检测方法

徐望明徐天赐李传东伍世虔《计算机应用与软件》2022,39(4):199-204

针对深度学习方法在实现端到端的特定行为检测时存在的局限性,提出将深度学习与行为先验相结合的改进方法自动检测吸烟和打电话行为。自建行为数据集,训练一个适合特定行为和小目标检测的深度网络;利用训练好的网络模型对输入图像进行前向预测。在初步预测出特定行为(吸烟或打电话)和与该行为相关的特定目标(手、香烟或手机等)信息后,结合行为先验建立逻辑推理关系进一步判定行为是否发生。实验结果表明,与单纯的基于深度学习的端到端行为检测方法相比,该方法能有效解决行为误检问题、明显提升检测精度。相似文献

13.

基于先验知识的航拍绝缘子检测方法

宋万潼李冰锋费树岷《计算机工程》2021,47(8):301-307,314

在架空输电线路中对带电状态的绝缘子进行检测和故障定位,对保证电网可靠运行具有重大意义.基于无人机平台提出一种复杂背景条件下的绝缘子检测算法.在检测算法的特征提取层引入注意力机制模块以获取更多的绝缘子特征信息,同时利用航拍图像中绝缘子的先验知识,结合K均值聚类算法改进目标候选框的生成模式.在此基础上,通过将中心损失引入绝... 相似文献

14.

深度强化学习中的知识迁移方法研究综述

张启阳陈希亮曹雷赖俊盛蕾《计算机科学》2023,(5):201-216

深度强化学习是人工智能研究中的热点问题,随着研究的深入,其中的短板也逐渐暴露出来,如数据利用率低、泛化能力弱、探索困难、缺乏推理和表征能力等,这些问题极大地制约着深度强化学习方法在现实问题中的应用。知识迁移是解决此问题的非常有效的方法,文中从深度强化学习的视角探讨了如何使用知识迁移加速智能体训练和跨领域迁移过程,对深度强化学习中知识的存在形式及作用方式进行了分析,并按照强化学习的基本构成要素对深度强化学习中的知识迁移方法进行了分类总结,最后总结了目前深度强化学习中的知识迁移在算法、理论和应用方面存在的问题和发展方向。相似文献

15.

增强现实系统中基于先验知识的虚拟抓取识别

汪超黄东晋王冠丁友东《传感器与微系统》2011,30(12):28-31

为了实现增强现实系统中抓取动作的识别,针对传统方法实时性不强、容易产生误判的不足,提出了基于先验知识的虚拟抓取识别算法.通过对大量实验数据的分析,提取关键数据进行处理并完成决策树的构建,通过基于一种数据拟合的碰撞检测方法,真正实现了真实手对虚拟对象的抓取识别.实验结果表明:该算法识别率高、实时性好、交互自然真实,较好地... 相似文献

16.

基于双深度网络的安全深度强化学习方法

朱斐吴文伏玉琛刘全《计算机学报》2019,42(8)

相似文献

17.

新型模糊PID控制及在HVAC系统的应用

吕红丽段培永崔玉珍贾磊《控制理论与应用》2009,26(11):1277-1281

为了推广模糊控制器在非线性系统中的应用,提出一种利用PID控制器的参数优化和调节模糊控制器的新型设计方法.通过模糊控制器的结构分析建立与PID控制之间的精确解析关系之后提出基于PID控制增益因子的模糊控制器设计算法,然后利用改进的变论域思想进一步优化模糊控制器设计参数.将其应用于暖通空调(HVAC)系统的节能控制中并与常规PID控制器相比较,仿真和实验结果表明这种模糊控制器具有超调量小、跟踪迅速、鲁棒性强等优越的控制性能. 相似文献

18.

基于双深度Q网络的智能决策系统研究

况立群冯利韩燮贾炅昊郭广行《计算机技术与发展》2022,(2):137-142

目前智能决策系统中的经典算法智能化程度较低,而更为先进的强化学习算法应用于复杂决策任务又会导致存储上的维度灾难问题。针对该问题,提出了一种基于双深度Q网络的智能决策算法,改进了目标Q值计算方法,并将动作选择和策略评估分开进行,从而获得更加稳定有效的策略。智能体对输入状态进行训练,输出一个较优的动作来驱动智能体行为,包括环境感知、动作感知及任务协同等,继而在复杂度较高的决策环境中顺利完成给定任务。基于Unity3D游戏引擎开发了虚拟智能对抗演练的验证系统,对演练实时状态和智能体训练结果进行可视化,验证了双深度Q网络模型的正确性和稳定性,有效解决了强化学习算法存在的灾难问题。该智能决策算法有望在策略游戏、对抗演练、任务方案评估等领域发挥作用。相似文献

19.

烟草种植区划中基于先验知识的SVM气候模型

王德吉栗卫军《软件导刊》2009,(1)

烟草区划是改进烟草质量非常重要的手段,而气候模式是其中的关键因素。但气候受外界环境影响因素很大,数据不是高斯分布,人类的经验无法应用到回归过程中,常规方法不能预测。提出基于先验知识的SVM,把先验知识融入到预测中,并通过仿真实验证明了该方法是有效的。相似文献

20.

基于GIS先验知识的智能配送优化及实现 总被引：1，自引：0，他引：1

郑湘丽《计算技术与自动化》2011,(4):111-114

物流配送作为物流产业的核心进程,其效率的高低直接影响整个物流业的发展.鉴于目前的配送调度多依赖于传统的数学模型导致规划的最优路线与实际经验不相符,文章提出将实时交通信息、行车经验等现实因素作为GIS先验知识指导智能配送的优化的算法并进行实现.应用结果表明该成果能在很大程度上提高物流配送的效率. 相似文献