期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张昊迪陈振浩陈俊扬周熠连德富伍楷舜林方真《软件学报》2023,34(8):3821-3835

近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性. 相似文献

2.

深度强化学习中的知识迁移方法研究综述

张启阳陈希亮曹雷赖俊盛蕾《计算机科学》2023,(5):201-216

深度强化学习是人工智能研究中的热点问题，随着研究的深入，其中的短板也逐渐暴露出来，如数据利用率低、泛化能力弱、探索困难、缺乏推理和表征能力等，这些问题极大地制约着深度强化学习方法在现实问题中的应用。知识迁移是解决此问题的非常有效的方法，文中从深度强化学习的视角探讨了如何使用知识迁移加速智能体训练和跨领域迁移过程，对深度强化学习中知识的存在形式及作用方式进行了分析，并按照强化学习的基本构成要素对深度强化学习中的知识迁移方法进行了分类总结，最后总结了目前深度强化学习中的知识迁移在算法、理论和应用方面存在的问题和发展方向。相似文献

3.

基于不确定性的深度强化学习探索方法综述

逄金辉冯子聪《计算机应用研究》2023,(11):3201-3210

深度强化学习(DRL)近年来在诸多复杂序列决策问题场景中(如游戏人工智能、无人驾驶、机器人和金融等)都取得了重要的成就。然而,在诸多现实场景中,深度强化学习的应用面临着采样成本高昂、效率低下的问题。场景中无处不在的不确定性是影响采样效率的重要原因,基于不确定性的深度强化学习探索方法成为解决上述问题的重要手段。首先简要介绍了深度强化学习中的重要概念和主流算法,列举了三种经典探索方法,并对这些方法面对复杂场景时的不足之处进行了总结;之后,介绍了不确定性的概念,以及将不确定性引入DRL探索问题研究的背景,在此基础上进行了归纳整理,将基于不确定性的探索方法分为基于乐观性、基于环境不确定性、基于偶然不确定性三种形式,详细梳理了各类方法的基本原理和优缺点;最后,展望了基于不确定性的深度强化学习探索研究的挑战与可能的发展方向。相似文献

4.

融合好奇心和策略蒸馏的稀疏奖励探索机制

王子腾于亚新夏子芳乔佳琪《计算机应用》2023,(7):2082-2090

深度强化学习算法在奖励稀疏的环境下，难以通过与环境的交互学习到最优策略，因此需要构建内在奖励指导策略进行探索更新。然而，这样仍存在一些问题：1）状态分类存在的统计失准问题会造成奖励值大小被误判，使智能体（agent）学习到错误行为；2）由于预测网络识别状态信息的能力较强，内在奖励产生状态的新鲜感下降，影响了最优策略的学习效果；3）由于随机状态转移，教师策略的信息未被有效利用，降低了智能体的环境探索能力。为了解决以上问题，提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE(Randomly Generated Network Prediction and Hash Count Exploration)，并通过蒸馏（distillation）将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励：一方面在多回合间以随机生成网络预测差构建全局好奇心奖励；另一方面在单回合内以哈希离散化统计构建局部好奇心奖励，从而保证内在奖励的合理性以及策略梯度更新的正确性。此外，将多个教师策略学习到的知识通过蒸馏迁移到学生策略中，有效提升学生策略的环... 相似文献

5.

深度强化学习研究综述

杨思明单征丁煜李刚伟《计算机工程》2021,47(12):19-29

深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。相似文献

6.

一种多动机强化学习框架 总被引：1，自引：0，他引：1

赵凤飞覃征《计算机研究与发展》2013,50(2):240-247

以Q学习为代表的传统强化学习方法都是维持一个状态与动作的映射表.这种状态-动作的二层映射结构缺乏灵活性,同时不能有效地使用先验知识引导学习过程.为了解决这一问题,提出了一种基于多动机强化学习(MMRL)的框架.MMRL框架在状态与动作间引入动机层,将原有的状态-动作二层结构扩展为状态-动机-动作三层结构,可根据经验设置多个动机.通过动机的设定实现了先验知识的利用,进而加快了强化学习的进程,提高了强化学习的灵活性.实验表明,通过合理的动机设定,多动机强化学习的学习速度较传统强化学习有明显提升. 相似文献

7.

稀疏场景下基于理性好奇心的多智能体强化学习

金志军王浩方宝富《计算机工程》2023,(5):302-309

强化学习当前越来越多地应用于多智能体系统。在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率。为解决稀疏奖励问题,提出一种基于理性好奇心的多智能体强化学习方法。受内在动机理论的启发,将好奇心思想扩展到多智能体中,并给出理性好奇心奖励机制,利用分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去研究新颖且有用的效用状态。在此基础上,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值的过估计偏差和方差,并采用均值优化策略提高样本利用。在追捕任务和合作导航任务的环境中进行实验评估,结果表明,在最困难的追捕任务中,该方法相较于基线算法,胜率提高15%左右,所需时间步降低20%左右,在合作导航任务中也具有较快的收敛速度。相似文献

8.

深度强化学习理论及其应用综述

万里鹏兰旭光张翰博郑南宁《模式识别与人工智能》2019,32(1):67-81

一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足. 面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向. 文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨. 相似文献

9.

基于内在动机的强化学习算法在两轮机器人中的研究

任红格向迎帆李福进刘伟民 《计算机测量与控制》2015,23(9):3185-3187, 3191

针对两轮自平衡机器人在学习过程中遇到的主动性差和以往强化学习对单步学习效率低的问题,受心理学中内在动机理论的启发,提出一种基于内在动机的强化学习算法;该算法利用内在动机信号作为内部奖励,模拟人类心理认知机理并与外部信号一起作用于整个学习过程,提高了智能体的自学习能力,同时采用自组织神经网络进行训练,保证了算法的快速性;通过无扰动和有扰动两种仿真实验的对比,验证了基于内在动机的强化学习算法能够使两轮机器人在未知环境下通过自主学习最终达到平衡,且体现了该算法的鲁棒性和可行性。 相似文献

10.

基于奖励预测误差的内在好奇心方法

谭庆李辉吴昊霖王壮邓书超《计算机应用》2022,42(6):1822-1828

针对状态预测误差直接作为内在好奇心奖励,在状态新颖性与奖励相关度低的任务中强化学习智能体不能有效探索环境的问题,提出一种基于奖励预测误差的内在好奇心模块（RPE-ICM）。RPE-ICM利用奖励预测误差网络（RPE-Network）学习并修正状态预测误差奖励,并将奖励预测误差（RPE）模型的输出作为一种内在奖励信号去平衡探索过度与探索不足,使得智能体能够更有效地探索环境并利用奖励去学习技能,从而达到更好的学习效果。在不同的MuJoCo环境中使用RPE-ICM、内在好奇心模块（ICM）、随机蒸馏网络（RND）以及传统的深度确定性策略梯度（DDPG）算法进行对比实验。结果表明,相较于传统DDPG、ICM-DDPG以及RND-DDPG,基于RPE-ICM的DDPG算法的平均性能在Hopper环境中分别提高了13.85%、13.34%和20.80%。相似文献

11.

基于决策知识学习的多无人机航迹协同规划

曾熠刘丽华李璇杜溢墨陈丽娜《计算机系统应用》2022,31(8):125-132

考虑无人机群体行为决策与状态变化的内在驱动, 从信息处理角度提出基于决策知识学习的多无人机航迹协同规划方法. 首先, 基于马尔科夫决策过程对无人机的行为状态进行知识表示, 形成关于连续动作空间的决策知识; 然后, 提出基于知识决策学习的深度确定性策略梯度算法, 实现无人机在决策知识层次上的协同规划. 实验结果表明: 在研发设计演示系统的基础上, 所提方法通过强化学习能够得到一个最优航迹规划策略, 同时使航迹综合评价和平均奖励收敛稳定, 为无人机任务执行提供了决策支持. 相似文献

12.

一种基于伪标签的深度迁移学习算法

葛一正李云栋《工业控制计算机》2023,(11):131-133

深度学习的成功依赖于海量的训练数据，然而获取大规模有标注的数据并不容易，成本昂贵且耗时；同时由于数据在不同场景下的分布有所不同，利用某一特定场景的数据集所训练出的模型往往在其他场景表现不佳。迁移学习作为一种将知识从一个领域转移到另一个领域的方法，可以解决上述问题。深度迁移学习则是在深度学习框架下实现迁移学习的方法。提出一种基于伪标签的深度迁移学习算法，该算法以ResNet-50为骨干，通过一种兼顾置信度和类别平衡的样本筛选机制为目标域样本提供伪标签，然后进行自训练，最终实现对目标域样本准确分类，在Office-31数据集上的三组迁移学习任务中，平均准确率较传统算法提升5.0%。该算法没有引入任何额外网络参数，且注重源域数据隐私，可移植性强，具有一定的实用价值。相似文献

13.

基于轨迹感知的稀疏奖励探索方法

张启阳陈希亮张巧《计算机科学》2023,(1):262-269

现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题，其往往只依赖于预先设计好的环境奖励，从而难以取得较好的效果。在这种场景中，需要更加细致地设计奖励，对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic, A3C)通过并行训练来提升训练效率，提升了原有算法的训练速度，但是对于奖励稀疏的环境，其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题，提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹，进一步判断并决策智能体的探索方向，帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性，将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验，结果表明，所提算法在学习速度和模型稳定性上均有较明显的提升。相似文献

14.

基于TD3算法的自动协商策略

陈佐明詹捷宇《计算机系统应用》2023,32(3):15-24

协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间较长、特定协商领域依赖、协商信息利用不充分等问题.为此,本文提出了一种基于TD3深度强化学习算法的协商策略,通过预训练降低训练过程的探索成本,通过优化状态和动作定义提高协商策略的鲁棒性从而适应不同的协商场景,通过多头语义神经网络和对手偏好预测模块充分利用协商的交互信息.实验结果表明,该策略在不同协商环境下都可以很好地完成协商任务. 相似文献

15.

基于内在动机的智能机器人自主发育算法

任红格向迎帆李福进《计算机应用》2015,35(9):2602-2605

针对两轮自平衡机器人在学习过程中主动性差的问题,受心理学内在动机理论启发,提出一种基于内在动机的智能机器人自主发育算法。该算法在强化学习的理论框架中,引入模拟人类好奇心的内在动机理论作为内部驱动力,与外部奖赏信号一起作用于整个学习过程。采用双层内部回归神经网络存储知识的学习与积累,使机器人逐步学会自主平衡技能。最后针对测量噪声污染对机器人平衡控制中两轮角速度的影响,进一步采用卡尔曼滤波方法进行补偿,以提高算法收敛速度,降低系统误差。仿真实验表明,该算法能够使两轮机器人通过与环境的交互获得认知,成功地学会运动平衡控制技能。相似文献

16.

深度学习图像数据增广方法研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

马岽奡唐娉赵理君张正《中国图象图形学报》2021,26(3):487-502

数据作为深度学习的驱动力，对于模型的训练至关重要。充足的训练数据不仅可以缓解模型在训练时的过拟合问题，而且可以进一步扩大参数搜索空间，帮助模型进一步朝着全局最优解优化。然而，在许多领域或任务中，获取到充足训练样本的难度和代价非常高。因此，数据增广成为一种常用的增加训练样本的手段。本文对目前深度学习中的图像数据增广方法进行研究综述，梳理了目前深度学习领域为缓解模型过拟合问题而提出的各类数据增广方法，按照方法本质原理的不同，将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等4类方法，并以图像数据为主要研究对象，对各类算法进一步按照核心思想进行细分，并对方法的原理、适用场景和优缺点进行比较和分析，帮助研究者根据数据的特点选用合适的数据增广方法，为后续国内外研究者应用和发展研究数据增广方法提供基础。针对图像的数据增广方法，单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5种；多数据混合可按照图像维度的混合和特征空间下的混合进行划分；学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分；学习增广策略的典型方法则可以按照基于元学习和基于强化学习进行分类。目前，数据增广已然成为推进深度学习在各领域应用的一项重要技术，可以很有效地缓解训练数据不足带来的深度学习模型过拟合的问题，进一步提高模型的精度。在实际应用中可根据数据和任务的特点选择和组合最合适的方法，形成一套有效的数据增广方案，进而为深度学习方法的应用提供更强的动力。在未来，根据数据和任务基于强化学习探索最优的组合策略，基于元学习自适应地学习最优数据变形和混合方式，基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据，基于风格迁移探索多模态数据互相转换的应用，这些研究方向十分值得探索并且具有广阔的发展前景。相似文献

17.

基于可解释基拆解和知识图谱的深度神经网络可视化

阮利温莎莎牛易明李绍宁薛云志阮涛肖利民《计算机学报》2021,44(9):1786-1805

近年来,以卷积神经网络(CNN)等为代表的深度学习模型,以其深度分层学习,无标签化学习等优势,已在图像识别为代表的各个领域得到日益广泛的应用.然而,深度神经网络模型由于其内在的黑盒原理,对其内部工作机制的解释仍然面临巨大挑战,其可解释性问题已成为了研究界和工业界的前沿性热点研究课题.针对现有研究存在的缺乏基于图谱的可解释性方法的问题,以及可解释基模型的图谱构建优势,本文提出了一种基于可解释基拆解和知识图谱的深度神经网络可视化方法.首先采用一种面向可解释基模型特征拆解结构的知识图谱构建方法,构建了场景和解释特征之间的解释关系和并列关系等图谱信息;利用场景-特征的解释关系网络,提出了一种基于Jaccard系数的场景间相似度聚类方法;针对现有可解释基模型对相似的场景,其解释特征重合率可能很高的问题,提出了一种基于场景的判别性特征提取方法,在特征拆解结果中能对每一类样本分别提取出能够区别此类和其他类并且拥有同等重要性的拆解特征(即判别性特征);针对现有可解释基的深度网络可视化测试缺乏保真度测试的问题,提出了一种适于深度神经网络的保真度测试方法.保真度测试和人类置信度测试,均表明本文所提方法可取得优异效果. 相似文献

18.

结合向前状态预测和隐空间约束的强化学习表示算法

项宇秦进袁琳琳《计算机系统应用》2022,31(11):148-156

虽然深度强化学习能够解决很多复杂的控制问题, 但是需要付出的代价是必须和环境进行大量的交互, 这是深度强化学习所面临的一大挑战. 造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征. 导致智能体对所处状态理解不足, 从而不能正确给状态分配价值. 因此, 为了让智能体认识所处环境, 提高强化学习样本效率, 本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning, RPRL). 帮助智能体从高维视觉输入中学习并提取状态特征, 以此来提高强化学习样本效率. 该方法用前向的状态转移损失作为辅助损失, 使智能体学习到的特征包含环境转移的相关动态信息. 同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束, 进一步帮助智能体学习到高维度输入的平滑、规则表示. 该方法在DeepMind Control (DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较, 都获得了更好的性能. 相似文献

19.

基于自回归预测模型的深度注意力强化学习方法 总被引：1，自引：0，他引：1

梁星星冯旸赫黄金才王琦马扬刘忠《软件学报》2020,31(4):948-966

近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果. 相似文献

20.

基于深度时空Q网络的机器人疏散人群算法

谭嵋刘士豪周婉陈国文胡学敏《计算机工程》2021,47(6):305-311

针对目前人群疏散方法中机器人灵活性低、场景适应性有限与疏散效率低的问题,提出一种基于深度强化学习的机器人疏散人群算法。利用人机社会力模型模拟突发事件发生时的人群疏散状态,设计一种卷积神经网络结构提取人群疏散场景中复杂的空间特征,将传统的深度Q网络与长短期记忆网络相结合,解决机器人在学习中无法记忆长期时间信息的问题。实验结果表明,与现有基于人机社会力模型的机器人疏散人群方法相比,该算法能够提高在不同仿真场景中机器人疏散人群的效率,从而验证了算法的有效性。相似文献