期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

深度强化学习进展: 从AlphaGo到AlphaGo Zero 总被引：1，自引：0，他引：1

赵冬斌唐振韬邵坤朱圆恒《控制理论与应用》2017,34(12):1529-1546

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义. 相似文献

2.

多智能体深度强化学习研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

孙彧曹雷陈希亮徐志雄赖俊《计算机工程与应用》2020,56(5):13-24

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。相似文献

3.

深度强化学习研究综述

赵星宇丁世飞《计算机科学》2018,45(7):1-6

作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。相似文献

4.

深度逆向强化学习研究综述

下载免费PDF全文

陈希亮曹雷何明李晨溪徐志雄《计算机工程与应用》2018,54(5):24-35

深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。相似文献

5.

智能制造领域中深度强化学习的应用综述

吕金旭葛万成《信息与电脑》2023,(5):186-188+193

深度强化学习在智能制造领域具有广泛的应用前景。文章概述了相关文献的综述,总结了深度强化学习在智能制造领域的几个主要应用方向,如自动化控制、智能优化调度、故障预测与维修、品质控制与质量预测以及智能物流和供应链管理。在这些领域,深度强化学习利用深度学习网络和强化学习算法,能够实现更高效、更精准、更智能化的制造过程控制和管理。同时,探讨了深度强化学习在智能制造中面临的挑战和未来发展方向。这些研究对推动智能制造领域的发展,提高制造过程的效率和质量具有重要意义。相似文献

6.

基于值分解的多智能体深度强化学习综述

熊丽琴曹雷赖俊陈希亮《计算机科学》2022,(9):172-182

基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类：简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。相似文献

7.

多智能体深度强化学习及其可扩展性与可迁移性研究综述

闫超相晓嘉徐昕王菖周晗沈林成《控制与决策》2022,37(12):3083-3102

得益于深度学习强大的特征表达能力和强化学习有效的策略学习能力,深度强化学习在一系列复杂序贯决策问题中取得了令人瞩目的成就.伴随着深度强化学习在诸多单智能体任务中的成功应用,其在多智能体系统中的研究方兴未艾.近年来,多智能体深度强化学习在人工智能领域备受关注,可扩展与可迁移性已成为其中的核心研究点之一.鉴于此,首先阐释深度强化学习的发展脉络和典型算法,介绍多智能体深度强化学习的3种学习范式,分析两类多智能体强化学习的典型算法,即分解值函数方法和中心化值函数方法;然后归纳注意力机制、图神经网络等6类具有可扩展性的多智能体深度强化学习模型,梳理迁移学习和课程学习在多智能体深度强化学习可迁移性方向的研究进展;最后讨论多智能体深度强化学习的应用前景与研究方向,为未来多智能体深度强化学习的进一步发展提供可借鉴的参考. 相似文献

8.

深度强化学习中的知识迁移方法研究综述

张启阳陈希亮曹雷赖俊盛蕾《计算机科学》2023,(5):201-216

深度强化学习是人工智能研究中的热点问题，随着研究的深入，其中的短板也逐渐暴露出来，如数据利用率低、泛化能力弱、探索困难、缺乏推理和表征能力等，这些问题极大地制约着深度强化学习方法在现实问题中的应用。知识迁移是解决此问题的非常有效的方法，文中从深度强化学习的视角探讨了如何使用知识迁移加速智能体训练和跨领域迁移过程，对深度强化学习中知识的存在形式及作用方式进行了分析，并按照强化学习的基本构成要素对深度强化学习中的知识迁移方法进行了分类总结，最后总结了目前深度强化学习中的知识迁移在算法、理论和应用方面存在的问题和发展方向。相似文献

9.

移动机器人运动规划中的深度强化学习方法

孙辉辉胡春鹤张军国《控制与决策》2021,36(6):1281-1292

随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少,移动机器人的运动规划能力受到了严峻的挑战.研究移动机器人高效自主的运动规划理论与方法,使其在长期任务中始终保持良好的复杂环境适应能力,对保障工作安全和提升任务效率具有重要意义.对此,从移动机器人运动规划典型应用出发,重点综述了更加适应于机器人动态复杂环境的运动规划方法——深度强化学习方法.分别从基于价值、基于策略和基于行动者-评论家三类强化学习运动规划方法入手,深入分析深度强化学习规划方法的特点和实际应用场景,对比了它们的优势和不足.进而对此类算法的改进和优化方向进行分类归纳,提出了目前深度强化学习运动规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,为机器人智能化的发展提供参考. 相似文献

10.

深度强化学习研究综述

杨思明单征丁煜李刚伟《计算机工程》2021,47(12):19-29

深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。相似文献

11.

深度分层强化学习研究与发展

黄志刚刘全张立华曹家庆朱斐《软件学报》2023,34(2):733-760

深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 相似文献

12.

基于一维卷积循环神经网络的深度强化学习算法

下载免费PDF全文

畅鑫李艳斌田淼陈苏逸杜宇峰赵研《计算机测量与控制》2022,30(1):258-265

针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。相似文献

13.

复杂制造系统建模与优化研究现状及展望

于青云赵慧许佳龚炜李莉《信息与控制》2023,52(1):1-17

近年来,复杂制造系统及其自动化、智能化和定制化等优势在汽车制造、芯片制造、机器人等领域得到了广泛关注,其建模与优化问题也已成为国内外的研究热点。本文首先介绍了复杂制造系统的研究现状和典型场景应用,比如设备管理、生产过程自动化和生产调度管理。紧接着汇总了常见的建模与优化方法以及所解决的实际工程问题,特别是深度学习、强化学习和合作博弈等方法在复杂制造系统建模与优化中的应用。最后,对复杂制造系统建模和优化问题进行了展望。相似文献

14.

网络入侵检测技术综述

下载免费PDF全文

蹇诗婕卢志刚杜丹姜波刘宝旭《信息安全学报》2020,5(4):96-122

随着互联网时代的发展,内部威胁、零日漏洞和DoS攻击等攻击行为日益增加,网络安全变得越来越重要,入侵检测已成为网络攻击检测的一种重要手段。随着机器学习算法的发展,研究人员提出了大量的入侵检测技术。本文对这些研究进行了综述。首先,简要介绍了当前的网络安全形势,并给出了入侵检测技术及系统在各个领域的应用。然后,从数据来源、检测技术和检测性能三个方面对入侵检测相关技术和系统进行已有研究工作的总结与评价,其中,检测技术重点论述了传统机器学习、深度学习、强化学习、可视化分析技术等方法。最后,讨论了当前研究中出现的问题并展望该技术的未来发展方向和前景。本文希望能为该领域的研究人员提供一些有益的思考。相似文献

15.

基于深度学习的人体行为检测方法研究综述

陆卫忠宋正伟吴宏杰曹燕丁漪杰张郁《计算机工程与科学》2021,43(12):2206-2215

行为检测是视频理解与计算机视觉领域炙手可热的研究内容,备受国内外学者的关注,在智能监控、人机交互等多领域被广泛应用。随着科技的进步,深度学习在图像分类领域取得了重大突破,将基于深度学习的识别方法应用于人体行为检测研究已成为行为检测中的热点。基于此,首先对几种常用于行为检测的数据集,及近几年深度学习在行为检测领域的研究现状进行了介绍;接着分析了行为检测方法的基本流程,以及几种常用的基于深度学习的检测方法;最后,从方法性能优劣、应用前景等方面对人体行为检测方法的尚存问题与未来发展趋势进行了分析和展望。相似文献

16.

强化学习在车辆路径问题中的研究综述

下载免费PDF全文

牛鹏飞王晓峰芦磊张九龙《计算机工程与应用》2022,58(1):41-55

车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。相似文献

17.

安全强化学习算法及其在CPS智能控制中的应用

赵恒军李权忠曾霞刘志明《软件学报》2022,33(7):2538-2561

信息物理系统(cyber-physicalsystem,CPS)的安全控制器设计是一个热门研究方向,现有基于形式化方法的安全控制器设计存在过度依赖模型、可扩展性差等问题.基于深度强化学习的智能控制可处理高维非线性复杂系统和不确定性系统,正成为非常有前景的CPS控制技术,但是缺乏对安全性的保障.针对强化学习控制在安全性方面的不足,围绕一个工业油泵控制系统典型案例,开展安全强化学习算法和智能控制应用研究.首先,形式化了工业油泵控制的安全强化学习问题,搭建了工业油泵仿真环境;随后,通过设计输出层结构和激活函数,构造了神经网络形式的油泵控制器,使得油泵开关时间的线性不等式约束得到满足;最后,为了更好地权衡安全性和最优性控制目标,基于增广拉格朗日乘子法设计实现了新型安全强化学习算法.在工业油泵案例上的对比实验表明,该算法生成的控制器在安全性和最优性上均超越了现有同类算法.在进一步评估中,所生成神经网络控制器以90%的概率通过了严格形式化验证;同时,与理论最优控制器相比实现了低至2%的最优目标值损失.所提方法有望推广至更多应用场景,实例研究的方案有望为安全智能控制和形式化验证领域其他学者提供借鉴. 相似文献