期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

欧阳卓周思源吕勇谭国平张悦项亮亮《计算机科学》2022,49(3):46-51

利用深度强化学习技术实现无信号灯交叉路口车辆控制是智能交通领域的研究热点。现有研究存在无法适应自动驾驶车辆数量动态变化、训练收敛慢、训练结果只能达到局部最优等问题。文中研究在无信号灯交叉路口,自动驾驶车辆如何利用分布式深度强化方法来提升路口的通行效率。首先,提出了一种高效的奖励函数,将分布式强化学习算法应用到无信号灯交叉路口场景中,使得车辆即使无法获取整个交叉路口的状态信息,只依赖局部信息也能有效提升交叉路口的通行效率。然后,针对开放交叉路口场景中强化学习方法训练效率低的问题,使用了迁移学习的方法,将封闭的8字型场景中训练好的策略作为暖启动,在无信号灯交叉路口场景继续训练,提升了训练效率。最后,提出了一种可以适应所有自动驾驶车辆比例的策略,此策略在任意比例自动驾驶车辆的场景中均可提升交叉路口的通行效率。在仿真平台Flow上对TD3强化学习算法进行了验证,实验结果表明,改进后的算法训练收敛快,能适应自动驾驶车辆比例的动态变化,能有效提升路口的通行效率。相似文献

2.

基于模仿者学习的自动驾驶寻迹决策模型研究

施浩然朱参世《电脑编程技巧与维护》2023,(8):122-124

通过将模仿学习归约为强化学习问题，结合基线的SAC算法和基于ILR奖励的模仿者奖励机制，提出了一种基于模仿者学习的自动驾驶寻迹决策模型。实验结果表明，该模型在提高自动泊车系统的精确度和速度方面都取得了显著改进，为自动驾驶技术的发展提供了潜力和新的方向。相似文献

3.

自动驾驶车辆在无信号交叉口右转驾驶决策技术研究

王曙燕万顷田《计算机应用研究》2023,40(5)

利用深度强化学习（deep reinforcement learning,DRL）技术实现自动驾驶决策已成为国内外研究热点,现有研究中的车辆交通流缺乏随机性与真实性,同时自动驾驶车辆在环境中的有效探索具有局限性。因此利用TD3算法进行自动驾驶车辆在无信号交叉口下的右转驾驶决策研究,首先在Carla仿真平台中开发无信号交叉口的训练与测试场景,并添加交通流管理功能,提高系统训练和测试随机性。其次,为了提高自动驾驶车辆的探索性,对TD3算法中的Actor网络进行改进,为目标动作添加OU噪声。最后使用通行成功率和平均通行时间评估指标评价自动驾驶行为决策。结果表明,在不同交通流场景下,改进后的TD3算法通行成功率与基于DDPG算法控制的车辆相比平均提升6.2%,与基于规则的AEB模型相比平均提升23%。改进后的TD3算法不仅能够探索更多可能,而且其通行决策表现更加突出。相似文献

4.

基于元强化学习的自动驾驶算法研究

金彦亮范宝荣高塬《工业控制计算机》2024,(3):24-26

随着深度学习和强化学习的发展,基于深度强化学习的端到端自动驾驶模型的研究已经成为热门研究课题。针对基于深度强化学习的自动驾驶模型“学会学习”能力较差,面临新的驾驶任务时需从零开始训练、训练速度缓慢、泛化性能差等问题,提出了一种基于元强化学习的MPPO(Meta-PPO)自动驾驶模型。MPPO模型将元学习与强化学习相结合,利用元学习算法在元训练阶段为自动驾驶模型训练一组良好的参数,使模型在面临新的驾驶任务时能够在该组参数的基础上,经过少量样本微调就可以快速达到收敛状态。实验结果表明,在导航场景任务中,与基于强化学习的基准自动驾驶模型相比,MPPO模型的收敛速度提高了2.52倍,奖励值提高了7.50%,偏移量减少了7.27%,泛化性能也得到了一定程度的提高,能够应用于多任务场景中。相似文献

5.

基于深度强化学习的自动驾驶技术研究

杨霄李晓婷《网络安全技术与应用》2021,(1)

传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。相似文献

6.

强化学习的自动驾驶控制技术研究进展

下载免费PDF全文

潘峰鲍泓《中国图象图形学报》2021,26(1):28-35

自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为：监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。相似文献

7.

基于深度强化学习的多路口信号控制优化研究

赵纯董小明《计算机应用研究》2022,39(8)

新起的智能交通系统在改善交通流量,优化燃油效率,减少延误和提高整体驾驶经验方面有望发挥重要作用。现今,交通拥堵是困扰人类的一个极其严重的问题,特别是一些城市交通密集的十字路口处可能会更加严重。对信号控制系统的奖励机制进行了改进,将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励,并且通过密集采样策略与多路口信号控制相结合的方式,运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件（SUMO）完成,从实验结果表明,改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。相似文献

8.

基于动作约束深度强化学习的安全自动驾驶方法

代珊珊刘全《计算机科学》2021,48(9):235-243

随着人工智能的发展,自动驾驶领域的研究也日益壮大.深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一.其中,安全探索问题是该领域的一个研究热点.然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败.针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制.无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态.另外,CSAC方法又对智能体的动作进行了约束.当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作.为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比.结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度.最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性. 相似文献

9.

专家监督的SAC强化学习重载列车运行优化控制

杨辉王禹李中奇付雅婷谭畅《控制理论与应用》2022,39(5):799-808

重载列车是我国大宗商品运输的重要方式,因载重大、车身长、线路复杂等因素导致重载列车的控制变得困难.本文将列车运行过程分为启动牵引、巡航控制、停车制动3个阶段,基于多质点重载列车纵向动力学模型,考虑常用空气制动,利用(SAC)强化学习方法,结合循环神经网络对专家经验数据进行行为克隆,并将克隆出的专家策略对强化学习训练进行监督,训练了一种新的智能驾驶操控策略.本文的策略可以高效学习驾驶经验数据,不断从学习中提高目标奖励,得到最优控制策略.仿真结果表明:本文所提的控制策略比未受专家模型监督的强化学习算法更优,奖励提升的周期更快,并能获得更高的奖励,训练出的控制器运行效果更加高效、稳定. 相似文献

10.

基于粒子群优化和深度强化学习的策略搜索方法

彭坤彦尹翔刘笑竹李恒宇《计算机工程与科学》2023,(4):718-725

深度强化学习DRL算法是一种常用的策略搜索方法，已成功应用于一系列具有挑战性的控制任务。但是，由于DRL难以应对奖励稀疏问题，缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性，使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法，它使用整个episode的累积回报作为适应性值，对奖励稀疏的环境不敏感，且该算法也具有基于种群的多样化探索以及稳定的收敛性，但样本效率低。因此，提出了PSO-RL算法，结合PSO和基于策略梯度的离策略DRL算法，DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略，并且每次都将训练后累积奖励得到提升的策略插入PSO种群，增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率，而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明，PSO-RL的性能不仅优于DRL的，且优于进化强化学习算法的。相似文献

11.

基于FPGA的深度强化学习硬件加速技术研究

下载免费PDF全文

凤雷王宾涛刘冰李喜鹏《计算机测量与控制》2022,30(6):242-247

深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。相似文献

12.

基于强化学习的自动驾驶汽车路径规划方法研究综述

许宏鑫吴志周梁韵逸《计算机应用研究》2023,40(11)

路径规划作为自动驾驶的关键技术,具有广阔的应用前景和科研价值。探索解决自动驾驶车辆路径规划问题的方法,着重关注基于强化学习的路径规划方法。在阐述基于常规方法和强化学习方法的路径规划技术的基础上,重点总结了基于强化学习和深度强化学习来解决自动驾驶车辆路径规划问题的算法,并将算法按照基于值和基于策略的方式进行分类,分析各类算法的特点、优缺点及改进措施。最后对基于强化学习的路径规划技术的未来发展方向进行了展望。相似文献

13.

模仿学习综述：传统与新进展

下载免费PDF全文

张超白文松杜歆柳伟杰周晨浩钱徽《中国图象图形学报》2023,28(6):1585-1607

模仿学习是强化学习与监督学习的结合,目标是通过观察专家演示,学习专家策略,从而加速强化学习。通过引入任务相关的额外信息,模仿学习相较于强化学习,可以更快地实现策略优化,为缓解低样本效率问题提供了解决方案。模仿学习已成为解决强化学习问题的一种流行框架,涌现出多种提高学习性能的算法和技术。通过与图形图像学的最新研究成果相结合,模仿学习已经在游戏人工智能（artificial intelligence,AI）、机器人控制和自动驾驶等领域发挥了重要作用。本文围绕模仿学习的年度发展,从行为克隆、逆强化学习、对抗式模仿学习、基于观察量的模仿学习和跨领域模仿学习等多个角度进行深入探讨,介绍了模仿学习在实际应用上的最新情况,比较了国内外研究现状,并展望了该领域未来的发展方向。旨在为研究人员和从业人员提供模仿学习的最新进展,从而为开展工作提供参考与便利。相似文献

14.

面向频谱接入深度强化学习模型的后门攻击方法

魏楠魏祥麟范建华薛羽胡永扬《计算机科学》2023,(1):351-361

深度强化学习(Deep Reinforcement Learning, DRL)方法以其在智能体感知和决策方面的优势,在多用户智能动态频谱接入问题上得到广泛关注。然而,深度神经网络的弱可解释性使得DRL模型容易受到后门攻击威胁。针对认知无线网络下基于深度强化学习模型的动态频谱接入(Dynamic Spectrum Access, DSA)场景,提出了一种非侵入、开销低的后门攻击方法。攻击者通过监听信道使用情况来选择非侵入的后门触发器,随后将后门样本添加到次用户的DRL模型训练池,并在训练阶段将后门植入DRL模型中;在推理阶段,攻击者主动发送信号激活模型中的触发器,使次用户做出目标动作,降低次用户的信道接入成功率。仿真结果表明,所提后门攻击方法能够在不同规模的DSA场景下达到90%以上的攻击成功率,相比持续攻击可以减少20%～30%的攻击开销,并适用于3种不同类型的DRL模型。相似文献

15.

基于不确定性的深度强化学习探索方法综述

逄金辉冯子聪《计算机应用研究》2023,(11):3201-3210

深度强化学习(DRL)近年来在诸多复杂序列决策问题场景中(如游戏人工智能、无人驾驶、机器人和金融等)都取得了重要的成就。然而,在诸多现实场景中,深度强化学习的应用面临着采样成本高昂、效率低下的问题。场景中无处不在的不确定性是影响采样效率的重要原因,基于不确定性的深度强化学习探索方法成为解决上述问题的重要手段。首先简要介绍了深度强化学习中的重要概念和主流算法,列举了三种经典探索方法,并对这些方法面对复杂场景时的不足之处进行了总结;之后,介绍了不确定性的概念,以及将不确定性引入DRL探索问题研究的背景,在此基础上进行了归纳整理,将基于不确定性的探索方法分为基于乐观性、基于环境不确定性、基于偶然不确定性三种形式,详细梳理了各类方法的基本原理和优缺点;最后,展望了基于不确定性的深度强化学习探索研究的挑战与可能的发展方向。相似文献

16.

迈进高维连续空间:深度强化学习在机器人领域中的应用

多南讯吕强林辉灿卫恒《机器人》2019,41(2):276-288

首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3类,详细讲解了深度强化学习中的最新代表性算法及其特点,并重点阐述了其思路、优势及不足.最后,结合深度强化学习算法的发展方向,对使用深度强化学习方法解决机器人学问题的未来发展趋势进行了展望. 相似文献

17.

元强化学习研究综述

陈奕宇霍静丁天雨高阳《软件学报》2024,35(4):1618-1650

近年来,深度强化学习(deep reinforcement learning, DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学习(meta-reinforcementlearning,Meta-RL)致力于以更小的样本量适应更广泛的任务,其研究有望缓解上述限制从而推进强化学习领域发展.以元强化学习工作的研究对象与适用场景为脉络,对元强化学习领域的研究进展进行了全面梳理:首先,对深度强化学习、元学习背景做基本介绍;然后,对元强化学习作形式化定义及常见的场景设置总结,并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展;最后,分析了元强化学习领域的研究挑战与发展前景. 相似文献

18.

基于地面先验的3D目标检测算法

赵筱楠《计算机应用研究》2022,39(1):275-279

为了提高自动驾驶汽车环境感知的性能,增强单目相机对障碍物三维和边界信息的感知能力,提出了一种基于地面先验的3D目标检测算法。基于优化的中心网络(CenterNet)模型,以DLA(deep layer aggregation)为主干网络,增加目标3D边沿框中心点冗余信息预测。根据自动驾驶场景的地面先验信息,结合针孔相机模型,获取目标3D中心深度信息,以优化深度网络学习效果。使用KITTI 3D数据集评测算法性能,结果表明:在保证2D目标检测准确性的基础上,该算法运行帧率约20 fps,满足自动驾驶感知实时性要求;同时相比于CenterNet模型,在平均方位角得分(average orientation score)和鸟视图平均准确率(bird eye view AP)上分别有4.4和4.4%的性能提升。因而,该算法可以提高自动驾驶汽车对障碍物三维和边界信息的感知能力。相似文献

19.

灾害应急场景下基于多智能体深度强化学习的任务卸载策略

米德昌王霄李梦丽秦俊康《计算机应用研究》2023,40(12)

针对传统深度强化学习（deep reinforcement learning,DRL）中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习（MADRL）的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据多跳的问题,建立了灾害应急场景下基于MADRL的任务卸载模型;然后,针对传统DRL由高维动作空间导致的收敛缓慢问题,利用自适应差分进化算法（ADE）的变异和交叉操作探索动作空间,提出了自适应参数调整策略调整ADE的迭代次数,避免DRL在训练初期对动作空间的大量无用探索;最后,为进一步提高传统DRL经验重放组中的数据利用率,加入优先级经验重放技术,加速网络训练过程。仿真结果表明,ADE-DDPG算法相比改进的深度确定性策略梯度网络（deep deterministic policy gradient,DDPG）节约了35%的整体开销,验证了ADE-DDPG在性能上的有效性。相似文献

20.

基于深度强化学习的道路信号灯控制算法

高航王伟光《计算机仿真》2021,38(10):154-159

各大城市都存在过十字路口时车辆拥堵现象,为了解决这一问题,提出基于深度强化学习的一种解决算法.该算法针对于这一现象,构建了一种道路信号灯控制的强化学习模型.以单交叉口为仿真参考对象进行仿真,仿真结果表明,上述算法更有利于十字路口的吞吐量,进一步减少路口车辆等待时间,达到了合理调控道路信号灯时间、缓解路口拥堵的目标. 相似文献