首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性.  相似文献   

2.
柴来  张婷婷  董会  王楠 《计算机学报》2021,44(6):1140-1152
近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR-MPI).首先,该算法使用分区缓存区的经验重放形式,通过划分奖励空间来区分正面经验、负面经验与中性经验,并在训练时使用分层随机的采样方式抽取这些经验数据.其次,算法运用多线程的交互方式促进了智能体与环境的试错过程,通过智能体的多个克隆体并行的学习并整合它们的学习经验来训练网络模型的参数.然后,为了构建PBR-MPI算法的适用场景,本文根据目前多智能体系统(Multi-Agent System,MAS)的最新研究进展,将多智能体的信息交互方式归纳总结为集中式信息交互、全信息交互和欠信息交互三大类.最后,将新算法与其它的多智能体DRL算法分别在三种不同的信息交互场景中进行对比实验,用于验证和评价PBR-MPI的有效性及整体性能.实验结果表明,在智能体个数为5的多智能体目标追踪任务中,缓存区数为3、线程数为5的PBR-MPI算法的学习收敛速度平均提高了21%,训练效率平均提升了34%,并且在综合性能的评估中新算法的整体性能改善了50%.  相似文献   

3.
针对现有基于策略梯度的深度强化学习方法应用于办公室、走廊等室内复杂场景下的机器人导航时,存在训练时间长、学习效率低的问题,本文提出了一种结合优势结构和最小化目标Q值的深度强化学习导航算法.该算法将优势结构引入到基于策略梯度的深度强化学习算法中,以区分同一状态价值下的动作差异,提升学习效率,并且在多目标导航场景中,对状态价值进行单独估计,利用地图信息提供更准确的价值判断.同时,针对离散控制中缓解目标Q值过估计方法在强化学习主流的Actor-Critic框架下难以奏效,设计了基于高斯平滑的最小目标Q值方法,以减小过估计对训练的影响.实验结果表明本文算法能够有效加快学习速率,在单目标、多目标连续导航训练过程中,收敛速度上都优于柔性演员评论家算法(SAC),双延迟深度策略性梯度算法(TD3),深度确定性策略梯度算法(DDPG),并使移动机器人有效远离障碍物,训练得到的导航模型具备较好的泛化能力.  相似文献   

4.
深度强化学习在机械臂路径规划的应用中仍面临样本需求量大和获取成本高的问题.针对这些问题,本文基于数据增强的思路,提出了深度强化学习与旋量法的融合算法.本算法通过旋量法将与环境交互所得的自然轨迹进行有效复制,使深度强化学习样本利用率和算法训练效率得到提高;复制轨迹的同时对被控物体、障碍物等环境元素进行同步复制,以此提高机械臂在非结构环境中的泛化性能.最后,在具备物理模拟引擎的Mujoco仿真平台中,通过Fetch机械臂和UR5机械臂在非结构化环境下进行实验对比分析,结果表明了本文算法对于提升深度强化学习样本利用率和机械臂模型泛化性能的可行性及有效性.  相似文献   

5.
针对深度强化学习算法中存在的过估计问题,提出了一种目标动态融合机制,在Deep [Q] Networks(DQN)算法基础上进行改进,通过融合Sarsa算法的在线更新目标,来减少DQN算法存在的过估计影响,动态地结合了DQN算法和Sarsa算法各自优点,提出了DTDQN(Dynamic Target Deep [Q] Network)算法。利用公测平台OpenAI Gym上Cart-Pole控制问题进行仿真对比实验,结果表明DTDQN算法能够有效地减少值函数过估计,具有更好的学习性能,训练稳定性有明显提升。  相似文献   

6.
基于自回归预测模型的深度注意力强化学习方法   总被引:1,自引:0,他引:1  
近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果.  相似文献   

7.
针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。  相似文献   

8.
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.  相似文献   

9.
为了应对回程链路的负载过重、用户进行内容请求时能耗过高的问题,提出了一种基于深度强化学习的边缘缓存策略。从移动边缘计算(MEC)异构体系结构出发,通过对系统能耗进行分析,将系统中的能耗问题转换成混合整数非线性规划(MINLP)问题,建立了基于马尔科夫决策过程的缓存处理机制,并提出了一种基于DQN的边缘缓存算法。通过实验仿真证明了所提出的算法可以有效降低能耗。  相似文献   

10.
针对结构化P2P系统中由于动态性带来的路由性能低的问题,提出一种利用分群和缓存的路由改进算法,该算法重点考虑了位置信息的分群,同时采用了自适应内容缓存机制和自适应路径缓存机制。最后的实验表明,改进后的路由算法路由性能明显改善,查找成功率高,较好地适应了P2P网络的动态性。  相似文献   

11.
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学习、基于记忆网络的深度强化学习算法、基于情景记忆的深度强化学习算法、基于可微分计算机的深度强化学习.同时,系统性地总结和分析了记忆增强型深度强化学习的一系列研究成果存在的优势和不足.另外,给出了深度强化学习常用的训练环境.最后,对记忆增强型深度强化学习进行了展望,指出了未来研究方向.  相似文献   

12.
针对目前基于深度学习的实例级物体检测算法对受遮挡物体的检测效果较差的问题,文中引入对抗学习的训练策略,提出改进的对抗生成式区域全卷积网络算法(AGR-FCN).以区域全卷积网络(R-FCN)为基准框架,添加为训练样本生成遮挡特征的对抗性遮挡丢弃网络(AMDN).通过R-FCN与AMDN间对抗学习的训练策略,提升R-FCN对遮挡物体的特征学习能力,优化整体实例级物体检测性能.在公共数据库GMU Kitchen和自制数据库BHGI上的实验表明,在复杂多变的非结构化环境中,如随机变化的不同光照、尺度、焦比、视角与姿态、遮挡等条件下,AGR-FCN的平均检测精度较高.  相似文献   

13.
Deep learning techniques have outstanding performance in feature extraction and model fitting. In the field of aero-engine fault diagnosis, the introduction of deep learning technology is of great significance. The aero-engine is the heart of the aircraft, and its stable operation is the primary guarantee of the aircraft. In order to ensure the normal operation of the aircraft, it is necessary to study and diagnose the faults of the aero-engine. Among the many engine failures, the one that occurs more frequently and is more hazardous is the wheeze, which often poses a great threat to flight safety. On the basis of analyzing the mechanism of aero-engine surge, an aero-engine surge fault diagnosis method based on deep learning technology is proposed. In this paper, key sensor data are obtained by analyzing different engine sensor data. An aero-engine surge dataset acquisition algorithm (ASDA) is proposed to sample the fault and normal points to generate the training set, validation set and test set. Based on neural network models such as one-dimensional convolutional neural network (1D-CNN), convolutional neural network (RNN), and long-short memory neural network (LSTM), different neural network optimization algorithms are selected to achieve fault diagnosis and classification. The experimental results show that the deep learning technique has good effect in aero-engine surge fault diagnosis. The aero-engine surge fault diagnosis network (ASFDN) proposed in this paper achieves better results. Through training, the network achieves more than 99% classification accuracy for the test set.  相似文献   

14.
针对深度学习的方法用于微表情识别时微表情识别的实验数据库非常稀缺,导致神经网络在学习的过程中知识获取有限而难以提高精度及泛化能力的问题,提出基于双流网络信息交互的微表情识别方法.通过改进的深度互学习策略引导图像序列不同模态之间的交互训练,提高网络的识别率.方法基于RGB图像序列建立主体网络,基于光流建立辅助网络;在训练阶段,通过设计互学习损失中的有监督学习损失和拟态损失,优化训练过程,使得每一种模态都能学习正确地预测训练样本的真实标识,同时能与其他模态的预测相匹配;在测试阶段,由于互学习机制增强了RGB分支的判别能力,因此可对光流分支进行剪裁,在保证精度的前提下提高识别速度.在CASME,CASMEⅡ和SMIC数据库上的实验结果表明,该方法有效地提高了识别精度,整体性能优于已有方法.  相似文献   

15.
目的 目标跟踪是计算机视觉领域的重要组成部分。近年来,基于相关滤波和深度学习的目标跟踪算法层出不穷,本文拟对经典的若干目标跟踪算法进行阐述与分析。方法 首先,对基于相关滤波跟踪算法的基础理论进行介绍,针对相关滤波算法在特征改进类、尺度改进类、消除边界效应类、图像分块类与目标响应自适应类方面进行总结;接下来,从3个方面对基于深度学习的目标跟踪算法进行阐述与分析:目标分类、结构化回归、孪生网络,并对有代表性的跟踪算法的优势与缺陷进行较深层次的解读。结果 通过列举跟踪算法在相关滤波阶段、深度学习阶段针对不同的改进机制的改进算法,总结各阶段算法的优缺点。对目标跟踪算法的最新进展进行阐述,最终对目标跟踪算法的未来发展方向进行总结。结论 基于相关滤波的目标算法在实时性方面表现优秀,但对于复杂背景干扰、相似物遮挡等情况仍然需要优化。深层的卷积特征对于目标有强大的表示力,通过使相关滤波算法与深度学习结合,大幅度提升了算法表现力。基于深度学习的跟踪算法则更侧重于跟踪的性能,大多无法满足实时性。孪生神经网络的使用对于基于深度学习类目标跟踪算法产生了很大的推动,兼顾了算法的性能和实时性。  相似文献   

16.
目标跟踪算法综述   总被引:10,自引:0,他引:10  
孟琭  杨旭 《自动化学报》2019,45(7):1244-1260
目标跟踪一直以来都是计算机视觉领域的关键问题,最近随着人工智能技术的飞速发展,运动目标跟踪问题得到了越来越多的关注.本文对主流目标跟踪算法进行了综述,首先,介绍了目标跟踪中常见的问题,并由时间顺序对目标跟踪算法进行了分类:早期的经典跟踪算法、基于核相关滤波的跟踪算法以及基于深度学习的跟踪算法.接下来,对每一类中经典的跟踪算法的原始版本和各种改进版本做了介绍、分析以及比较.最后,使用OTB-2013数据集对目标跟踪算法进行测试,并对结果进行分析,得出了以下结论:1)相比于光流法、Kalman、Meanshift等传统算法,相关滤波类算法跟踪速度更快,深度学习类方法精度高.2)具有多特征融合以及深度特征的追踪器在跟踪精度方面的效果更好.3)使用强大的分类器是实现良好跟踪的基础.4)尺度的自适应以及模型的更新机制也影响着跟踪的精度.  相似文献   

17.
基于计算机视觉的果实目标检测识别是目标检测、计算机视觉、农业机器人等多学科的重要交叉研究课题,在智慧农业、农业现代化、自动采摘机器人等领域,具有重要的理论研究意义和实际应用价值。随着深度学习在图像处理领域中广泛应用并取得良好效果,计算机视觉技术结合深度学习方法的果实目标检测识别算法逐渐成为主流。本文介绍基于计算机视觉的果实目标检测识别的任务、难点和发展现状,以及2类基于深度学习方法的果实目标检测识别算法,最后介绍用于算法模型训练学习的公开数据集与评价模型性能的评价指标,且对当前果实目标检测识别存在的问题和未来可能的发展方向进行讨论。  相似文献   

18.
目的 模糊车牌识别是车牌识别领域的难题,针对模糊车牌图像收集困难、车牌识别算法模型太大、不适用于移动或嵌入式设备等不足,本文提出了一种轻量级的模糊车牌识别方法,使用深度卷积生成对抗网络生成模糊车牌图像,用于解决现实场景中模糊车牌难以收集的问题,在提升算法识别准确性的同时提升了部署泛化能力。方法 该算法主要包含两部分,即基于优化卷积生成对抗网络的模糊车牌图像生成和基于深度可分离卷积网络与双向长短时记忆(long short-term memory,LSTM)的轻量级车牌识别。首先,使用Wasserstein距离优化卷积生成对抗网络的损失函数,提高生成车牌图像的多样性和稳定性;其次,在卷积循环神经网络的基础上,结合深度可分离卷积设计了一个轻量级的车牌识别模型,深度可分离卷积网络在减少识别算法计算量的同时,能对训练样本进行有效的特征学习,将特征图转换为特征序列后输入到双向LSTM网络中,进行序列学习与标注。结果 实验表明,增加生成对抗网络生成的车牌图像,能有效提高本文算法、传统车牌识别和基于深度学习的车牌识别方法的识别率,为进一步提高各类算法的识别率提供了一种可行方案。结合深度可分离卷积的轻量级车牌识别模型,识别率与基于标准循环卷积神经网络(convolutional recurrent neural network,CRNN)的车牌识别方法经本文生成图像提高后的识别率相当,但在模型的大小和识别速度上都优于标准的CRNN模型,本文算法的模型大小为45 MB,识别速度为12.5帧/s,标准CRNN模型大小是82 MB,识别速度只有7帧/s。结论 使用生成对抗网络生成图像,可有效解决模糊车牌图像样本不足的问题;结合深度可分离卷积的轻量级车牌识别模型,具有良好的识别准确性和较好的部署泛化能力。  相似文献   

19.
成像设备在雨天拍摄图像时由于雨雾和雨条纹的存在会导致图像质量严重退化,对后续图像处理性能造成极大影响.因此,图像的去雨算法研究引起了广泛关注,其中针对单幅图像的去雨算法由于没有先验知识的支持,面临较大挑战.近年来,深度学习因其高特征表示能力被应用在图像去雨算法研究中.本文基于小波变换,采取了一种深度学习与数字图像形态学处理相结合的算法来实现单幅图像去雨,具有训练参数少、训练时间短和去雨效果好等优点.首先对含雨图像进行小波变换,分为低频分量、水平高频分量、垂直高频分量和对角高频分量,然后对这4个分量分别构造深度学习神经网络,并在神经网络架构中根据雨的特征加入图像膨胀、腐蚀等形态学处理来进行去雨操作,大大简化了模型架构,并能取得较好的结果.  相似文献   

20.
近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径.其中训练过程中节点间网络的通信性能至关重要,直接影响训练性能.分析了分布式深度学习中的性能瓶颈,在此基础上对目前常用的网络性能优化方案进行综述,详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法,最后对分布式训练仍然存在的困难进行了总结,对其未来研究方向进行了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号