首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
针对公共场合密集人群在紧急情况下疏散的危险性和效果不理想的问题,提出一种基于深度Q网络(DQN)的人群疏散机器人的运动规划算法。首先通过在原始的社会力模型中加入人机作用力构建出人机社会力模型,从而利用机器人对行人的作用力来影响人群的运动状态;然后基于DQN设计机器人运动规划算法,将原始行人运动状态的图像输入该网络并输出机器人的运动行为,在这个过程中将设计的奖励函数反馈给网络使机器人能够在"环境-行为-奖励"的闭环过程中自主学习;最后经过多次迭代,机器人能够学习在不同初始位置下的最优运动策略,最大限度地提高总疏散人数。在构建的仿真环境里对算法进行训练和评估。实验结果表明,与无机器人的人群疏散算法相比,基于DQN的人群疏散机器人运动规划算法使机器人在三种不同初始位置下将人群疏散效率分别增加了16.41%、10.69%和21.76%,说明该算法能够明显提高单位时间内人群疏散的数量,具有灵活性和有效性。  相似文献   

2.
针对目前人群疏散方法中机器人灵活性低、场景适应性有限与疏散效率低的问题,提出一种基于深度强化学习的机器人疏散人群算法.利用人机社会力模型模拟突发事件发生时的人群疏散状态,设计一种卷积神经网络结构提取人群疏散场景中复杂的空间特征,将传统的深度Q网络与长短期记忆网络相结合,解决机器人在学习中无法记忆长期时间信息的问题.实验...  相似文献   

3.
针对基于规则的运动规划算法需要预先定义规则和基于深度学习的方法没有利用时间特征的问题,提出一种基于深度级联神经网络的运动规划模型。该模型将卷积神经网络(CNN)和长短期记忆网络(LSTM)这两种经典的深度学习模型进行融合并构成一种新的级联神经网络,分别提取输入图像的空间和时间特征,并用以拟合输入序列图像与输出运动参数之间的非线性关系,从而完成从输入序列图像到运动参数的端到端的规划。实验利用模拟驾驶环境的数据进行训练和测试,结果显示所提模型在乡村路、高速路、隧道和山路四种道路中均方根误差(RMSE)不超过0.017,且预测结果的稳定度优于未使用级联网络的算法一个数量级。结果表明,所提模型能有效地学习人类的驾驶行为,并且能够克服累积误差的影响,适应多种不同场景下的路况,具有较好的鲁棒性。  相似文献   

4.
传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。  相似文献   

5.
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。  相似文献   

6.
夏伟  李慧云 《集成技术》2017,6(3):29-40
自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法.首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的经验数据对模型进行预训练,进而结合经验池回放技术提高模型训练收敛速度,通过对状态空间进行聚类再采样,提高其独立同分布特性以及策略模型的泛化能力.通过与神经网络拟和Q-迭代算法的比较,所提方法的训练时间可缩短90%以上,稳定性能提高超过30%.以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高70%以上.  相似文献   

7.
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整.为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向.结合DDQN(Double Dee...  相似文献   

8.
视觉感知模块能够利用摄像机等视觉传感器获取丰富的图像和视频信息,进而检测自动驾驶汽车视野中的车辆、行人与交通标识等信息,是自动驾驶最有效、成本最低的感知方式之一。运动规划为自主车辆提供从车辆初始状态到目标状态的一系列运动参数和驾驶动作,而端到端的模型能够直接从感知的数据获取车辆的运动参数,因而受到广泛的关注。为了全面反映视觉感知的端到端自动驾驶运动规划方法的研究进展,本文对国内外公开发表的具有代表性和前沿的论文进行了概述。首先分析端到端方法的应用,以及视觉感知和运动规划在端到端自动驾驶中的作用,然后以自主车辆的学习方式作为分类依据,将视觉感知的端到端自动驾驶运动规划的实现方法分为模仿学习和强化学习两大类,并对各类方法的不同算法进行了归纳和分析;考虑到现阶段端到端模型的研究面临着虚拟到现实的任务,故对基于迁移学习的方法进行了梳理。最后列举与自动驾驶相关的数据集和仿真平台,总结存在的问题和挑战,对未来的发展趋势进行思考和展望。视觉感知的端到端自动驾驶运动规划模型的普适性强且结构简单,这类方法具有广阔的应用前景和研究价值,但是存在不可解释和难以保证绝对安全的问题,未来需要更多的研究改善端到端模型存在的局限性。  相似文献   

9.
人工智能和自动驾驶的发展如火如荼,人工智能技术在自动驾驶技术中的应用也越来越多、越来越深入,因此本文提出一种基于深度强化学习的单目视觉自动驾驶决策系统,可以让自动驾驶车辆通过相机作为传感器输入,实现端到端的自动驾驶决策,并且通过设置奖励函数和训练使得车辆的学习效率越来越高,可以在车道内保持直线行驶。  相似文献   

10.
11.
The last decade witnessed increasingly rapid progress in self‐driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence (AI). The objective of this paper is to survey the current state‐of‐the‐art on deep learning technologies used in autonomous driving. We start by presenting AI‐based self‐driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration, and motion control algorithms. We investigate both the modular perception‐planning‐action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources, and computational hardware. The comparison presented in this survey helps gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices.  相似文献   

12.
路径规划作为自动驾驶的关键技术,具有广阔的应用前景和科研价值。探索解决自动驾驶车辆路径规划问题的方法,着重关注基于强化学习的路径规划方法。在阐述基于常规方法和强化学习方法的路径规划技术的基础上,重点总结了基于强化学习和深度强化学习来解决自动驾驶车辆路径规划问题的算法,并将算法按照基于值和基于策略的方式进行分类,分析各类算法的特点、优缺点及改进措施。最后对基于强化学习的路径规划技术的未来发展方向进行了展望。  相似文献   

13.
为提升自动驾驶的舒适性,降低速度规划算法的复杂度,提出了一种基于模糊神经网络的纵向速度规划方法。将人工驾驶经验总结为模糊规则表,建立了模糊速度规划模型,结合神经网络的自学习功能修正模糊速度规划模型,建立了模糊神经网络速度规划模型。分析了静态障碍物和动态障碍物场景,通过仿真验证了所提速度规划方法的可行性,与传统方法相比,加速度的平滑性能更好。所提速度规划方法具有一定的抗干扰性能,工程实现简单,保证了速度规划的实时性与稳定性。  相似文献   

14.
目的 在无人驾驶系统技术中,控制车辆转向以跟踪特定路径是实现驾驶的关键技术之一,大量基于传统控制的方法可以准确跟踪路径,然而如何在跟踪过程中实现类人的转向行为仍是当前跟踪技术面临的挑战性问题之一。现有传统转向模型并没有参考人类驾驶行为,难以实现过程模拟。此外,现有大多数基于神经网络的转向控制模型仅仅以视频帧作为输入,鲁棒性和可解释性不足。基于此,本文提出了一个融合神经网络与传统控制器的转向模型:深度纯追随模型(deep pure pursuit,deep PP)。方法 在deep PP中,首先利用卷积神经网络(convolutional neural network,CNN)提取驾驶环境的视觉特征,同时使用传统的纯追随(pure pursuit,PP)控制器融合车辆运动模型以及自身位置计算跟踪给定的全局规划路径所需的转向控制量。然后,通过拼接PP的转向结果向量和视觉特征向量得到融合特征向量,并构建融合特征向量与人类转向行为之间的映射模型,最终实现预测无人驾驶汽车转向角度。结果 实验将在CARLA(Center for Advanced Research on Language Acquisition)仿真数据集和真实场景数据集上进行,并与Udacity挑战赛的CNN模型和传统控制器进行对比。实验结果显示,在仿真数据集的14个复杂天气条件下,deep PP比CNN模型和传统转向控制器更贴近无人驾驶仪的转向指令。在使用均方根误差(root mean square error,RMSE)作为衡量指标时,deep PP相比于CNN模型提升了50.28%,相比于传统控制器提升了35.39%。最后,真实场景实验验证了提出的模型在真实场景上的实用性。结论 本文提出的拟人化转向模型,综合了摄像头视觉信息、位置信息和车辆运动模型信息,使得无人驾驶汽车的转向行为更贴近人类驾驶行为,并在各种复杂驾驶条件下保持了高鲁棒性。  相似文献   

15.
无人水面艇局部路径规划在海事救援、海洋运输等领域中发挥着重要的作用。现有局部路径规划算法在简单场景中取得了不错的效果,但面对环境中存在的复杂障碍物和海流干扰时,性能表现较差。为此,提出了一种基于时空感知增强的深度Q网络强化学习算法,首先,引入多尺度空间注意力模块捕捉距离传感器的多尺度空间信息,提升了复杂障碍物环境的感知能力;其次,利用基于长短时记忆网络的海流感知模块提取海流干扰环境的时间序列特征,增强了对海流干扰的感知能力;此外,对无人水面艇传感器和运动模型进行了模拟,并设计了强化学习状态空间、动作空间和基于方向导引的奖励函数,提升了算法的导航性能和收敛速度。在复杂仿真场景中进行了实验,结果表明,所提算法相比于原始算法在导航成功率和平均到达时间两个指标上均得到了提升,算法表现出较强的复杂环境适应性。  相似文献   

16.
Fault diagnosis methods for rotating machinery have always been a hot research topic, and artificial intelligence-based approaches have attracted increasing attention from both researchers and engineers. Among those related studies and methods, artificial neural networks, especially deep learning-based methods, are widely used to extract fault features or classify fault features obtained by other signal processing techniques. Although such methods could solve the fault diagnosis problems of rotating machinery, there are still two deficiencies. (1) Unable to establish direct linear or non-linear mapping between raw data and the corresponding fault modes, the performance of such fault diagnosis methods highly depends on the quality of the extracted features. (2) The optimization of neural network architecture and parameters, especially for deep neural networks, requires considerable manual modification and expert experience, which limits the applicability and generalization of such methods. As a remarkable breakthrough in artificial intelligence, AlphaGo, a representative achievement of deep reinforcement learning, provides inspiration and direction for the aforementioned shortcomings. Combining the advantages of deep learning and reinforcement learning, deep reinforcement learning is able to build an end-to-end fault diagnosis architecture that can directly map raw fault data to the corresponding fault modes. Thus, based on deep reinforcement learning, a novel intelligent diagnosis method is proposed that is able to overcome the shortcomings of the aforementioned diagnosis methods. Validation tests of the proposed method are carried out using datasets of two types of rotating machinery, rolling bearings and hydraulic pumps, which contain a large number of measured raw vibration signals under different health states and working conditions. The diagnosis results show that the proposed method is able to obtain intelligent fault diagnosis agents that can mine the relationships between the raw vibration signals and fault modes autonomously and effectively. Considering that the learning process of the proposed method depends only on the replayed memories of the agent and the overall rewards, which represent much weaker feedback than that obtained by the supervised learning-based method, the proposed method is promising in establishing a general fault diagnosis architecture for rotating machinery.  相似文献   

17.
利用深度强化学习(deep reinforcement learning,DRL)技术实现自动驾驶决策已成为国内外研究热点,现有研究中的车辆交通流缺乏随机性与真实性,同时自动驾驶车辆在环境中的有效探索具有局限性。因此利用TD3算法进行自动驾驶车辆在无信号交叉口下的右转驾驶决策研究,首先在Carla仿真平台中开发无信号交叉口的训练与测试场景,并添加交通流管理功能,提高系统训练和测试随机性。其次,为了提高自动驾驶车辆的探索性,对TD3算法中的Actor网络进行改进,为目标动作添加OU噪声。最后使用通行成功率和平均通行时间评估指标评价自动驾驶行为决策。结果表明,在不同交通流场景下,改进后的TD3算法通行成功率与基于DDPG算法控制的车辆相比平均提升6.2%,与基于规则的AEB模型相比平均提升23%。改进后的TD3算法不仅能够探索更多可能,而且其通行决策表现更加突出。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号