期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献

2.

基于多Agent联合决策的队组协同攻击规划

周天阳曾子懿臧艺超王清贤《计算机科学》2021,48(5):301-307

自动化渗透测试通过将人工找寻可能攻击路径的过程自动化,可大幅降低渗透测试的成本。现有方法主要利用单一Agent执行攻击任务,导致攻击动作执行耗时长,渗透效率不高;若考虑多个Agent协同攻击,由于每个Agent的局部状态有多个维度,总的规划问题的状态空间会呈指数级增长。针对上述问题,提出了基于多Agent联合决策的队组协同攻击规划方法。该方法首先将多Agent协同攻击路径规划问题转化为联合决策约束下的攻击目标分配问题,建立多Agent集中决策模式;然后以CDSO-CAP为模型基础,利用联合决策矢量矩阵JDVM计算渗透攻击奖励,并采用贪婪策略搜索多Agent的最优攻击目标。实验结果表明,与单Agent规划方法相比,该方法的收敛性相近,但执行轮次更短,更适合在多目标网络场景内进行快速攻击规划。相似文献

3.

基于强化学习的无人车组路径优化算法研究

司炳山董志明孙茂凡《计算机仿真》2024,(2):455-461

针对传统单车路径规划算法在进行无人车组路径规划时存在的算法收敛性问题,采用强化学习方法,对传统Q-learning算法中的探索率进行改进,将每一个路程点作为每一段局部路径规划的目标点,通过传感器感知外界环境的信息,进行基于强化学习的在线局部路径规划,完成避障和寻径任务。构建了算法模型与仿真环境,并进行了仿真,结果表明无人车组能够在短时间内收敛到稳定状态并自主完成规划任务,证明了算法的有效性和可行性。上述算法在多无人战车协同的智能规划与控制中具有良好的应用前景。相似文献

4.

基于Q-learning的不确定环境BDI Agent最优策略规划研究

万谦刘玮徐龙龙郭竞知《计算机工程与科学》2019,41(1):166-172

BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。相似文献

5.

基于多Agent的并行Q-学习算法 总被引：1，自引：0，他引：1

周浦城洪炳韩学东郭耸《小型微型计算机系统》2006,27(9):1704-1707

提出了一种多Agent并行Q-学习算法．学习系统中存在多个Agent，它们的学习环境、学习任务及自身功能均相同，在每个学习周期内，各个Agent在各自独立的学习环境中进行学习，当一个学习周期结束后，对各个Agent的学习结果进行融合，融合后的结果被所有的Agent共享，并以此为基础进行下一个周期的学习．实验结果表明了该方法的可行性和有效性。相似文献

6.

基于模糊神经网络的深海集矿机路径规划

刘海滢王随平桂卫华《控制工程》2004,11(4):317-320

探讨了深海多金属结核集矿机在作业过程中的实时局部路径规划问题，旨在解决在深海复杂特殊环境下多金属结核集矿机的自适应实时路径规划问题。采用了能实现模糊控制规则的基于强化学习方法的自学习和自调整算法来实现深海集矿机的实时运动规划，并提出了能实现模糊控制规则的基于强化学习的自学习和自调整的规划算法。设计了深海集矿机实时运动规划器结构、规划器操作过程以及相应的算法。集矿机试验样机池试试验表明该方法的有效性．可广泛应用于类似路径规划问题。相似文献

7.

竞争与合作视角下的多Agent强化学习研究进展

田小禾李伟许铮刘天星戚骁亚甘中学《计算机应用与软件》2024,(4):1-15

随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。相似文献

8.

基于分层强化学习及人工势场的多Agent路径规划方法

郑延斌李波安德宇李娜《计算机应用》2015,35(12):3491-3496

针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能;最后,针对出租车问题在栅格环境中对所提算法进行了仿真实验。为了使算法贴近真实环境,增加算法的可移植性,在三维仿真环境中对该算法进行验证,实验结果表明该算法收敛速度快,收敛过程稳定。相似文献

9.

多Agent协作的强化学习模型和算法 总被引：2，自引：0，他引：2

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程，构造了一个新的多Agent协作学习模型。在这个模型的基础上，提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点，使得Agent基于对动作长期利益的估计来预测其动作策略，并做出相应的决策，进而达成最优的联合动作策略。最后，通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性，表明这种学习算法是一种高效、快速的学习方法。相似文献

10.

分层强化学习中的并行自动分层方法研究

沈晶顾国昌刘海波《计算机工程与设计》2007,28(2):422-424

为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多智能体并行学习生成各子空间上内部策略,最终生成Option.以二维有障碍栅格空间内两点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析,结果表明,并行自动分层方法生成任务层次结构的速度明显快于以往的串行自动分层方法.本文的方法适用于空间探测、路径规划、追逃等类问题领域. 相似文献