首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
提出了一种新颖的基于Q-学习、蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其学习速度骤然下降。另外,Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。把蚁群算法、轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率。  相似文献   

2.
具有分段和变异特性的蚁群算法求解TSP问题   总被引:2,自引:1,他引:1  
常规蚁群算法具有搜索时间较长,易于过早地收敛于非最优解的缺陷.为了提高蚂蚁一次周游的质量,采用具有轮盘赌方式的最大最小蚁群算法(MMAS RW),即在依据概率选择下一个城市时采用轮盘赌的方式.提出一种具有分段和变异特性的蚁群算法.该算法融合了分段的分而治之思想和遗传算法中的变异,有利于保持群体多样性的特性,是在采用轮盘赌方式的最大最小蚁群算法陷入局部最优解的情况下,引入随机分段和遗传算法的变异操作来优化当前最优解,改善解的质量,改进蚁群算法易于过早地收敛于非最优解的缺陷.仿真实验表明取得了较好的效果.  相似文献   

3.
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论和蚁群算法的多Agent协作学习算法。新算法首先借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅进行动作探索,加快学习速度。其次,根据蚁群算法,提出“脚印”思想来间接增强Agent之间的交互。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率。  相似文献   

4.
常规蚁群算法具有搜索时间较长,易于过早地收敛于非最优解的缺陷。为了提高蚂蚁一次周游的质量,采用具有轮盘赌方式的最大最小蚁群算法(MMAS+RW),即在依据概率选择下一个城市时采用轮盘赌的方式。提出一种具有分段和变异特性的蚁群算法。该算法融合了分段的分而治之思想和遗传算法中的变异,有利于保持群体多样性的特性,是在采用轮盘赌方式的最大最小蚁群算法陷入局部最优解的情况下,引入随机分段和遗传算法的变异操作来优化当前最优解,改善解的质量,改进蚁群算法易于过早地收敛于非最优解的缺陷。仿真实验表明取得了较好的效果。  相似文献   

5.
付鹏  罗杰 《微机发展》2013,(2):123-126
文中以围捕问题作为研究平台,以提高多Agent系统中Q学习算法的学习效率作为研究目标,提出了一种基于改进蚁群算法的Q学习算法。该算法将信息素的概念引入到Q学习中,结合采用动态自适应调整信息素挥发因子的蚁群算法,使Agent在进行行为决策时不再只以Q值作为参考标准,而是考量Q值与信息素的综合效应,加强了Agent彼此间的信息共享,增强了交互性。并且对于复杂变化的周围环境,根据具体环境条件,设立分阶段的多奖惩标准,使算法对于环境和状态有更好的适应性。仿真实验证明了改进后的Q学习算法提高了学习系统的效率,高效地实现了多Agent系统的目标任务。  相似文献   

6.
对基本蚁群算法框架进行了改进,采用轮盘赌选择代替了基本框架中通过启发式函数和信息素选择路径,同时对信息素的更新方式也做出调整,提出了一种新的蚁群算法,使得其更适合解决连续函数问题.将这种改进的蚁群算法应用于带有约束条件的连续函数问题中,在典型实例中进行仿真测试,实验结果表明,提出的改进蚁群算法可以很好地解决带有约束条件的连续函数问题,并能迅速找到最优解.  相似文献   

7.
求解多维背包问题的MapReduce蚁群优化算法   总被引:1,自引:0,他引:1  
应用MapReduce编程模式实现蚁群优化算法的并行化计算,提出基于MapReduce的改进背包问题蚁群算法.通过改进概率计算时机、轮盘赌、交叉、变异等技术,降低蚁群算法的计算复杂度.在云计算环境中应用该算法分布式并行地求解大规模多维背包问题,仿真实验结果表明,该算法能改善蚁群算法搜索时间长的缺陷,增强对大规模问题的处理能力.  相似文献   

8.
为应对大数据时代对带时间窗车辆路径问题(VRPTW)的实时求解要求,提出基于Spark平台的改进蚁群算法.在算法层面,利用改进的状态转移规则和轮盘赌选择机制构建初始解,结合k-opt邻域搜索进行路径构建优化,改进最大最小蚁群算法中的信息素更新策略;在实现层面,利用Spark提供的API对蚁群RDD进行操作,实现蚁群分布式并行求解.在标准算例Solomon benchmark和Gehring&Homberger benchmark的实验结果表明,该算法在大规模问题的求解精度和速度上有明显提升.  相似文献   

9.
模糊Sarsa学习(FSL)是基于Sarsa学习而提出来的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,在其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。对于连续空间的复杂学习任务,FSL不能较好平衡探索和利用之间的关系,为此,本文提出了一种新的基于蚁群优化的模糊强化学习算法(ACO-FSL),主要工作是把蚁群优化(ACO)思想和传统的模糊强化学习算法结合起来形成一种新的算法。给出了算法的设计原理、方法和具体步骤,小车爬山问题的仿真实验表明本文提出的ACO-FSL算法在学习速度和稳定性上优于FSL算法。  相似文献   

10.
基于遗传蚁群算法的片上网络映射研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于2D Mesh结构的片上网络在设计之初就要考虑模块映射问题,以满足通信功耗的约束。提出一种基于遗传蚁群映射算法的方法解决片上网络设计中通信功耗最小化问题。该算法针对标准蚁群算法易于出现早熟停滞等缺陷,引入轮盘赌选择机制及染色体杂交等手段,使映射功耗函数快速收敛,达到良好的全局寻优效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号