期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程建军胡成松《计算机仿真》2011,28(12)

研究任务调度优化系统问题.任务调度问题的主要难点在于复杂度太高,传统的基于任务调度Q学习算法更新收敛速度慢.针对协同工作中的任务调度实际问题,提出了一种基于模拟退火的改进的Q学习算法.算法首先建立任务调度目标模型,在分析了Q学习算法的基础上,通过引入模拟退火算法,同时结合贪婪策略,以及在状态空间上的筛选判断,并给出了任务调度的整个过程.仿真结果表明,与单一的Q学习任务调度算法相比,改进的算法显著地提高了收敛速度,缩短了执行时间.从而验证了改进算法的有效性. 相似文献

2.

基于强化蚁群算法的任务DAG在线网格集群资源调度

下载免费PDF全文

袁秀利赵连胜 《计算机测量与控制》2015,23(1):287-290

网格集群资源调度是一个NP难题,而现有的调度方法通常具有任务调度效率低和负载不均衡的问题,由此设计了一种基于强化学习算法和蚁群算法融合的协同依赖型任务调度方法;首先对基于DAG的网格集群协同调度数学模型进行了定义,然后,采用改进的一步TD算法即Q-Learning算法实现集群资源的初始分配,从而得到最优调度方案以及对应的Q值,在此基础上提出一种改进的蚁群算法实现网格集群资源到任务分配的进一步优化,将Q-Learning算法得到的分配方案的Q值用于初始化蚁群路径中的信息素,以避免蚁群的盲目搜索,同时将Q值引入路径概率函数中使得蚂蚁具有启发式的搜索能力,从而获得协同依赖多任务集群调度的最终方案;在Gridsim环境下进行仿真试验,结果表明文中方法能有效地实现网格集群调度,且较其它方法具有任务调度效率高、CPU利用率高和负载均衡的优点,具有较大的优越性. 相似文献

3.

一种多步Q强化学习方法 总被引：1，自引：0，他引：1

陈圣磊吴慧中韩祥兰肖亮《计算机科学》2006,33(3):147-150

Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。相似文献

4.

基于任务复制的多关键路径任务调度算法

李静梅尤晓非韩启龙《计算机工程与设计》2014,(5):1639-1645

高效的任务调度算法使多核处理器的资源分配和并行计算能力更加高效。通过研究关键路径对任务调度算法的重要性后提出TDMCP算法。对DAG上关键任务的确定采用一种多关键路径选取的方法,使得关键路径上信息在任务调度的每一步都是实时更新的;保证调度的每一步优先执行紧迫性高的任务;对首任务采用任务复制技术,使得后续任务的调度更加的高效,从整体上提高任务调度效率。和两个经典任务调度算法进行实验性能的比较,比较结果表明TDMCP算法在任务调度时间和算法执行效率方面都要优于两种经典算法。相似文献

5.

多Agent自动协商中机器学习的应用研究 总被引：2，自引：0，他引：2

杨明鲁瑞华邱玉辉《通讯和计算机》2004,1(1):22-27

目前将机器学习理论应用到多Agent自动协商系统中已成为电子商务领域的最新研究课题。本文即是利用贝叶斯法则来更新协商中的环境信息（即信念），利用强化学习中的Q学习算法生成协商中的提议，建立了一个具有学习机制的多Agent自动协商模型。并且封传统Q学习算法追行了扩充，设计了基于Agent的当前信念和最近探索盈余的动态Q学习算法。实验验证了算法的收敛性。相似文献

6.

网格计算中基于改进蚂蚁算法的任务调度研究

林晓娴王维欢《计算机技术与发展》2011,21(6)

文中提出了一种以蚂蚁算法为基础的改进算法,用以解决网格环境下的任务调度问题.首先从蚂蚁算法的基本思想出发,结合网格环境下任务调度的特点,逐步改进了资源信息素的初始化处理、局部更新及全局更新方式,并针对网格环境下的任务给出信息素的概念;然后,综合考虑资源信息素和任务信息素两方面的需求,提出了一种新的任务选择资源机制;最终,提出了一种基于蚂蚁算法的、改进的网格任务调度方法.通过仿真实验的结果分析表明:基于蚂蚁算法的、改进的网格任务调度方法实现了网格环境下任务的有效调度问题,并使系统获得较好的负载平衡度. 相似文献

7.

云环境下基于强化学习的多目标任务调度算法

童钊邓小妹陈洪剑梅晶叶锋《小型微型计算机系统》2020,(2):285-290

针对云计算环境下的多目标任务调度问题,提出一种新的基于Q学习的多目标优化任务调度算法(Multi-objective Task Scheduling Algorithm based on Q-learning,QM TS).该算法的主要思想是:首先,在任务排序阶段利用Q-learning算法中的自学习过程得到更加合理的任务序列;然后,在虚拟机分配阶段使用线性加权法综合考虑任务最早完成时间和计算节点的计算成本,达到同时优化多目标问题的目的;最后,以产生更小的makespan和总成本为目标函数对任务进行调度,得到任务完成后的实验结果.实验结果表明,QMTS算法在使用Q-learning对任务进行排序后可以得到比HEFT算法更小的makespan;并且根据优化多目标调度策略在任务执行过程中减少了makespan和总成本,是一种有效的多目标优化任务调度算法. 相似文献

8.

基于Q 学习的任务调度问题的改进研究

下载免费PDF全文

刘晓平杜琳石慧《图学学报》2012,33(3):11

论文针对协同工作中的任务调度问题,建立了相应的马尔可夫决策过程模型,在此基础上提出了一种改进的基于模拟退火的Q 学习算法。该算法通过引入模拟退火, 并结合贪婪策略,以及在状态空间上的筛选判断,显著地提高了收敛速度,缩短了执行时间。最后与其它文献中相关算法的对比分析,验证了本改进算法的高效性。相似文献

9.

基于依赖型任务和Sarsa(λ)算法的云计算任务调度

李新磊 《计算机测量与控制》2015,23(8):2809-2812

针对现有的云计算任务调度算法具有的任务调度时间长和系统负载不均衡的缺点,提出了一种基于依赖型任务和Sarsa(λ)算法结合的依赖型任务调度方法;首先对调度目标模型进行了定义,以最小化调度策略的最晚完成时间作为调度目标,然后将任务调度模型建模为马尔科夫决策过程MDP,在此基础上,基于MDP采用Sarsa算法实现对状态动作值的更新,为了加快算法的收敛速度,在状态动作值更新的过程中加入资格迹,给出了资格迹的更新方式;最后,定义了基于依赖型任务DAG图和Sarsa(λ)的云计算任务调度算法;在Cloudsim环境下进行仿真试验,结果表明文中方法能有效地实现依赖型任务调度,且较其它方法相比,具有任务调度时间短和负载均衡的优点,是一种适合云计算环境的可行任务调度方法。 相似文献

10.

一种基于改进樽海鞘算法的云仿真任务调度的研究

贺少婕杜松泽卜立平《小型微型计算机系统》2023,(5):897-901

云平台通常允许多个任务在云环境中同时执行，而任务调度是实现更好云计算性能的重要部分，其调度的效率直接影响到云平台计算资源利用率以及用户服务质量.针对云计算任务调度的核心寻求解的最优化问题，本文提出了一种混合算法，称为樽海鞘改进算法.此算法融合了反向学习原理扩大搜索空间，能够自适应的改变领导者的位置，并使得追随者根据几位领导者的位置更新自己，避免解陷入局部最优.本文采用CEC常用的23组测试函数进行测试，将结果与多个经典算法进行比较，证明了樽海鞘改进算法的优越性.同时在云仿真平台上进行模拟在云平台上进行任务调度的过程，通过与其他的几种算法的比较，证明了樽海鞘优化算法在任务调度方面应用的可行性，且有效缩短了云任务的完成时间，降低了完成成本. 相似文献

11.

基于强化学习的网络时延自动化控制数学建模研究

荆荣丽葛书荣王鹏宁玉文《自动化与仪器仪表》2020,(3):57-59

传统的网络时延控制模型在分析时延原因时,仅从宏观角度分析,缺少建立网络模型的过程,导致时延控制能力差、数据传输时间长、丢包率大的问题。为解决此问题,设计一种基于强化学习的网络时延自动化控制模型。该模型的构建主要分为两部分,先是确定网络模型,具体分析网络时延出现的原因,在此基础上,利用强化学习中的Q学习算法构建自动化控制模型,以解决网络时延问题。实验结果表明:与传统的基于均衡调度的网络时延控制模型相比,该模型对网络时延的控制性能更好,且数据包传输时间缩短3.7 s,数据包丢包率降低5%,应用优势明显。相似文献

12.

基于DQN的多类型拦截装备复合式反无人机任务分配方法

黄亭飞程光权黄魁华黄金才刘忠《控制与决策》2022,37(1):142-150

针对当前反无人系统无法有效压制无人机的问题,使用多种拦截装备构建一种新的反无人机方法.传统多目标优化算法无法解决动态的任务分配问题,对此,提出一种基于深度Q网络(DQN)的多类型拦截装备复合式反无人机任务分配模型. DQN模块对任务分配问题进行初期决策.为了提高算法收敛速度和学习效率,该方法未采用下一时刻的状态来预测Q值,而是采用当前时刻的状态来预测Q值,消除训练过程中Q值过估计的影响.之后采用进化算法对决策结果进行优化,输出多个拦截方案.以国内某机场跑道周围区域开阔地为防护对象,构建反无人机系统的任务分配仿真环境,仿真结果验证了所提出方法的有效性.同时,将DQN与Double DQN方法相比,所提出改进DQN算法训练的智能体表现更为精确,并且算法的收敛性和所求解的表现更为优异.所提出方法为反无人机问题提供了新的思路. 相似文献

13.

基于协同最小二乘支持向量机的Q学习 总被引：5，自引：0，他引：5

王雪松田西兰程玉虎易建强《自动化学报》2009,35(2):214-219

针对强化学习系统收敛速度慢的问题, 提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习. 该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine, LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine, LS-SVCM)构成. LS-SVRM用于逼近状态--动作对到值函数的映射, LS-SVCM则用于逼近连续状态空间到离散动作空间的映射, 并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习. 小车爬山最短时间控制仿真结果表明, 与基于单一LS-SVRM的Q学习系统相比, 该方法加快了系统的学习收敛速度, 具有较好的学习性能. 相似文献

14.

基于多任务强化学习的堆垛机调度与库位推荐

饶东宁罗南岳《计算机工程》2023,49(2):279-287+295

堆垛机调度是物流仓储自动化中的重要任务,任务中的出入库效率、货物存放等情况影响仓储系统的整体效益。传统调度方法在面对较大规模调度问题时,因处理大状态空间从而导致性能受限和收益降低。与此同时,库位优化与调度运行联系密切,但现有多数工作在处理调度问题时未能考虑到库位优化问题。为解决仓储中堆垛机调度问题,提出一种基于深度强化学习算法的近端策略优化调度方法。将调度问题视为序列决策问题,通过智能体与环境的持续交互进行自我学习,以在不断变化的环境中优化调度。针对调度中伴生的库位优化问题,提出一种基于多任务学习的调度、库位推荐联合算法,并基于调度网络构建适用于库位推荐的Actor网络,通过与Critic网络进行交互反馈,促进整体的联动和训练,从而提升整体效益。实验结果表明,与原算法模型相比,该调度方法的累计回报值指标平均提升了33.6%,所提的多任务学习的联合算法能有效地应对堆垛机调度和库位优化的应用场景,可为该类多任务问题提供可行的解决方案。相似文献

15.

基于残差梯度法的神经网络Q学习算法

下载免费PDF全文

司彦娜普杰信臧绍飞《计算机工程与应用》2020,56(18):137-142

针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,验证了所提算法的正确性和有效性。相似文献

16.

基于预测与分解策略的大规模炼油过程生产调度算法

陈远东丁进良《控制理论与应用》2023,40(5):833-846

炼油生产调度为混合整数规划问题,随着规模的增大,其求解时间随问题规模呈指数增加,使得大规模长周期炼油生产调度问题难以在合理的时间内求解.针对该问题,本文提出了一种基于生产任务预测与分解策略的炼油生产调度算法,该算法能在短时间内获得大规模调度问题的满意解.所提算法将原问题沿时间轴分解为若干个调度时长相同的单时间段子问题,并设计了基于深度学习的单时间段生产任务(组分油产量)预测模型,用于协调子问题的求解.其中,生产任务预测模型通过易于获得的小规模问题的全局最优调度方案训练得到.最后,通过与商业求解器Cplex以及现有算法的对比,实验结果表明了所提算法的有效性. 相似文献

17.

基于改进深度强化学习的三维环境路径规划

封硕舒红谢步庆《计算机应用与软件》2021,38(1):250-255

提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难。提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法。针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进。将改进深度强化学习算法与DQN算法在同样的三维环境下进行仿真实验,从最优路径长度、损失函数值、得到稳定的奖励值、收敛速度等方面进行对比,改进深度强化学习算法比DQN算法得到很大的改善,说明改进的算法比DQN算法寻得了更优的策略。相似文献

18.

基于强化学习的无人坦克对战仿真研究

下载免费PDF全文

徐志雄曹雷陈希亮《计算机工程与应用》2018,54(8):166-171

对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习（MMSarsa）算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。相似文献

19.

基于深度双Q网络的多用户蜂窝网络功率分配算法研究

王伟《计算机应用研究》2021,38(5):1498-1502

针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。相似文献

20.

改进蚁群算法的云计算任务调度方法

谢伟增《计算机系统应用》2017,26(6):198-201

针对蚁群算法在云计算任务调度问题求解过程存在的不足,以找到最佳的云计算任务调度方案为目标,提出了一种基于改进蚁群算法的云计算任务调度方法.首先对当前云计算任务调度研究现状进行分析,并对问题进行了具体描述,然后采用蚁群算法对云计算任务调度问题进行求解,并针对标准蚁群算法缺陷进行改进,最后在CloudSim平台对该方法的性能进行测试.结果表明,改进蚁群算法可以找到较好的云计算任务问题调度方案,加快云计算任务完成速度,具有一定的实际应用价值. 相似文献