期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘静周丹刘音序常凤孟星《信息与电脑》2023,(23):59-61

为了解电梯调度过程,采用C语言编程模拟电梯调度,利用数组、结构体等数据结构存储和管理电梯的运行状态和乘客信息。模拟结果符合现实生活中多部电梯调度情况,能有效反映多部电梯同时运行状况,同时为高层建筑中的电梯调度提供理论支持,更好地制订和优化电梯运行方案,提高电梯的运行效率和服务质量。相似文献

2.

强化学习算法与应用综述

李茹杨彭慧民李仁刚赵坤《计算机系统应用》2020,29(12):13-25

强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发展动态,首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题.其次,回顾强化学习经典算法,包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法,以及综述强化学习前沿研究,主要介绍多智能体强化学习和元强化学习方向.最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用,以及总结与展望. 相似文献

3.

基于强化学习方法的访存调度算法

下载免费PDF全文

邱东黎施晶晶《计算机工程与应用》2018,54(2):62-67

在现代处理器中,存储控制器是处理器芯片对片外存储器进行访问的管理者和执行者,其中对访存过程的调度算法会对实际访存性能产生十分重要的影响。针对已有调度算法在不同负载特征下自适应性不足的问题,提出了一种基于强化学习方法的ALHS算法,通过对访存调度中页命中优先时的连续页命中上限次数进行自适应调整,习得最优策略。多种不同典型访存模式的模拟结果显示,相比传统的FR-FCFS,ALHS算法运行速度平均提升了10.98%,并且可以获得近似于最优策略的性能提升,表明该算法能够自主探索环境并自我优化。相似文献

4.

强化学习理论、算法及应用 总被引：38，自引：3，他引：38

张汝波顾国昌刘照德王醒策《控制理论与应用》2000,17(5):637-642

强化学习（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）一词来自于行为心理学,这一理论把行为学习看成是反复试验的过程,从而把环境状态映射成相应的动作。首先全面地介绍了强化学习理论的主要算法,即瞬时差分法、Ｑ－学习算法及自适应启发评价算法;然后介绍了强化学习的应用情况;最后讨论了强化学习目前所要研究的问题。相似文献

5.

基于强化学习的智能I/O调度算法

下载免费PDF全文

李琼郭御风蒋艳凰《计算机工程与科学》2010,32(7):58-61

利用机器学习方法解决存储领域中若干技术难题是目前存储领域的研究热点之一。强化学习作为一种以环境反馈作为输入、自适应环境的特殊的机器学习方法,能通过观测环境状态的变化,评估控制决策对系统性能的影响来选择最优的控制策略,基于强化学习的智能RAID控制技术具有重要的研究价值。本文针对高性能计算应用特点,将机器学习领域中的强化学习技术引入RAID控制器中,提出了基于强化学习的智能I/O调度算法RL-scheduler,利用Q-学习策略实现了面向并行应用的自治调度策略。RL-scheduler综合考虑了调度的公平性、磁盘寻道时间和MPI应用的I/O访问效率,并提出多Q-表交叉组织方法提高Q-表的更新效率。实验结果表明,RL-scheduler缩短了并行应用的平均I/O服务时间,提高了大规模并行计算系统的I/O吞吐率。相似文献

6.

深度强化学习算法求解动态流水车间实时调度问题

下载免费PDF全文

杨媛媛胡蓉钱斌张长胜金怀平《控制理论与应用》2024,41(6):1047-1055

本文针对动态流水车间调度问题(DFSP), 以最小化最大完工时间为优化目标, 提出一种自适应深度强化学习算法(ADRLA)进行求解. 首先, 将DFSP的新工件动态到达过程模拟为泊松过程, 进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述, 将DFSP转化为可由强化学习求解的序贯决策问题. 然后, 根据DFSP的排序模型特点, 设计具有较好状态特征区分度和泛化性的状态特征向量, 并依此提出5种特定动作(即调度规则)来选择当前需加工的工件, 同时构造基于问题特性的奖励函数以获取动作执行效果的评价值(即奖励值), 从而确定ADRLA的3类基本要素. 进而, 以深度双Q网络(DDQN) 作为ADRLA中的智能体, 用于进行调度决策. 该智能体采用由少量小规模DFSP确定的数据集(即3类基本要素在不同问题上的数据)训练后, 可较准确刻画不同规模DFSP的状态特征向量与Q值向量(由各动作的Q值组成)间的非线性关系, 从而能对各种规模DFSP进行自适应实时调度. 最后, 通过在不同测试问题上的仿真实验和与算法比较, 验证了所提ADRLA求解DFSP的有效性和实时性. 相似文献

7.

基于强化蚁群算法的高层住宅电梯群调度研究

顾玲丽董佳琦许洪华《计算机仿真》2022,(1):412-417

在电梯群调度系统研究中,蚁群算法应用较为广泛,但仍存在迭代次数多、收敛速度慢等问题,同时高层建筑电梯鲜有优化调度.针对上述问题,提出一种将强化学习和蚁群算法相结合的高层电梯群控调度方法:建立以用户乘梯体验和系统运行能耗的多目标函数优化调度模型,用Q-learning迭代寻优后的Q值初始化蚁群算法的信息素,同时也将Q值引... 相似文献

8.

深度强化学习算法求解作业车间调度问题

下载免费PDF全文

李宝帅叶春明《计算机工程与应用》2021,57(23):248-254

由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。相似文献

9.

改进的Q学习算法在作业车间调度中的应用 总被引：3，自引：0，他引：3

王超郭静包振强《计算机应用》2008,28(12):3268-3270

在制造业系统中车间调度是一项关键技术,可以用强化学习中的Q学习实现对车间作业的动态调度。传统的Q学习存在收敛速度慢和容易导致局部收敛的矛盾,为此提出一种改进的Q学习算法。在行为动作上提出了一种双层动作合成的动作组,给出常规数学中“聚度”概念来衡量在某一状态动作组选择的均匀程度,达到既能加速收敛又能防止局部收敛的目的,能有效适应现今复杂多变的动态生产环境。实验表明,该方法运用于动态车间调度中有较好的效果。相似文献

10.

基于深度强化学习的深圳市急救车调度算法

吴仍裕周强于海龙王亚沙《计算机工程》2022,48(9):298-304

在院前急救领域中,急救反应时间是指患者拨打急救电话后,急救车到达现场的时间。传统急救车调度算法未全面考虑急救环境的动态性和复杂性因素,导致模型优化的急救反应时间与实际情况存在偏差。将急救车调度问题建模成马尔科夫决策过程,构建基于深度强化学习的急救车调度算法。以多层感知机作为评分网络结构,通过将急救站的动态信息映射为各个急救站的得分,确定急救车被调往各急救站的概率。同时,结合急救车调度的动态决策特点,利用强化学习中演员-评论家框架下的近端策略优化算法改进评分网络参数。在深圳市急救中心真实急救数据集上的实验结果表明,相比Fixed、DSM、MEXCLP等算法,该算法在每个急救事件中的急救反应时间平均缩短约80 s,并且在10 min内急救车的平均到达比例为36.5%,能够实时地将急救车调度到合适的急救站。相似文献

11.

A multi-objective reinforcement learning algorithm for deadline constrained scientific workflow scheduling in clouds

Yao QIN Hua WANG Shanwen YI Xiaole LI Linbo ZHAI 《Frontiers of Computer Science》2021,15(5):155105

Recently, a growing number of scientific applications have been migrated into the cloud. To deal with the problems brought by clouds, more and more researchers start to consider multiple optimization goals in workflow scheduling. However, the previous works ignore some details, which are challenging but essential. Most existing multi-objective workflow scheduling algorithms overlook weight selection, which may result in the quality degradation of solutions. Besides, we find that the famous partial critical path (PCP) strategy, which has been widely used to meet the deadline constraint, can not accurately reflect the situation of each time step. Workflow scheduling is an NP-hard problem, so self-optimizing algorithms are more suitable to solve it.In this paper, the aim is to solve a workflow scheduling problem with a deadline constraint. We design a deadline constrained scientific workflow scheduling algorithm based on multi-objective reinforcement learning (RL) called DCMORL. DCMORL uses the Chebyshev scalarization function to scalarize its Q-values. This method is good at choosing weights for objectives. We propose an improved version of the PCP strategy calledMPCP. The sub-deadlines in MPCP regularly update during the scheduling phase, so they can accurately reflect the situation of each time step. The optimization objectives in this paper include minimizing the execution cost and energy consumption within a given deadline. Finally, we use four scientific workflows to compare DCMORL and several representative scheduling algorithms. The results indicate that DCMORL outperforms the above algorithms. As far as we know, it is the first time to apply RL to a deadline constrained workflow scheduling problem. 相似文献

12.

基于深度强化学习种群优化的演化式分拣调度算法

曾德天曾增日詹俊《计算机应用研究》2022,39(3):739-743+757

机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。相似文献

13.

A novel elevator scheduling algorithm based on information fusion

CHEN Yu xian LUO San ding 《计算机工程与科学》2013,35(12):178

相似文献

14.

A satellite network resource scheduling mechanism based on reinforcement learning

ZHOU Bi-ying WANG Ai-ping FEI Chang-jiang YU Wan-rong ZHAO Bao-kang 《计算机工程与科学》1990,41(12):2134

相似文献

15.

基于强化学习的卫星网络资源调度机制

周碧莹王爱平费长江虞万荣赵宝康《计算机工程与科学》2019,41(12):2134-2142

与传统同步轨道通信卫星(GEO)相比,以SpaceX、Starlink、O3b等为代表的新一代中低轨卫星互联网星座具备广域覆盖、全时空互联、多星协同等显著优势,已成为当今世界各国研究的焦点之一。传统卫星资源调度方法主要研究单颗GEO卫星下的资源调度问题,难以满足以多星协同、联合组网、海量用户为特征的低轨卫星星座的资源调度需求。为此,构建了基于用户满意度的多星协同智能资源调度模型,提出了一种基于强化学习的卫星网络资源调度机制IRSUP。IRSUP针对用户服务定制的个性化需求,设计了用户服务偏好智能优化模块;针对多星资源联合优化难题,设计了基于强化学习的智能调度模块。模拟仿真结果表明:IRSUP能有效提高资源调度合理性、链路资源利用率和用户满意度等指标,其中业务容量提升30%～60%,用户满意度提升一倍以上。相似文献

16.

基于强化学习的智能车间调度策略研究综述

王无双骆淑云《计算机应用研究》2022,39(6)

智能制造是我国制造业发展的必然趋势,而智能车间调度是制造业升级和深化“两化融合”的关键技术。主要研究强化学习算法在车间调度问题中的应用,为后续的研究奠定基础。其中车间调度主要包括静态调度和动态调度;强化学习算法主要包括基于值函数和AC（Actor-Critic）网络。首先,从总体上阐述了强化学习方法在作业车间调度和流水车间调度这两大问题上的研究现状;其次,对车间调度问题的数学模型以及强化学习算法中最关键的马尔可夫模型建立规则进行分类讨论;最后,根据研究现状和当前工业数字化转型需求,对智能车间调度技术的未来研究方向进行了展望。相似文献

17.

基于分布式深度强化学习的微电网实时优化调度

郭方洪何通吴祥董辉刘冰《控制理论与应用》2022,39(10):1881-1889

随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度. 相似文献

18.

Optimizing task scheduling in human-robot collaboration with deep multi-agent reinforcement learning

《Journal of Manufacturing Systems》2021

Human-Robot Collaboration (HRC) presents an opportunity to improve the efficiency of manufacturing processes. However, the existing task planning approaches for HRC are still limited in many ways, e.g., co-robot encoding must rely on experts’ knowledge and the real-time task scheduling is applicable within small state-action spaces or simplified problem settings. In this paper, the HRC assembly working process is formatted into a novel chessboard setting, in which the selection of chess piece move is used to analogize to the decision making by both humans and robots in the HRC assembly working process. To optimize the completion time, a Markov game model is considered, which takes the task structure and the agent status as the state input and the overall completion time as the reward. Without experts’ knowledge, this game model is capable of seeking for correlated equilibrium policy among agents with convergency in making real-time decisions facing a dynamic environment. To improve the efficiency in finding an optimal policy of the task scheduling, a deep-Q-network (DQN) based multi-agent reinforcement learning (MARL) method is applied and compared with the Nash-Q learning, dynamic programming and the DQN-based single-agent reinforcement learning method. A height-adjustable desk assembly is used as a case study to demonstrate the effectiveness of the proposed algorithm with different number of tasks and agents. 相似文献