首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
AGC是一个动态多级决策问题——马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学习核心算法,将CPS值看作包含AGC的电力系统“环境”所给的“奖励”,依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习。学习目标是使CPS控制动作从环境获得的长期积累奖励值最大,从而快速自动地在线优化CPS控制系统的输出。仿真研究显示,引入强化学习自校正控制后显著增强了整个AGC系统的鲁棒性和适应性,有效提高了CPS考核合格率。  相似文献   

2.
基于强化学习的互联电网CPS自校正控制   总被引:1,自引:0,他引:1  
AGC是一个动态多级决策问题--马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策.引入Q学习算法作为强化学习核心算法,将CPS值看作包含AGC的电力系统"环境"所给的"奖励",依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习.学习目标是使CPS控制动作从环境获得的长期积累奖励值最大,从而快速自动地在线优化CPS控制系统的输出.仿真研究显示,引入强化学习自校正控制后显著增强了整个AGC系统的鲁棒性和适应性,有效提高了CPS考核合格率.  相似文献   

3.
互联电网CPS调节指令动态最优分配Q–学习算法   总被引:1,自引:1,他引:0  
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。  相似文献   

4.
应用经典强化学习方法的控制性能标准(control performance standard,CPS)下自动发电控制(automatic generation control,AGC)指令(CPS指令)由调度端至电网各台机组的分配过程不可避免出现维数灾难问题。提出应用分层强化学习的方法,将全网机组按调频时延做初次分类,CPS指令逐层分配形成任务分层结构。在分层Q学习算法层与层之间引入一个时变协调因子,改进的分层Q学习算法有效提高原算法收敛速度。奖励函数中设计不同的权值线性组合,展示保守及乐观控制下系统CPS控制水平和调节成本的变化关系。南方电网统计性仿真分析表明,改进分层Q学习算法较分层Q学习算法平均收敛时间缩短47%,在复杂随机扰动的环境中改进算法能有效提高系统CPS考核合格率,并降低调节成本约5%。  相似文献   

5.
基于多步回溯Q(λ)学习的互联电网随机最优CPS控制   总被引:1,自引:0,他引:1  
针对非马尔可夫环境下火电占优的互联电网AGC控制策略,引入随机最优控制中Q(λ)学习的"后向估计"原理,可有效解决火电机组大时滞环节带来的延时回报问题。本文以CPS1/CPS2滚动平均值为状态输入,将CPS评价指标与松弛目标根据线性加权原则转化为MDP奖励函数,从长期的角度提出一种在线反馈学习结构的随机最优CPS控制。统计性仿真试验表明,所提CPS控制具有较强的适应性和动态性能,在保证CPS合格率基础上能有效减少调度端的平均发令次数和反调次数。同时,该策略提供了一种可通过修正松弛因子在线调整AGC系统的"松弛度",可降低发电成本及机组磨损,从而实现CPS松弛控制。  相似文献   

6.
针对AGC调节容量多目标优化分配存在着无法完全描述机组特性的问题,通过研究提出采用基于强化Q学习的优化分配方法.将AGC系统视为“不确定的随机系统”,结合ACE的调节死区以及CPS评价标准,建立了AGC调节容量优化分配问题的马尔可夫决策过程模型,并引入Q学习方法对MDP的最优值函数进行学习,仿真结果表明,该强化Q学习-模糊多目标AGC调节容量动态优化分配策略能够适应电网环境变化的要求.  相似文献   

7.
在策略SARSA算法在互联电网CPS最优控制中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统中搜索一些危险的状态,相对于离策略(off-policy)的Q学习算法,在策略(on-policy)SARSA算法的学习试错过程中对受控系统影响更小。仿真结果表明,基于SARSA算法的CPS控制器较Q学习算法有更好的鲁棒性和适应性,能够获得更佳的CPS指标。  相似文献   

8.
简要介绍了华东电网正在推行的控制性能标准(control performance standard,CPS)/扰动控制标准(disturbance control standard,DCS),以及基于CPS/DCS的系统扰动控制性能评价及考核办法。提出在福建电网采用自动发电控制(automatic generation control,AGC)机组及非AGC机组按照正常速率或紧急速率自动调节,或采用人工调节相结合的DCS控制策略。建立了基于CPS/DCS的AGC控制策略中4个控制器之间的协调机制,并根据华东电网CPS/ DCS考核结果对各控制器的控制修正系数进行优化。在福建电网EMS系统中完成了DCS控制策略及AGC控制策略的功能开发,最后通过福建电网实际发生的扰动对该策略进行了验证。  相似文献   

9.
提出一种利用控制性能标准(control performance standard,CPS)的统计信息进行自动学习,从而为调度端自动发电控制(automatic generation control,AGC)的比例积分控制参数进行自动调整的自适应控制策略。CPS标准的提出一方面是为提高区域电网对整个电网频率的支援作用,另一方面其统计特性放宽对区域控制偏差控制的要求。该自适应控制策略充分利用CPS的统计特性,对电网结构、参数和运行方式具有良好的适应性,其自学习机制简单实用,易于在现有大多数电网调度AGC系统上实现。以广东电网为对象的实例研究显示,该AGC自适应控制可在保证CPS考核合格率的同时有效减轻发电厂的调节压力。  相似文献   

10.
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学习算法与基于折扣报酬模型的Q(λ)学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R(λ)控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线"模仿学习"所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R(λ)控制器的学习效率及其在实际电力系统中的应用性。  相似文献   

11.
具有先验知识的 Q学习算法在AGC中的应用   总被引:2,自引:2,他引:0  
传统的自动发电控制(AGC)系统通常基于经典的线性控制理论,并且大部分二次调频采用比例积分(PI)控制器,但系统固有的非线性以及结构多变使得积分增益系数不易确定,容易造成超调或调节不足的问题,从而影响系统频率稳定。文中采用强化学习控制器代替传统的PI调节器,将考虑了死区、出力约束、机组爬坡率和时延等非线性环节的AGC系统离散化成Markov链,直接将区域控制误差作为系统状态量,并充分利用AGC环境中的已有信息,结合模糊综合决策方法,获得能够改善 Q学习效率的先验知识,采用Q学习算法对其进行学习得出离散的AGC策略。数值仿真的结果验证在非线性AGC系统中应用具有先验知识的 Q学习方法可以加快收敛速度,提高学习效率,并通过控制性能评价标准(CPS)进一步检验了该方法的可行性。  相似文献   

12.
This paper presents a Reinforcement Learning (RL) method for network constrained setting of control variables. The RL method formulates the constrained load flow problem as a multistage decision problem. More specifically, the model-free learning algorithm (Q-learning) learns by experience how to adjust a closed-loop control rule mapping states (load flow solutions) to control actions (offline control settings) by means of reward values. Rewards are chosen to express how well control actions cause satisfaction of operating constraints. The Q-learning algorithm is applied to the IEEE 14 busbar and to the IEEE 136 busbar system for constrained reactive power control. The results are compared with those given by the probabilistic constrained load flow based on sensitivity analysis demonstrating the advantages and flexibility of the Q-learning algorithm. Computing times with another heuristic method is also compared.  相似文献   

13.
This paper formulates the automatic generation control (AGC) problem as a stochastic multistage decision problem. A strategy for solving this new AGC problem formulation is presented by using a reinforcement learning (RL) approach. This method of obtaining an AGC controller does not depend on any knowledge of the system model and more importantly it admits considerable flexibility in defining the control objective. Two specific RL based AGC algorithms are presented. The first algorithm uses the traditional control objective of limiting area control error (ACE) excursions, where as, in the second algorithm, the controller can restore the load-generation balance by only monitoring deviation in tie line flows and system frequency and it does not need to know or estimate the composite ACE signal as is done by all current approaches. The effectiveness and versatility of the approaches has been demonstrated using a two area AGC model.  相似文献   

14.
提出了一种应用在控制性能标准(CPS)下自动发电控制(AGC)指令(CPS指令)由调度端至各台机组的动态分配过程的分层多智能体相关均衡(HCEQ)算法。根据机组调频时延对其进行聚类分层,有效解决了CPS指令分配过程的维数灾难问题。相比单智能体强化学习算法,HCEQ算法引入了均衡目标函数的求解,有效提高了算法寻优速度。将功率偏差、水电裕度和调节成本目标以线性加权的方法转化为算法奖励函数,研究了不同权值下CPS控制性能和调节成本的变化关系。南方电网模型仿真研究表明,HCEQ算法具有较快的收敛速度,在复杂随机扰动的环境中能有效提高系统CPS考核合格率,并有效降低AGC调节成本。  相似文献   

15.
满足互联电网CPS标准的AGC最小调节容量研究   总被引:1,自引:0,他引:1  
分析了确定电力系统自动发电控制(automatic generation control,AGC)机组调节容量的主要因素,提出将AGC最小调节容量的获取转换为最小调节速率的获取。根据电力系统实际运行情况和控制性能评价标准(control performance standard,CPS)考核要求,建立基于现代内点理论的互联电网CPS标准下的AGC最小调节速率的数学模型,确定解算条件,导出含互补约束条件的非线性规划算法。该方法能够确定不同时段最优AGC机组调节容量,协调不同特性机组的运行,从而保证电力系统安全稳定经济运行,同时很好地兼顾电网运行的可靠性和市场运营的经济性。大量的仿真实验和比较算例表明所提方法的可行性和实用性。  相似文献   

16.
Conventional closed-form solution to the optimal control problem using optimal control theory is only available under the assumption that there are known system dynamics/models described as differential equations. Without such models, reinforcement learning (RL) as a candidate technique has been successfully applied to iteratively solve the optimal control problem for unknown or varying systems. For the optimal tracking control problem, existing RL techniques in the literature assume either the use of a predetermined feedforward input for the tracking control, restrictive assumptions on the reference model dynamics, or discounted tracking costs. Furthermore, by using discounted tracking costs, zero steady-state error cannot be guaranteed by the existing RL methods. This article therefore presents an optimal online RL tracking control framework for discrete-time (DT) systems, which does not impose any restrictive assumptions of the existing methods and equally guarantees zero steady-state tracking error. This is achieved by augmenting the original system dynamics with the integral of the error between the reference inputs and the tracked outputs for use in the online RL framework. It is further shown that the resulting value function for the DT linear quadratic tracker using the augmented formulation with integral control is also quadratic. This enables the development of Bellman equations, which use only the system measurements to solve the corresponding DT algebraic Riccati equation and obtain the optimal tracking control inputs online. Two RL strategies are thereafter proposed based on both the value function approximation and the Q-learning along with bounds on excitation for the convergence of the parameter estimates. Simulation case studies show the effectiveness of the proposed approach.  相似文献   

17.
“双碳”目标驱动以新能源为主体的新型电力系统快速发展,大规模新能源接入给电力系统带来强随机扰动,传统控制方法无法有效解决强随机扰动下电力系统稳定性变差的问题。从自动发电控制(automatic generation control, AGC)角度,提出了一种具有信息松弛的多态能源协调控制策略,以获取多态能源系统的最优协调控制。所提策略在“控制”部分采用具有完全信息松弛特性的前瞻有界Q学习(lookahead-bounded Q-learning, LQ)来预测未来Q值的上下界,以提高强随机环境下Q学习的快速收敛能力及控制性能;在“分配”部分利用新颖的分层双Q学习强一致性(hierarchical double Q-learning based multi paxos, HDQMP)策略来解决机组激增而产生的“维度灾难”问题。通过对改进的IEEE标准两区域负荷频率控制模型和大规模新能源接入的多态能源系统模型仿真,验证了所提方法的有效性。且与其他方法相比,所提方法具有更优的控制性能和更快的收敛速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号