一种基于强化学习的发电机组恢复方法和系统



1.本发明涉及电力系统领域,尤其涉及一种基于强化学习的发电机组恢复方法和系统。


背景技术:



2.随着电网结构越来越复杂,由于自然灾害、保护拒动、误动甚至网络攻击等多种原因,在世界范围内发生了多起严重的电力系统大停电事故,给人类的生产生活造成了巨大的影响。电力系统的恢复主要包括黑启动、网架重构和负荷恢复三个阶段,而机组恢复是整个恢复阶段的基础。
3.目前,现有的机组恢复方案主要包括多属性决策评估、方案优化以及专家系统。多属性决策将备选恢复机组与最短恢复路径相结合,由单步恢复方案扩展到整体的机组恢复;方案优化将最大化系统发电能力或恢复时间最少为目标确定机组恢复方案;专家系统将专家经验和预设规则组成的知识库协助调度人员完成机组恢复。
4.现有机组恢复方案存在的缺点为:多属性决策只考虑了单步恢复,未考虑恢复方案整体最优性,方案优化需要考虑多种目标优化,建立复杂的数学模型且恢复时间较长,而专家系统并不能考虑机组恢复的各种因素,停电场景或恢复预案不全面。


技术实现要素:



5.本发明旨在提出一种基于强化学习的发电机组恢复方法及系统,其计算简单,能够在不依赖调度人员经验的前提下,根据发电机组故障到发电机组的最佳出力值组合。
6.本发明提供一种基于强化学习的发电机组恢复方法,包括如下步骤:
7.将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间;
8.当所述电力系统中的母线出现负荷故障时,根据ε-贪婪策略,在所述动作空间中,以ε的概率随机选择动作,并以1-ε的概率选择所述随机选择动作中价值最大的动作;
9.根据所述价值最大的动作,运用牛顿拉夫逊算法进行潮流计算,得到所述电力系统中发电机组当前的状态空间;
10.根据所述电力系统当前的状态空间设置奖赏函数;当所述电力系统中发电机组的有功出力值小于pi或者大于时,给予负奖励α;当所述电力系统的节点电压小于vi或者大于时,给予负奖励β;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2l cnpn,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合。
11.进一步地,将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间的具体方法为:
12.将所述电力系统中各发电机组有功出力值的调节范围作为所述动作空间。
13.进一步地,所述调节范围为所述电力系统中各发电机组正常运行时的有功出力值的
±
30%~
±
50%。
14.进一步地,运用牛顿拉夫逊算法进行潮流计算的具体方程为:
[0015][0016]
其中,p
gi
是第i个发电机组的有功出力值,p
di
是第i个负荷的有功功率,g
ij
是节点i到j的电导,b
ij
是节点i到j的电纳,δ
ij
是节点i和j的相角差。
[0017]
进一步地,所述预设阈值为5~10mw。
[0018]
本发明还提出一种基于强化学习的发电机组恢复系统,包括:
[0019]
转换模块,用于将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间;
[0020]
动作选择模块,用于当所述电力系统中的母线出现负荷故障时,根据ε-贪婪策略,在所述动作空间中,以ε的概率随机选择动作,并以1-ε的概率选择所述随机选择动作中价值最大的动作;
[0021]
计算模块,用于根据所述价值最大的动作,运用牛顿拉夫逊算法进行潮流计算,得到所述电力系统中发电机组当前的状态空间;
[0022]
奖赏模块,用于根据所述电力系统当前的状态空间设置奖赏函数;当所述电力系统中发电机组的有功出力值小于pi或者大于时,给予负奖励α;当所述电力系统的节点电压小于vi或者大于时,给予负奖励β;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2l cnpn,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合。
[0023]
本发明还提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述的基于强化学习的发电机组恢复方法
[0024]
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于强化学习的发电机组恢复方法。
[0025]
本发明的实施例提供的技术方案带来的有益效果是:本发明实施例中基于强化学习的发电机组恢复方法通过使用强化学习方法中的q-learning算法,并设置奖赏函数,简化计算,能够在不依赖调度人员经验的前提下,根据发电机组故障到发电机组的最佳出力值组合,并根据所述最佳出力值组合恢复电力系统的发电机组。
附图说明
[0026]
图1为本发明某一实施例中基于强化学习的发电机组恢复方法的流程图;
[0027]
图2为本发明某一实施例中ieee-9节点电力系统的结构示意图;
[0028]
图3为本发明某一实施例中不同负奖赏值对应的平均奖赏值的曲线图;
[0029]
图4为本发明某一实施例中发电机组有功出力值图。
具体实施方式
[0030]
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本技术一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
[0031]
请参考图1,本发明的实施例提供了一种基于强化学习的发电机组恢复方法,包括如下步骤:
[0032]
将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间;
[0033]
当所述电力系统中的母线出现负荷故障时,根据ε-贪婪策略,在所述动作空间中,以ε的概率随机选择动作,并以1-ε的概率选择所述随机选择动作中价值最大的动作;
[0034]
根据所述价值最大的动作,运用牛顿拉夫逊算法进行潮流计算,得到所述电力系统中发电机组当前的状态空间;
[0035]
根据所述电力系统当前的状态空间设置奖赏函数;当所述电力系统中发电机组的有功出力值小于pi或者大于时,给予负奖励α;当所述电力系统的节点电压小于vi或者大于时,给予负奖励β;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2l cnpn,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合。
[0036]
在上述步骤中,pi和分别是发电机组有功出力值的上下限约束;vi和分别为节点电压的上下限约束;c0、c1、c2l cn分别为设定的常数;p1、p2l pn分别为电力系统中发电机组1、2

n的有功出力值。
[0037]
示例性地,在本实施例中,所述电力系统中发电机组的数量为2个,即n=2;所述α的值分别为-200,-300;所述β的值分别为-100,-50,c0、c1、c2的值分别为0.01、0.02、0.03。
[0038]
具体地,将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间的具体方法为:将所述电力系统中各发电机组有功出力值的调节范围作为所述动作空间;其中,所述调节范围为所述电力系统中各发电机组正常运行时的有功出力值的
±
30%~
±
50%。
[0039]
示例性地,在本实施例中,所述调节范围为所述电力系统中各发电机组正常运行时的有功出力值的
±
30%。
[0040]
图2为本实施例中ieee-9节点电力系统的结构示意图;其中,有三个发电机组,g1和g2分别是发电机组1、发电机组2,g3是平衡机组,母线5、7、9接有负荷,即负荷5、7、9。在使用的算法中,主要通过调节发电机组1和2的有功出力值进行发电机组的恢复。闪电标志表示母线5上的负载受到扰动,即出现负荷故障。
[0041]
强化学习算法不需要建立复杂的数学模型,即具有与环境交互,不断试错的特点。将电力系统发电机组恢复的过程构建成马尔可夫决策模型,对发电机组的出力值离散化后看作动作空间,分别设置成4个动作,每次的动作都是发电机组正常运行时有功出力值的
±
30%,这4个动作分别为发电机组1的有功出力值增加,发电机组2的有功出力值减少;发电机组1的有功出力值增加,发电机组2的有功出力值增加;发电机组1的有功出力值减少,发电机组2的有功出力值减少;发电机组1有功出力值减少,发电机组2有功出力值增加。电力
系统中的发电机组的有功出力值变化为状态空间,并设置奖赏函数:若电力系统的当前状态接近于正常运行时的状态,则给予正奖励值;若发电机组的出力值超过约束范围给予负奖励。评价指标为折扣奖赏函数值达到最大值时,即发电机组出力值为最佳,此时认为电力系统为最佳恢复状态。
[0042]
具体地,上述步骤中,运用牛顿拉夫逊算法进行潮流计算的具体方程为:
[0043][0044]
其中,p
gi
是第i个发电机组的有功出力值,p
di
是第i个负荷的有功功率,g
ij
是节点i到j的电导,b
ij
是节点i到j的电纳,δ
ij
是节点i和j的相角差。
[0045]
进一步地,所述预设阈值为5~10mw。
[0046]
示例性地,在本实施例中,所述预设阈值为5mw;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合:p1和p2。
[0047]
图3为本实施例中不同负奖赏值对应的平均奖赏值的曲线图;其中,横坐标为迭代次数,纵坐标η为平均奖赏函数值,图例为不同负奖励时的取值,即α=-300,β=-100;α=-200,β=-100;α=-200,β=-50。在3次迭代时,平均奖赏函数都趋近于最大值,并保持不变,此时说明电力系统中发电机组恢复为最佳状态,此时,发电机组1和发电机组2的有功出力值p1和p2即为所述电力系统中发电机组的最佳出力值组合。
[0048]
图4本实施例中发电机组有功出力值图;其中,p1代表发电机组1的有功出力值,p2代表发电机组2的有功出力值;电力系统正常运行时,发电机组1和发电机组2的有功出力值分别为163mw和85mw;图4中不同负奖励值和迭代次数对应的发电机组的有功出力值具体为:
[0049]
当α=-200,β=-100时,
[0050][0051]
当α=-300,β=-100时,
[0052][0053]
当α=-200,β=-50时,
[0054][0055]
本发明还提出一种基于强化学习的发电机组恢复系统,包括:
[0056]
转换模块,用于将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间;
[0057]
动作选择模块,用于当所述电力系统中的母线出现负荷故障时,根据ε-贪婪策略,在所述动作空间中,以ε的概率随机选择动作,并以1-ε的概率选择所述随机选择动作中价值最大的动作;
[0058]
计算模块,用于根据所述价值最大的动作,运用牛顿拉夫逊算法进行潮流计算,得到所述电力系统中发电机组当前的状态空间;
[0059]
奖赏模块,用于根据所述电力系统当前的状态空间设置奖赏函数;当所述电力系统中发电机组的有功出力值小于pi或者大于时,给予负奖励α;当所述电力系统的节点电压小于vi或者大于时,给予负奖励β;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2l cnpn,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合。
[0060]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0061]
本发明还提供一种计算机设备,包括通过系统总线相互通信连接存储器、处理器等。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applica tion specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0062]
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0063]
存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡
(smartmedia card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器通常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如如上的基于强化学习的发电机组恢复方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0064]
处理器在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行如上所述的基于强化学习的发电机组恢复方法的程序代码。
[0065]
以上未涉及之处,适用于现有技术。
[0066]
在本文中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本技术请求保护的范围。
[0067]
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
[0068]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于强化学习的发电机组恢复方法,其特征在于,包括如下步骤:将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间;当所述电力系统中的母线出现负荷故障时,根据ε-贪婪策略,在所述动作空间中,以ε的概率随机选择动作,并以1-ε的概率选择所述随机选择动作中价值最大的动作;根据所述价值最大的动作,运用牛顿拉夫逊算法进行潮流计算,得到所述电力系统中发电机组当前的状态空间;根据所述电力系统当前的状态空间设置奖赏函数;当所述电力系统中发电机组的有功出力值小于p
i
或者大于时,给予负奖励α;当所述电力系统的节点电压小于v
i
或者大于时,给予负奖励β;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2l c
n
p
n
,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合。2.根据权利要求1所述的基于强化学习的发电机组恢复方法,其特征在于,将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间的具体方法为:将所述电力系统中各发电机组有功出力值的调节范围作为所述动作空间。3.根据权利要求2所述的基于强化学习的发电机组恢复方法,其特征在于,所述调节范围为所述电力系统中各发电机组正常运行时的有功出力值的
±
30%~
±
50%。4.根据权利要求1所述的基于强化学习的发电机组恢复方法,其特征在于,运用牛顿拉夫逊算法进行潮流计算的具体方程为:其中,p
gi
是第i个发电机组的有功出力值,p
di
是第i个负荷的有功功率,g
ij
是节点i到j的电导,b
ij
是节点i到j的电纳,δ
ij
是节点i和j的相角差。5.根据权利要求1所述的基于强化学习的发电机组恢复方法,其特征在于,所述预设阈值为5~10mw。6.一种基于强化学习的发电机组恢复系统,其特征在于,包括:转换模块,用于将电力系统中正常运行时的发电机组的有功出力值转换成q-learning算法中的动作空间;动作选择模块,用于当所述电力系统中的母线出现负荷故障时,根据ε-贪婪策略,在所述动作空间中,以ε的概率随机选择动作,并以1-ε的概率选择所述随机选择动作中价值最大的动作;计算模块,用于根据所述价值最大的动作,运用牛顿拉夫逊算法进行潮流计算,得到所述电力系统中发电机组当前的状态空间;奖赏模块,用于根据所述电力系统当前的状态空间设置奖赏函数;当所述电力系统中
发电机组的有功出力值小于p
i
或者大于时,给予负奖励α;当所述电力系统的节点电压小于v
i
或者大于时,给予负奖励β;当所述电力系统中发电机组当前的状态空间与所述电力系统中正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,给予正奖励c0+c1p1+c2p2l c
n
p
n
,并输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合。7.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5任意一项所述的基于强化学习的发电机组恢复方法。8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的基于强化学习的发电机组恢复方法。

技术总结


本发明提供一种基于强化学习的发电机组恢复方法,涉及电力系统领域;复方法包括如下步骤:将正常运行时的发电机组的有功出力值转换成Q-learning算法中的动作空间;当母线出现负荷故障时,根据ε-贪婪策略,以ε的概率随机选择动作,并以1-ε的概率选择价值最大的动作;运用牛顿拉夫逊算法进行潮流计算,得到发电机组当前的状态空间;设置奖赏函数;当发电机组当前的状态空间与正常运行时发电机组的有功出力值的差值的绝对值小于或者等于预设阈值时,输出所述发电机组当前的状态空间,即所述电力系统的发电机组最佳有功出力值组合;本发明还提出基于强化学习的发电机组恢复的系统,能够在不依赖调度人员经验的前提下,根据发电机组故障到其最佳出力值组合。据发电机组故障到其最佳出力值组合。据发电机组故障到其最佳出力值组合。


技术研发人员:

翟超 李慧苗

受保护的技术使用者:

中国地质大学(武汉)

技术研发日:

2022.07.19

技术公布日:

2022/11/22

本文发布于:2024-09-20 13:28:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/307.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:机组   所述   电力系统   动作
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议