设备控制方法、计算机可读存储介质以及计算机终端与流程



1.本发明涉及设备控制领域,具体而言,涉及一种设备控制方法、计算机可读存储介质以及计算机终端。


背景技术:



2.目前,随着大规模可再生能源和灵活性资源介入,传统系统调度模式难以在变化剧烈、模型复杂的调度环境中满足实时调度的需求。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:



4.本发明实施例提供了一种设备控制方法、计算机可读存储介质以及计算机终端,以至少解决相关技术中的调度系统难以满足实时调度的技术问题。
5.根据本发明实施例的一个方面,提供了一种设备控制方法,包括:对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制。
6.根据本发明实施例的另一方面,还提供了一种设备控制方法,包括:对电力设备所处的真实电网环境进行测量,得到电力设备的状态信息;将状态信息映射成电力设备的初始调度指令;对初始调度指令进行校正,得到目标调度指令,其中,目标调度指令处于电力设备的预设指令空间中,处于预设指令空间中的调度指令用于控制电力设备安全运行;基于目标调度指令对电力设备进行控制。
7.根据本发明实施例的一个方面,提供了一种设备控制方法,包括:云服务器接收客户端上传的待控制设备的状态信息,其中,状态信息是对待控制设备所处的真实环境待控制设备进行测量得到的;云服务器将状态信息映射成待控制设备的初始控制指令;云服务器对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;云服务器发送目标控制指令至客户端。
8.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的设备控制方法。
9.根据本技术实施例的一个方面,提供了一种计算机终端,包括:存储器,用于存储程序;处理器,与存储器连接,用于运行程序,其中,程序运行时执行上述实施例中任意一项的设备控制方法。
10.在本发明实施例中,可以对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,
得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制,实现了保证待控制设备安全运行的目的。容易注意到的是,可以对待控制设备所处的真实环境进行测量,得到控制设备的状态信息,由于该状态信息中包含了真实环境的因素,因此,可以达到根据真实场景进行实时调度的效果,并且利用安全校正模型对初始控制指令进行校正,得到目标控制指令,可以进一步加强待控制设备运行的安全性,进而解决了相关技术中的调度系统难以满足实时调度的技术问题。
附图说明
11.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
12.图1是根据本技术实施例的一种用于实现设备控制方法的计算机终端(或移动设备)的硬件结构框图;
13.图2是根据本技术实施例1的一种设备控制方法的流程图;
14.图3是根据本技术实施例的一种设备控制过程的示意图;
15.图4是根据本技术实施例的一种设备控制方法流程图;
16.图5是根据本技术实施例2的一种设备控制方法的流程图;
17.图6是根据本技术实施例3的一种设备控制方法的流程图;
18.图7是根据本技术实施例4的一种设备控制装置的示意图;
19.图8是根据本技术实施例5的一种设备控制装置的示意图;
20.图9是根据本技术实施例6的一种设备控制装置的示意图;
21.图10是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
22.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
23.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
24.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
25.交流较优潮流(alternating current optimal power flow,简称为acopf):电力
系统实时调度中计算较优潮流分布的精细化数学模型。
26.含约束的马尔可夫决策过程(constrained markov decision process,简称为cmdp):一类序贯决策的数学问题。
27.电力系统的低碳经济运行是实现“双碳”目标的必由之路,构建数据驱动的新型电力系统调度模式是推动能源系统数字化转型,国民经济高质量发展的重要力量。电力系统实时调度问题的核心是如何快速、经济、安全地求解一系列时变的acopf问题。从数学层面来说,acopf本质上属于非凸优化问题,计算效率低,对模型参数的精度依赖性强。随着可再生能源大规模接入和电网运行方式趋于复杂,传统电力系统调度模式难以在变化剧烈、参数不准确的环境中满足电力系统实时调度需求。
28.相关技术中,研发了一系列智能电网调度控制的整体解决方案,然而,其主要基于优化建模方法,对电力系统和可调资源模型参数依赖程度高,且在新能源变化剧烈的系统中无法提供快速决策功能。相关技术中还提供了智能调度运行优化决策平台和源网荷储一体化优化调度平台,但它们过度依赖精确的数学模型,无法充分发挥专家知识和海量数据的互补优势。相关技术中还提供了一系列安全强化学习算法,并进行了应用尝试,但未能实现商业落地应用,实用性和通用性不足。
29.整体来说,目前业内缺乏融合电网知识和海量数据的通用性电力系统实时调度技术,目前的产品对电网和可调设备的模型参数依赖性强、决策效率低、通用性有待提升。
30.鉴于此,本方案提出了一种设备控制方法来解决复杂电力系统的实时调度问题。
31.实施例1
32.根据本发明实施例,还提供了一种设备控制方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
33.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本技术实施例的一种用于实现设备控制方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a,102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
34.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
35.存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的设备
控制方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的设备控制方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
36.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,nic),其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
37.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
38.此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
39.在上述运行环境下,本技术提供了如图2所示的设备控制方法。图2是根据本技术实施例1的一种设备控制方法的流程图。
40.步骤s202,对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息。
41.上述的状态信息可以包括:真实环境的环境状态、待控制设备的设备状态。
42.上述的待控制设备可以是不同系统(如电力系统、互联网系统等)需要进行实时调度的设备,在本技术实施例中,以电力系统中的可调设备为例进行说明。例如,在能量管理场景中,待控制设备可以是有功调节设备(例如,发电机组、新能源电站、储能设备、可调节负荷等);在电压调节场景中,待控制设备可以是无功调节设备(例如,具有无功调节能力的发电机组、电力电子设备、电容器等),但不仅限于此。
43.上述的真实环境可以为待控制设备所处的真实网络环境、真实电网环境、电力系统运行环境等,此处的真实环境可以根据控制设备所处的环境确定。
44.上述待控制设备的状态信息可以为待控制设备在真实环境中的设备参数、设备运行参数等,还可以是真实环境的环境状态,其中,真实环境的环境状态可以是真实环境中网络的状态、信号的状态,其中,网络的状态可以是网络的稳定性,信号的状态可以为信号的稳定性,但不限于此,此处仅作实例进行说明。
45.上述的真实环境可以为待控制设备在不同场景下的运行环境,其对应的环境状态可以是运行环境的参数。其中,真实环境可以是不同系统的真实环境,可以是电力系统、互联网系统的真实环境,以电力系统为例说明,真实环境可以为电网的能力管理环境,其中,能量管理环境可以为功调节设备的电压、电流、线路等状态,例如,可以为发电机组、新能源电站、储能设备、可调节负荷等对应的能量管理环境,其环境状态可以为能量管理过程中电网的参数。真实环境还可以电压调节的环境,可以对电力系统中多类无功调节设备实现无功功率的实时调节,保证电网电压在安全水平,其环境状态可以为电压调节情况下电网的
参数。真实环境还可以为紧急或突发状况的环境,其环境状态可以为紧急或突发状况下电网的参数。
46.在电力系统中,上述真实环境的环境状态可以是电网状态,其中,电网状态包括但不限于支路潮流、节点电压、线路状态。上述待控制设备的设备状态可以是电力系统状态,其中,电力系统状态包括但不限于发电机处理、储能能量状态、负荷需求。
47.在一种可选的实施例中,可以通过各种安装在真实环境中的测量设备对待控制设备所处的真实环境进行测量,以便于得到待控制设备在真实环境中的状态信息,可以根据待控制设备在真实环境中的状态信息来对待控制设备的安全性进行约束。
48.步骤s204,将状态信息映射成待控制设备的初始控制指令。
49.在一种可选的实施例中,可以利用强化学习模型将状态信息映射成待控制设备的初始控制指令,其中,强化学习模型用于表征不同状态信息与不同控制指令之间的映射关系。
50.上述的强化学习模型可以为深度神经网络。
51.上述的强化学习模型可以是强化学习算法,其中,强化学习算法可以以最小化运行成本和消除潮流越限场景为目标设计奖励函数,其中,消除潮流越限场景可以是降低机组出力情况、切除负荷以及转移负荷等场景。
52.上述的初始控制指令可以为实时调度指令。
53.上述强化学习模型对应的强化学习动作空间可以包括电力系统中源-网-荷-储等多类可调设备的实时调度指令。
54.上述的状态信息可以强化学习模型中表示为待控制设备的当前状态空间值。
55.在一种可选的实施例中,可以利用强化学习模型对调度策略进行训练,其中,调度策略可以为从状态空间到动作空间的映射关系,可以获取在真实环境中采集到的待控制设备的状态信息,该状态信息可以为当前状态空间值,可以利用调度策略确定该当前状态空间值对应的动作空间值,并根据该动作空间值输出可调设备调度指令参考值,也即上述的初始控制指令,并将该初始控制指令下发至下一环节。
56.步骤s206,对初始控制指令进行校正,得到目标控制指令。
57.其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行。
58.在一种可选的实施例中,可以利用安全校正模型对初始控制指令进行校正,得到目标控制指令。
59.上述的安全校正模型可以用于确保待控制设备在安全环境下运行。其中,安全校正模型的构建思路可以为:以电力系统安全运行限制为约束条件,以安全校正模型的输出值和参考值的偏差最小为目标,构建安全校正模型。
60.上述的预设指令空间中可以包含多个预先设置的指令,每个指令用于对待控制设备实施不同的控制。
61.在一种可选的实施例中,可以利用安全校正模型对初始控制指令进行校正,以便于将初始控制指令校正到待控制设备的安全域中,得到目标控制指令,可以将目标安全指令下发至待控制设备中执行和实时。在待控制设备为多个的情况下,可以将每个待控制设备对应生成的目标安全指令发送到对应的待控制设备中。
62.在一种可选的实施例中,安全校正模型还可以输出设备理论状态,可以根据设备理论状态和设备在真实环境中的设备实测状态进行比较,得到偏差值,并基于该偏差值对安全校正模型的模型参数进行更新。
63.步骤s208,基于目标控制指令对待控制设备进行控制。
64.在一种可选的实施例中,可以根据目标控制指令对待控制设备进行控制,以便待控制设备执行与目标控制指令对应的动作。
65.以待控制设备为电力系统中的各个可调设备为例进行说明,可以先对各个可调设备所处的真实环境进行测量,得到各个可调设备的状态信息,其中,状态信息可以为电网状态和各个可调设备在真实环境下的设备状态,根据从电力系统实时环境中采样得到的当前状态空间值,也即设备状态和电网状态对应的空间值,利用调度策略确定该当前状态空间值对一个的动作空间值,输出各可调设备的调度参考指令,也即上述的初始控制指令,可以利用安全校正模型对调度参考指令对应的调度参考值进行校正,得到调度指令校正值,也即上述的安全控制指令,可以将调度指令校正值下发至各可调设备执行和实施。
66.本技术提出了一种知识-数据融合的安全强化学习架构,用于电力系统实时调度。其可以将强化学习与优化方法结合,利用强化学习在模型参数不准确的环境中快速决策,再采用优化方法对强化学习的输出动作进行安全校正,保障系统安全运行;此外,为提升模型精度和调度策略的长期经济效益,采用电力系统先验知识初始化安全校正模型,并利用实测数据对模型参数动态更新;该方案可显著减小对电力系统模型和参数的依赖程度,在决策效率、安全保障和适用范围等方面具有显著优势。
67.通过上述步骤,可以对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制,实现了保证待控制设备安全运行的目的。容易注意到的是,可以对待控制设备所处的真实环境进行测量,得到控制设备的状态信息,由于该状态信息中包含了真实环境的因素,因此,可以达到根据真实场景进行实时调度的效果,并且利用安全校正模型对初始控制指令进行校正,得到目标控制指令,可以进一步加强待控制设备运行的安全性,进而解决了相关技术中的调度系统难以满足实时调度的技术问题。
68.本技术上述实施例中,对初始控制指令进行校正,得到目标控制指令,包括:利用安全校正模型对初始控制指令进行校正,得到目标控制指令。
69.本技术上述实施例中,安全校正模型还用于对初始控制指令进行校正,得到待控制设备的设备理论状态,该方法还包括:获取真实环境中待控制设备的设备实测状态;将设备实测状态与设备理论状态进行比较,得到目标控制偏差;在目标控制偏差超过预设阈值的情况下,对安全校正模型的模型参数进行更新。
70.上述真实环境中的待控制设备的设备实测状态可以是待控制设备在真实环境中安全运行时的设备实测状态。
71.上述的设备理论状态可以是电力系统潮流状态的理论值。
72.上述的预设阈值可以为预先设置的阈值。
73.在一种可选的实施例中,可以将电力系统潮流状态的理论值,也即上述的设备理
论状态和设备实测状态进行对比,得到目标控制偏差,其中,目标控制偏差可以为根据比对结果累积得到的控制偏差;在目标控制偏差超过预设阈值的情况下,说明该安全校正模型的准确度较低,难以保证安全性和控制的准确性,此时,可以对安全校正模型的模型参数进行更新。
74.本技术上述实施例中,将设备实测状态与设备理论状态进行比较,得到目标控制偏差,包括:将设备实测状态与设备理论状态进行比较,得到安全校正模型的当前控制偏差;获取安全校正模型的历史控制偏差;将历史控制偏差与当前控制偏差进行累加,得到目标控制偏差。
75.上述的历史控制偏差可以是上一次得到的设备实测状态与设备理论状态之间的控制偏差。上述的历史控制偏差还可以是历史预设时间段内得到的设备实测状态与设备理论状态之间的控制偏差。上述的历史控制偏差可以是一个或多个。此处对历史控制偏差的具体设定方式不做限定,可以根据实际场景需求确定所需要的历史控制偏差。
76.在一种可选的实施例中,可以将设备实测状态与设备理论状态进行比较,得到安全校正模型的当前控制偏差,并获取安全校正模型的历史控制偏差,可以将历史控制偏差与当前控制偏差进行累加,得到目标控制偏差。
77.本技术上述实施例中,在利用安全校正模型对初始控制指令进行校正,得到目标控制指令和设备理论状态之后,该方法还包括:输出目标控制指令;在接收到目标控制指令对应的偏差确认指令的情况下,对安全校正模型的模型参数进行更新,其中,偏差确认指令用于确定待控制设备的设备实测状态与所述安全校正模型输出的设备理论状态存在偏差。
78.在一种可选的实施例中,可以输出设备理论状态至用户的终端或显示屏,以便用户确认设备理论状态是否存在偏差,若用户认为存在偏差,则可以点击确定按钮或者通过其他方式确定,生成偏差确定指令,可以根据生成的偏差确定指令对安全校正模型的模型参数进行更新,以便提高安全校正模型的模型精确度。
79.本技术上述实施例中,对安全校正模型的模型参数进行更新包括:将状态信息存储至预设存储设备,其中,预设存储设备用于存储通过对真实环境进行测量所得到的历史状态;对预设存储设备中存储的数据进行抽样,生成安全校正模型对应的第一训练数据;基于第一训练数据对安全校正模型的模型参数进行更新。
80.上述的预设存储设备可以是电力系统中专门用于存储数据的设备,预设存储设备还可以是电力系统中各个待控制设备,其中,待控制设备用可以有专门用于存储数据的存储空间。
81.上述的预设存储设备还可以为数据存储器。
82.在一种可选的实施例中,可以在获取到待控制设备的状态信息之后,将状态信息存储值预设存储设备中,以便于后续使用该状态信息;可以对预设存储设备中存储的数据不断进行抽样,生成安全校正模型对应的第一训练数据,以便于根据该第一训练数据对安全校正模型的模型参数进行更新,可以高效的提高安全校正模型的模型精度。
83.在另一种可选的实施例中,可以在获取到最新的状态信息之后,利用最新的状态信息对预设存储设备中的数据进行更新;还可以周期性的根据获取到的状态信息对预设存储设备中的数据进行更新。
84.本技术上述实施例中,该方法还包括:基于待控制设备的安全运行限制条件,构建
初始校正模型;通过历史知识信息对初始校正模型进行训练,得到安全校正模型。
85.上述的安全运行限制条件可以为安全运行限制的约束条件。在电力系统中,安全运行限制条件可以为电力系统中安全运行限制的约束条件。
86.上述的历史知识信息可以为先验知识,其中,先验知识可以为输入学习速率、更新步长、电力系统及各可调设备模型参数,还可以为其他的先验知识,此处不一一列举。
87.在一种可选的实施例中,可以初始化强化学习算法中的各类神经网络,输入学习速率、更新步长、电力系统及各可调设备的初始校正模型;基于先验知识对各可调设备的初始校正模型进行训练,得到安全校正模型。
88.本技术上述实施例中,在利用安全校正模型对初始控制指令进行校正,得到目标控制指令之后,该方法还包括:将状态信息存储至预设存储设备;对预设存储设备中存储的数据进行抽样,生成强化学习模型对应的第二训练数据;基于第二训练数据对强化学习模型的模型参数进行更新。
89.上述的预设存储设备可以是电力系统中专门用于存储数据的设备,预设存储设备还可以是电力系统中各个待控制设备,其中,待控制设备用可以有专门用于存储数据的存储空间。
90.上述的预设存储设备还可以为数据存储器。
91.在一种可选的实施例中,可以在获取到待控制设备的状态信息之后,将状态信息存储值预设存储设备中,以便于后续使用该状态信息;可以对预设存储设备中存储的数据不断进行抽样,生成安全校正模型对应的第二训练数据,以便于根据该第二训练数据对强化学习模型的模型参数进行更新,可以高效的提高强化学习模型的模型精度。
92.在另一种可选的实施例中,在电力系统实时运行过程中,可以利用强化学习中的神经网络和安全校正模型,周期性地输出源-网-荷-储多类可调设备的实时调度指令。根据最新实测的电力系统中可调设备的状态信息更新数据存储器,从数据存储器中不断抽样产生训练集,利用强化学习算法对调度策略进行动态更新和参数优化,促进策略不断趋优,从而实现各可调设备相互配合和协调调度,最大化从电力系统环境中获得奖励。
93.本技术上述实施例中,该方法还包括:构建初始学习模型,其中,初始学习模型用于表征待控制设备的不同状态和不同控制指令之间的映射关系;基于目标控制指令的运行成本和线路潮流,生成初始学习模型的奖励函数;基于第三训练数据和奖励函数对初始学习模型进行训练,得到强化学习模型。
94.上述的线路潮流可以为机组出力情况、切除负荷以及转移负荷等。
95.上述的运行成本可以为待控制设备执行该目标控制指令时的运行成本,上述的线路潮流可以是待控制设备执行该目标控制指令时的线路潮流。
96.上述的奖励函数可以是根据最小化运行成本和消除潮流越限场景为目标设计的奖励函数。
97.上述待控制设备的不同状态可以为强化学习状态空间,其中,强化学习状态空间由电网状态(包括但不限于支路潮流、节点电压、线路状态等)和设备状态(包括但不限于发电机出力、储能能量状态、负荷需求等)组成。
98.上述待控制设备的不同控制指令可以为强化学习动作空间包括电力系统中源-网-荷-储多类可调设备的实时调度指令。
99.上述的初始学习模型用于表征的待控制设备的不同状态和不同控制指令之间的映射关系可以为调度策略。
100.在一种可选的实施例中,可以设计强化学习算法,也即,构建初始学习模型,以最小化运行成本和消除潮流越限场景生成目标设计奖励函数;利用初始学习模型对调度策略进行训练,得到强化学习模型。该强化学习模型可以根据从电力系统实时环境中采样得到的当前状态空间值,利用调度策略确定动作空间值,输出各可调设备调度指令参考值,并下发至下一环节。
101.传统电力系统调度模式难以在变化剧烈、模型参数不准确的电网环境中满足实时调度需求,为应对新能源剧烈变化带来的挑战,保障复杂电力系统在突发状况下的安全性和长期运行的经济性,本技术提出了了知识-数据驱融合的安全强化学习架构,采用强化学习与优化结合的方法,在复杂电网环境下实现对电力系统实时调度指令的快速决策,促进电力系统安全、经济运行。
102.图3是根据本技术实施例的一种设备控制过程的示意图,在强化学习算法的过程中,可以将电网状态和设备状态太输入到多层神经网络中,训练得到强化学习模型,也即得到调度策略,其中,调度策略可以得到源-网-荷-储多类可调设备的实时调度指令,可以将调度指令参考值输入到安全校正模型中,以便利用安全校正模型输出调度指令校正值,其中,安全校正模型的目标可以是将调度指令校正到安全域,安全校正模型的约束可以是电力系统安全运行限制,可以利用先验知识初始化安全校正模型,可以通过从数据存储器中进行样本采集对安全校正模型的模型参数进行更新,可以利用调度指令校正值对电力系统中的待控制设备进行控制;可以实时采集待控制设备在真实环境的环境状态和设备状态,并利用仿真器对环境状态和设备状态进行仿真,得到状态信息,可以将状态信息存储到数据存储器中,其中,数据存储器中的数据可以用于进行后续的训练,以便强化学习状态、动作和奖励值。
103.图4是根据本技术实施例的一种设备控制方法流程图,如图4所示,该方法包括:
104.步骤s401,输入学习速率、神经网络参数、电网以及可调设备模型参数;
105.可选的,可以初始化强化学习算法中的各类神经网络,输入学习速率、更新步长、电力系统及各可调设备模型参数;基于先验知识和模型参数,初始化电力系统安全校正模型。
106.步骤s402,基于先验知识初始化电力系统的安全校正模型;
107.步骤s403,更新深度强化学习算法中的神经网络参数;
108.上述的深度强化学习算法可以为强化学习模型。
109.步骤s404,利用深度强化学习产生调度指令参考值;
110.上述的调度指令参考值可以为初始控制指令。
111.可选的,可以设计强化学习算法,以最小化运行成本和消除潮流越限场景为目标设计奖励函数;强化学习动作空间包括电力系统中源-网-荷-储多类可调设备的实时调度指令;强化学习状态空间由电网状态和设备状态组成。利用强化学习算法对调度策略进行训练,根据从电力系统实时环境中采样得到的当前状态空间值,利用调度策略确定动作空间值,输出各可调设备调度指令参考值,并下发至下一环节。
112.步骤s405,基于安全校正模型修正调度指令;
113.上述的安全校正模型修正调度指令可以为目标控制指令。
114.可选的,强化学习输出的调度指令参考值往往无法严格保障电力系统安全,为保证电力系统实时调度指令满足电网安全运行要求,构建安全校正优化模型。安全校正优化模型为含约束的优化问题,以电力系统安全运行限制为约束条件,以设备实测状态和设备理论状态的偏差最小为优化目标。对安全校正优化模型进行求解,可获得能保证电力系统安全运行的目标控制指令,将目标控制指令下发至各可调设备执行和实施。
115.本技术中,可以利用电力系统的先验知识初始化安全校正模型,弥补了相关安全强化学习方案在训练初始阶段和缺乏经验的突发状况下安全保障能力差的缺陷;在先验知识的基础上,可以基于实测数据动态更新安全校正模型的模型参数,进一步提高模型精度,促进电力系统长期安全运行。
116.步骤s406,存储电网和设备状态,更新数据存储器;
117.上述的电网和设备状态可以为待控制设备的状态信息。
118.可选的,在电力系统实时运行过程中,可以利用强化学习中的神经网络和安全校正模型,周期性地输出源-网-荷-储多类可调设备的实时调度指令。根据最新实测的电力系统运行数据更新数据存储器,从数据存储器中不断抽样产生训练集,利用强化学习算法对调度策略进行动态更新和参数优化,促进策略不断趋优,从而实现各可调设备相互配合和协调调度,最大化从电力系统环境中获得奖励。
119.上述的数据存储器可以为预设存储设备。
120.步骤s407,判断安全校正模型的误差是否达到预设阈值?若是,则执行步骤s408,若否,则执行步骤s409;
121.可选的,可以将安全校正模型得到的电力系统潮流状态理论值和实际环境中的实测数据进行对比,若累积偏差超过预设阈值,则基于实测数据更新安全校正模型参数,提升模型精度。
122.步骤s408,基于最新状态信息更新安全校正模型的模型参数;
123.步骤s409,判断训练是否完成,若是,则执行步骤s410,若否,则执行步骤s403;
124.步骤s410,输出强化学习神经网络参数和安全校正模型参数。
125.本方案的关键技术创新点列举如下:
126.本技术具有强化学习与优化互补、知识-数据融合以及源-网-荷-储协调调度的创新点。
127.对于强化学习与优化互补可以利用强化学习的快速决策优势和优化方法的安全保障优势,利用强化学习在模型参数不准确的场景下实现快速决策,采用优化方法对强化学习的输出动作进行安全校正,保障调度指令快速计算和安全实施。
128.对于知识-数据融合,可以构建了基于知识-数据融合的安全校正方法,利用电力系统的先验知识初始化安全校正模型,弥补了相关安全强化学习方案在训练初始阶段和缺乏经验的突发状况下安全性差的缺陷;此外,在知识模型的基础上利用实测数据动态更新安全校正模型参数,进一步提升模型精度。
129.对于源-网-荷-储协调调度,可以构建的安全强化学习架构可实现源-网-荷-储多类资源的协调调度和相互配合,充分挖掘电力系统的灵活性和调节潜力。
130.与本方案相似的方案可以被划分为以下三类:考虑安全约束的优化方案、强化学
习方案、安全强化学习方案。对相似方案的具体内容及其缺点详细介绍如下:
131.1):考虑安全约束的优化方案,其中,解决电力系统实时调度问题的优化方法主要可以分为两类:(1)凸松弛方法,交流潮流方程可以通过凸松弛转化为易处理的凸模型,如线性模型和二阶锥模型形式,然后再基于凸优化方法进行求解;(2)利用非凸优化方法直接求解,如原-对偶内点法、梯度类算法和启发式算法等。
132.其主要缺点如下:(1)计算负担大。由于潮流方程的高度非线性和非凸性,基于优化的方案计算效率低、模型复杂度高。随着可再生能源和灵活性资源的日益增长,难以在变化剧烈、模型复杂的新型电力系统环境中满足实时调度需求;(2)过度依赖电力系统模型参数。近年来,电力系统中不确定性增长,数学模型不准确的可调资源日益增长(例如,低压配电网的网络参数和需求侧的模型参数),优化方案在模型参数不准确的电力系统中建模困难。
133.2):强化学习方案:将电力系统的实时调度指令作为强化学习的动作量,基于强化学习方法和海量历史运行数据,对调度方法进行训练。其主要缺点是无法保证训练过程和执行过程中电力系统调度指令的安全性,容易发生潮流安全约束越限、系统崩溃等现象。
134.3):安全强化学习方案:安全强化学习是一类考虑安全运行约束的强化学习方法,在电力系统实时调度中具有巨大应用潜力。相关安全强化学习方法整体上可以分为以下三类:(1)在奖励函数中添加违反安全约束对应的惩罚项或自适应惩罚函数;(2)使用约束策略优化或原-对偶方法在cmdp环境中学习控制策略;(3)通过新增额外的安全校正方法将强化学习动作投影到安全域中。其主要缺点如下:(1)相关安全强化学习方案主要将电力系统安全约束建模为软约束,这类方案难以保证电力系统的瞬时安全;(2)虽然通过新增额外的安全校正方法能将不安全的强化学习动作投影到安全可行域中,但相关安全校正模型的获得需依赖大量历史数据,在训练初始阶段和缺乏经验的突发状况下,这类方法应用效果不佳。
135.本方案提出了一种知识-数据融合的安全强化学习架构,用于解决复杂电力系统的实时调度问题,所提方案对模型精度依赖程度低、决策效率高、安全性保障性能强、适用范围广。相比相关方案,本方案能够达到的技术效果如下:
136.针对于上述相关技术的1),本技术可以减小对电力系统模型和参数的依赖程度:本技术采用知识-数据融合的安全强化学习架构,把调度指令作为强化学习的动作量,将电力系统运行环境作为强化学习的探索对象,根据电力系统实际反馈的状态来动态调整和更新调度策略。因此,通过与环境不断交互即可完成对本方案调度策略的训练和优化,相比相关产品和技术,极大地减小了对电力系统模型和参数的依赖程度。
137.针对于上述相关技术的2),本技术的执行效率高、决策速度快,本技术充分利用了强化学习的快速决策优势,相比考虑安全约束的优化方案不再依赖精确的电力系统模型,执行效率更高,决策速度更快。
138.针对与上述相关技术3),本技术的安全性保障能力强,本技术充分利用了优化方法的安全保障优势,相比强化学习方案能大幅提升电力系统实时运行安全性。此外,本技术利用电力系统的先验知识初始化安全校正模型,弥补了相关安全强化学习方法在训练初始阶段和缺乏经验的突发状况下安全保障能力差的缺陷;在先验知识的基础上,基于实测数据动态更新安全校正模型参数,能进一步提高模型精度,促进电力系统长期安全运行。
139.另外,本技术的适用范围广的优点,本技术可以促进源-网-荷-储多类资源协调互补,普适程度高、通用性强,很容易适配诸多种电力系统实时调度场景,例如,能源管理、电压调节、紧急控制等。具体来说:对于能量管理问题,可利用本技术对大型电力系统中的多类有功调节设备(例如,发电机组、新能源电站、储能设备、可调节负荷等)实现有功功率的实时调度,维持电网功率平衡,满足能量供给需求;对于电压调节问题,可利用本技术对电力系统中多类无功调节设备(例如,具有无功调节能力的发电机组、电力电子设备、电容器等)实现无功功率的实时调节,保证电网电压在安全水平;在紧急或突发状况下,可利用本技术对区域性电力系统的联络线路功率进行恢复和调节,实现断面恢复、功率追踪、紧急控制等功能。
140.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
141.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
142.实施例2
143.根据本技术实施例,还提供了一种设备控制方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
144.图5是根据本技术实施例2的一种设备控制方法的流程图,如图5所示,该方法可以包括如下步骤:
145.步骤s502,对电力设备所处的真实电网环境进行测量,得到电力设备的状态信息。
146.其中,状态信息包括:真实电网环境的电网状态、电力设备的设备状态。
147.步骤s504,将状态信息映射成电力设备的初始调度指令。
148.步骤s506,对初始调度指令进行校正,得到目标调度指令。
149.其中,目标控制指令处于电力设备的预设指令空间中,处于预设指令空间中的控制指令用于控制电力设备安全运行;
150.步骤s508,基于目标控制指令对电力设备进行控制。
151.本技术上述实施例中,对初始调度指令进行校正,得到目标调度指令,包括:利用安全校正模型对初始调度指令进行校正,得到目标调度指令。
152.本技术上述实施例中,安全校正模型还用于对初始调度指令进行校正,得到电力设备的设备理论状态,该方法还包括:获取真实电网环境中电力设备的设备实测状态;将设备实测状态与设备理论状态进行比较,得到目标控制偏差;在目标控制偏差超过预设阈值
的情况下,对安全校正模型的模型参数进行更新。
153.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
154.实施例3
155.根据本技术实施例,还提供了一种设备控制方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
156.图6是根据本技术实施例3的一种设备控制方法的流程图,如图6所示,该方法可以包括如下步骤:
157.步骤s602,云服务器接收客户端上传的待控制设备的状态信息。
158.其中,状态信息是对待控制设备所处的真实环境待控制设备进行测量得到的,状态信息包括:真实环境的环境状态、待控制设备的设备状态。
159.步骤s604,云服务器将状态信息映射成待控制设备的初始控制指令。
160.步骤s606,云服务器对初始控制指令进行校正,得到目标控制指令。
161.其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行。
162.步骤s608,云服务器发送目标控制指令至客户端。
163.其中,目标控制指令用于通过客户端对待控制设备进行控制。
164.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
165.实施例4
166.根据本技术实施例,还提供了一种用于实施上述设备控制方法的设备控制装置,图7是根据本技术实施例4的一种设备控制装置的示意图,如图7所示,该装置700包括:测量模块702、映射模块704、校正模块706、控制模块708。
167.其中,测量模块用于对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;映射模块用于将状态信息映射成待控制设备的初始控制指令;校正模块用于对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;控制模块用于基于目标控制指令对待控制设备进行控制。
168.此处需要说明的是,上述测量模块702、映射模块704、校正模块706、控制模块708对应于实施例1的步骤s202至步骤s208,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
169.本技术上述实施例中,校正模块包括:校正单元。
170.其中,校正单元用于利用安全校正模型对初始控制指令进行校正,得到目标控制指令。
171.本技术上述实施例中,该装置还包括:获取模块。
172.其中,获取模块用于获取真实环境中待控制设备的设备实测状态;比较模块用于
将设备实测状态与设备理论状态进行比较,得到目标控制偏差;更新模块用于在目标控制偏差超过预设阈值的情况下,对安全校正模型的模型参数进行更新。
173.本技术上述实施例中,比较模块包括:比较单元、获取单元、累加单元。
174.其中,比较单元用于将设备实测状态与设备理论状态进行比较,得到安全校正模型的当前控制偏差;获取单元用于获取安全校正模型的历史控制偏差;累加单元用于将历史控制偏差与当前控制偏差进行累加,得到目标控制偏差。
175.本技术上述实施例中,该装置还包括:输出模块、更新模块。
176.其中,输出模块用于输出目标控制指令;更新模块用于在接收到目标控制指令对应的偏差确认指令的情况下,对安全校正模型的模型参数进行更新,其中,偏差确认指令用于确定待控制设备的设备实测状态与安全校正模型输出的设备理论状态存在偏差。
177.本技术上述实施例中,更新模块包括:存储单元、生成单元、更新单元。
178.其中,存储单元用于将状态信息存储至预设存储设备,其中,预设存储设备用于存储通过对真实环境进行测量所得到的历史状态;生成单元用于对预设存储设备中存储的数据进行抽样,生成安全校正模型对应的第一训练数据;更新单元用于基于第一训练数据对安全校正模型的模型参数进行更新。
179.本技术上述实施例中,该装置还包括:构建模块、训练模块。
180.其中,构建模块用于基于待控制设备的安全运行限制条件,构建初始校正模型;训练模块用于通过历史知识信息对初始校正模型进行训练,得到安全校正模型。
181.本技术上述实施例中,该装置还包括:存储模块、抽样模块、更新模块。
182.其中,存储模块用于将状态信息存储至预设存储设备;抽样模块用于对预设存储设备中存储的数据进行抽样,生成强化学习模型对应的第二训练数据;基于第二训练数据对强化学习模型的模型参数进行更新;更新模块用于基于第一训练数据对安全校正模型的模型参数进行更新。
183.本技术上述实施例中,该装置还包括:生成模块。
184.其中,构建模块用于构建初始学习模型,其中,初始学习模型用于表征待控制设备的不同状态和不同控制指令之间的映射关系;生成模块用于基于目标控制指令的运行成本和线路潮流,生成初始学习模型的奖励函数;抽样模块用于基于第三训练数据和奖励函数对初始学习模型进行训练,得到强化学习模型。
185.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
186.实施例5
187.根据本技术实施例,还提供了一种用于实施上述设备控制方法的设备控制装置,图8是根据本技术实施例5的一种设备控制装置的示意图,如图8所示,该装置800包括:测量模块802、映射模块804、校正模块806、控制模块808。
188.其中,测量模块用于对电力设备所处的真实电网环境进行测量,得到电力设备的状态信息;映射模块用于将状态信息映射成电力设备的初始调度指令;校正模块用于对初始调度指令进行校正,得到目标调度指令,其中,目标调度指令处于电力设备的预设指令空间中,处于预设指令空间中的调度指令用于控制电力设备安全运行;控制模块用于基于目标调度指令对电力设备进行控制。
189.此处需要说明的是,上述测量模块802、映射模块804、校正模块806、控制模块808对应于实施例2的步骤s502至步骤s508,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
190.本技术上述实施例中,校正模块包括:校正单元。
191.其中,校正单元用于利用安全校正模型对初始调度指令进行校正,得到目标调度指令。
192.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
193.实施例6
194.根据本技术实施例,还提供了一种用于实施上述设备控制方法的设备控制装置,图9是根据本技术实施例6的一种设备控制装置的示意图,如图9所示,该装置900包括:接收模块902、映射模块904、校正模块906、发送模块908。
195.其中,接收模块用于通过云服务器接收客户端上传的待控制设备的状态信息;映射模块用于通过云服务器将状态信息映射成待控制设备的初始控制指令;校正模块用于通过云服务器对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;发送模块用于通过云服务器发送目标控制指令至客户端,其中,目标控制指令用于通过客户端对待控制设备进行控制。
196.此处需要说明的是,上述接收模块902、映射模块904、校正模块906、发送模块908对应于实施例3的步骤s602至步骤s608,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
197.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
198.实施例7
199.本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
200.可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
201.在本实施例中,上述计算机终端可以执行设备控制方法中以下步骤的程序代码:对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制。
202.可选地,图10是根据本发明实施例的一种计算机终端的结构框图。如图10所示,该计算机终端a可以包括:一个或多个(图中仅示出一个)处理器、存储器。
203.其中,存储器可用于存储软件程序以及模块,如本发明实施例中的设备控制方法
和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的设备控制方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
204.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制。
205.可选的,上述处理器还可以执行如下步骤的程序代码:利用安全校正模型对初始控制指令进行校正,得到目标控制指令。
206.可选的,上述处理器还可以执行如下步骤的程序代码:获取真实环境中待控制设备的设备实测状态;将设备实测状态与设备理论状态进行比较,得到目标控制偏差;在目标控制偏差超过预设阈值的情况下,对安全校正模型的模型参数进行更新。
207.可选的,上述处理器还可以执行如下步骤的程序代码:将设备实测状态与设备理论状态进行比较,得到安全校正模型的当前控制偏差;获取安全校正模型的历史控制偏差;将历史控制偏差与当前控制偏差进行累加,得到目标控制偏差。
208.可选的,上述处理器还可以执行如下步骤的程序代码:输出目标控制指令;在接收到目标控制指令对应的偏差确认指令的情况下,对安全校正模型的模型参数进行更新,其中,偏差确认指令用于确定待控制设备的设备实测状态与安全校正模型输出的设备理论状态存在偏差。
209.可选的,上述处理器还可以执行如下步骤的程序代码:将状态信息存储至预设存储设备,其中,预设存储设备用于存储通过对真实环境进行测量所得到的历史状态;对预设存储设备中存储的数据进行抽样,生成安全校正模型对应的第一训练数据;基于第一训练数据对安全校正模型的模型参数进行更新。
210.可选的,上述处理器还可以执行如下步骤的程序代码:基于待控制设备的安全运行限制条件,构建初始校正模型;通过历史知识信息对初始校正模型进行训练,得到安全校正模型。
211.可选的,上述处理器还可以执行如下步骤的程序代码:利用强化学习模型将状态信息映射成待控制设备的初始控制指令,其中,强化学习模型用于表征不同状态信息与不同控制指令之间的映射关系。
212.可选的,上述处理器还可以执行如下步骤的程序代码:将状态信息存储至预设存储设备;对预设存储设备中存储的数据进行抽样,生成强化学习模型对应的第二训练数据;基于第二训练数据对强化学习模型的模型参数进行更新。
213.可选的,上述处理器还可以执行如下步骤的程序代码:构建初始学习模型,其中,初始学习模型用于表征待控制设备的不同状态和不同控制指令之间的映射关系;基于目标控制指令的运行成本和线路潮流,生成初始学习模型的奖励函数;基于第三训练数据和奖
励函数对初始学习模型进行训练,得到强化学习模型。
214.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:对电力设备所处的真实电网环境进行测量,得到电力设备的状态信息;将状态信息映射成电力设备的初始调度指令;对初始调度指令进行校正,得到目标调度指令,其中,目标调度指令处于电力设备的预设指令空间中,处于预设指令空间中的调度指令用于控制电力设备安全运行;基于目标调度指令对电力设备进行控制。
215.可选的,上述处理器还可以执行如下步骤的程序代码:利用安全校正模型对初始调度指令进行校正,得到目标调度指令。
216.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:云服务器接收客户端上传的待控制设备的状态信息,其中,状态信息是对待控制设备所处的真实环境待控制设备进行测量得到的;云服务器将状态信息映射成待控制设备的初始控制指令;云服务器对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;云服务器发送目标控制指令至客户端,其中,目标控制指令用于通过客户端对待控制设备进行控制。
217.采用本发明实施例,可以对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制,实现了保证待控制设备安全运行的目的。容易注意到的是,可以对待控制设备所处的真实环境进行测量,得到控制设备的状态信息,由于该状态信息中包含了真实环境的因素,因此,可以达到根据真实场景进行实时调度的效果,并且利用安全校正模型对初始控制指令进行校正,得到目标控制指令,可以进一步加强待控制设备运行的安全性,进而解决了相关技术中的调度系统难以满足实时调度的技术问题。
218.本领域普通技术人员可以理解,图10示的结构仅为示意,计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
219.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
220.实施例8
221.本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的设备控制方法所执行的程序代码。
222.可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端中的任意一个计算机终端中,或者位于移动终端中的任意一个移动终端中。
223.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对
待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制。
224.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用安全校正模型对初始控制指令进行校正,得到目标控制指令。
225.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取真实环境中待控制设备的设备实测状态;将设备实测状态与设备理论状态进行比较,得到目标控制偏差;在目标控制偏差超过预设阈值的情况下,对安全校正模型的模型参数进行更新。
226.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将设备实测状态与设备理论状态进行比较,得到安全校正模型的当前控制偏差;获取安全校正模型的历史控制偏差;将历史控制偏差与当前控制偏差进行累加,得到目标控制偏差。
227.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:输出目标控制指令;在接收到目标控制指令对应的偏差确认指令的情况下,对安全校正模型的模型参数进行更新,其中,偏差确认指令用于确定待控制设备的设备实测状态与安全校正模型输出的设备理论状态存在偏差。
228.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将状态信息存储至预设存储设备,其中,预设存储设备用于存储通过对真实环境进行测量所得到的历史状态;对预设存储设备中存储的数据进行抽样,生成安全校正模型对应的第一训练数据;基于第一训练数据对安全校正模型的模型参数进行更新。
229.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于待控制设备的安全运行限制条件,构建初始校正模型;通过历史知识信息对初始校正模型进行训练,得到安全校正模型。
230.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用强化学习模型将状态信息映射成待控制设备的初始控制指令,其中,强化学习模型用于表征不同状态信息与不同控制指令之间的映射关系。
231.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将状态信息存储至预设存储设备;对预设存储设备中存储的数据进行抽样,生成强化学习模型对应的第二训练数据;基于第二训练数据对强化学习模型的模型参数进行更新。
232.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:构建初始学习模型,其中,初始学习模型用于表征待控制设备的不同状态和不同控制指令之间的映射关系;基于目标控制指令的运行成本和线路潮流,生成初始学习模型的奖励函数;基于第三训练数据和奖励函数对初始学习模型进行训练,得到强化学习模型。
233.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对电力设备所处的真实电网环境进行测量,得到电力设备的状态信息;将状态信息映射成电力设备的初始调度指令;对初始调度指令进行校正,得到目标调度指令,其中,目标调度指令处于电力设备的预设指令空间中,处于预设指令空间中的调度指令用于控制电力设备安全运行;基于目标调度指令对电力设备进行控制。
234.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用安全
校正模型对初始调度指令进行校正,得到目标调度指令和设备理论状态。
235.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:云服务器接收客户端上传的待控制设备的状态信息,其中,状态信息是对待控制设备所处的真实环境待控制设备进行测量得到的;云服务器将状态信息映射成待控制设备的初始控制指令;云服务器对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;云服务器发送目标控制指令至客户端,其中,目标控制指令用于通过客户端对待控制设备进行控制。
236.采用本发明实施例,可以对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制,实现了保证待控制设备安全运行的目的。容易注意到的是,可以对待控制设备所处的真实环境进行测量,得到控制设备的状态信息,由于该状态信息中包含了真实环境的因素,因此,可以达到根据真实场景进行实时调度的效果,并且利用安全校正模型对初始控制指令进行校正,得到目标控制指令,可以进一步加强待控制设备运行的安全性,进而解决了相关技术中的调度系统难以满足实时调度的技术问题。
237.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
238.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
239.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
240.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
241.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
242.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存
储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
243.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种设备控制方法,其特征在于,包括:对待控制设备所处的真实环境进行测量,得到所述待控制设备的状态信息;将所述状态信息映射成所述待控制设备的初始控制指令;对所述初始控制指令进行校正,得到目标控制指令,其中,所述目标控制指令处于所述待控制设备的预设指令空间中,处于所述预设指令空间中的控制指令用于控制所述待控制设备安全运行;基于所述目标控制指令对所述待控制设备进行控制。2.根据权利要求1所述的方法,其特征在于,对所述初始控制指令进行校正,得到目标控制指令,包括:利用安全校正模型对所述初始控制指令进行校正,得到所述目标控制指令。3.根据权利要求2所述的方法,其特征在于,所述安全校正模型还用于对所述初始控制指令进行校正,得到所述待控制设备的设备理论状态,所述方法还包括:获取所述真实环境中所述待控制设备的设备实测状态;将所述设备实测状态与所述设备理论状态进行比较,得到目标控制偏差;在目标控制偏差超过预设阈值的情况下,对所述安全校正模型的模型参数进行更新。4.根据权利要求3所述的方法,其特征在于,将所述设备实测状态与设备理论状态进行比较,得到目标控制偏差,包括:将所述设备实测状态与所述设备理论状态进行比较,得到所述安全校正模型的当前控制偏差;获取所述安全校正模型的历史控制偏差;将所述历史控制偏差与所述当前控制偏差进行累加,得到所述目标控制偏差。5.根据权利要求3所述的方法,其特征在于,在利用安全校正模型对所述初始控制指令进行校正,得到所述目标控制指令之后,所述方法还包括:输出所述目标控制指令;在接收到所述目标控制指令对应的偏差确认指令的情况下,对所述安全校正模型的模型参数进行更新,其中,所述偏差确认指令用于确定所述待控制设备的设备实测状态与所述安全校正模型输出的设备理论状态存在偏差。6.根据权利要求2至5中任意一项所述的方法,其特征在于,对所述安全校正模型的模型参数进行更新包括:将所述状态信息存储至预设存储设备,其中,所述预设存储设备用于存储通过对所述真实环境进行测量所得到的历史状态;对所述预设存储设备中存储的数据进行抽样,生成所述安全校正模型对应的第一训练数据;基于所述第一训练数据对所述安全校正模型的模型参数进行更新。7.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述待控制设备的安全运行限制条件,构建初始校正模型;通过历史知识信息对所述初始校正模型进行训练,得到所述安全校正模型。8.根据权利要求2所述的方法,其特征在于,将所述状态信息映射成所述待控制设备的初始控制指令,包括:
利用强化学习模型将所述状态信息映射成所述待控制设备的初始控制指令,其中,所述强化学习模型用于表征不同状态信息与不同控制指令之间的映射关系。9.根据权利要求8所述的方法,其特征在于,在利用安全校正模型对所述初始控制指令进行校正,得到目标控制指令之后,所述方法还包括:将所述状态信息存储至预设存储设备;对所述预设存储设备中存储的数据进行抽样,生成所述强化学习模型对应的第二训练数据;基于所述第二训练数据对所述强化学习模型的模型参数进行更新。10.根据权利要求8所述的方法,其特征在于,所述方法还包括:构建初始学习模型,其中,所述初始学习模型用于表征所述待控制设备的不同状态和不同控制指令之间的映射关系;基于所述目标控制指令的运行成本和线路潮流,生成所述初始学习模型的奖励函数;基于第三训练数据和所述奖励函数对所述初始学习模型进行训练,得到所述强化学习模型。11.一种设备控制方法,其特征在于,包括:对电力设备所处的真实电网环境进行测量,得到所述电力设备的状态信息;将所述状态信息映射成所述电力设备的初始调度指令;对所述初始调度指令进行校正,得到目标调度指令,其中,所述目标调度指令处于所述电力设备的预设指令空间中,处于所述预设指令空间中的调度指令用于控制所述电力设备安全运行;基于所述目标调度指令对所述电力设备进行控制。12.根据权利要求11所述的方法,其特征在于,对所述初始调度指令进行校正,得到目标调度指令,包括:利用安全校正模型对所述初始调度指令进行校正,得到所述目标调度指令和设备理论状态。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的设备控制方法。14.一种计算机终端,其特征在于,包括:存储器,用于存储程序;处理器,与所述存储器连接,用于运行所述程序,其中,所述程序运行时执行权利要求1至12中任意一项所述的设备控制方法。

技术总结


本发明公开了一种设备控制方法、计算机可读存储介质以及计算机终端。其中,该方法包括:对待控制设备所处的真实环境进行测量,得到待控制设备的状态信息;将状态信息映射成待控制设备的初始控制指令;对初始控制指令进行校正,得到目标控制指令,其中,目标控制指令处于待控制设备的预设指令空间中,处于预设指令空间中的控制指令用于控制待控制设备安全运行;基于目标控制指令对待控制设备进行控制。本发明解决了相关技术中的调度系统难以满足实时调度的技术问题。调度的技术问题。调度的技术问题。


技术研发人员:

仪忠凯 王雪 杨程 印卧涛 杨超 钮孟洋 韩佳澦

受保护的技术使用者:

阿里巴巴达摩院(杭州)科技有限公司

技术研发日:

2022.09.28

技术公布日:

2022/12/30

本文发布于:2024-09-20 19:50:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/65963.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:指令   模型   状态   控制设备
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议