设备监测数据的处理方法、装置、计算机设备和程序产品与流程

1.本技术涉及变电站设备数据清洗技术领域，特别是涉及一种设备监测数据的处理方法、装置、计算机设备和计算机程序产品。

背景技术：

2.变电站设备状态信息采集到应用过程中因为传感器异常、传输设备异常、外部环境干扰等原因，会导致数据出现跳变、缺失、超值等数值不合理问题。状态量原始的数据质量往往不能满足后续状态评价和故障诊断模型的要求，因此，在状态评估或诊断分析之前进行数据清洗是必不可少的。数据清洗主要通过平滑噪声数据和识别离点来提高数据质量，从而有助于提高数据挖掘过程的准确率和效率。
3.目前，采用的阈值检测方法将设备异常数据统一检测为无用的噪声数据，并剔除或是替换噪声数据，无法对噪声数据的类型进行判断，实际上设备状态异常数据反映了设备异常运行工况，对分析决策有着重要帮助。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够区分异常数据类型的设备监测数据的处理方法、装置、计算机设备和程序产品。
5.第一方面，本技术提供了一种设备监测数据的处理方法。所述方法包括：
6.获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据；
7.根据实际状态数据序列预测理论状态序列；
8.根据理论状态序列确定异常数据判决条件；
9.若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点；
10.若存在连续预设数量的异常点，则判定异常点为设备状态异常导致的异常点。
11.在其中一个实施例中，根据实际状态数据序列预测理论状态序列，包括：
12.将实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列。
13.在其中一个实施例中，将实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列，包括：
14.将实际状态数据序列中每一时刻的实际状态数据进行位置编码，并输入至预先训练好的informer模型的编码器中，得到隐含观测量；
15.根据实际状态数据序列得到初始化序列，对初始化序列进行位置编码；
16.将位置编码后的初始化序列、隐含观测量输入至预先训练好的informer模型的解码器中，得到理论状态序列。
17.在其中一个实施例中，所述方法还包括：
18.获取训练样本，训练样本包括各时刻的实际状态数据；
19.将训练样本输入至informer模型中，获得每一时刻对应的理论状态序列；
20.根据每一时刻的实际状态数据与对应的理论状态序列的误差测定值，调整informer模型的参数，完成一次训练；
21.迭代多次训练过程，当误差测定值满足目标值时，停止训练得到已训练好的informer模型。
22.在其中一个实施例中，根据理论状态序列确定异常数据判决条件，包括：
23.在理论状态序列中选取以目标测试时刻为中心、预设长度的滑动窗口；
24.计算滑动窗口内各时间点的理论状态数据的均值和标准差；
25.基于目标时刻的实际状态数据、均值和标准差，设置异常数据判决条件。
26.在其中一个实施例中，若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点，包括：
27.若实际状态数据序列的实际状态数据与均值之间差值的绝对值大于预设值和标准差的乘积，则确定实际状态数据为异常点。
28.在其中一个实施例中，所述方法还包括：
29.若异常点为孤立异常点，则用孤立异常点对应的理论状态数据替换孤立异常点的实际状态数据。
30.第二方面，本技术还提供了一种设备监测数据的处理装置，所述装置包括：
31.获取模块，用于获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据；
32.预测模块，用于根据实际状态数据序列预测理论状态序列；
33.判决条件确定模块，用于根据理论状态序列确定异常数据判决条件；
34.异常点判决模块，用于在实际状态数据序列中的实际状态数据不符合异常数据判决条件使，确定实际状态数据序列中的异常点；
35.异常点类型判决模块，用于在存在连续预设数量的异常点时，判定异常点为设备状态异常导致的异常点。
36.第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
37.获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据；
38.根据实际状态数据序列预测理论状态序列；
39.根据理论状态序列确定异常数据判决条件；
40.若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点；
41.若存在连续预设数量的异常点，则判定异常点为设备状态异常导致的异常点。
42.第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
43.获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据；
44.根据实际状态数据序列预测理论状态序列；
45.根据理论状态序列确定异常数据判决条件；
46.若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点；
47.若存在连续预设数量的异常点，则判定异常点为设备状态异常导致的异常点。
48.第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
49.获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据；
50.根据实际状态数据序列预测理论状态序列；
51.根据理论状态序列确定异常数据判决条件；
52.若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点；
53.若存在连续预设数量的异常点，则判定异常点为设备状态异常导致的异常点。
54.上述设备监测数据的处理方法、装置、计算机设备和程序产品，通过异常点在实际状态数据序列的时间刻度上存在连续预设个状态数据被判别为异常点，判定变电站设备发生了设备状态异常，本发明在检测实际状态数据序列中异常点的同时，还可以区分异常点是噪声数据还是设备状态异常数据；相比于传统的直接删除噪声数据的做法，本发明方法不仅保证了清洗后的时序数据的完整性，而且能够识别出设备异常状况，避免了有用信息的丢失，从而达到提升数据质量、获取设备异常状态的目的。
附图说明
55.图1为一个实施例中设备监测数据的处理方法的应用环境图；
56.图2为一个实施例中设备监测数据的处理方法的流程示意图；
57.图3为一个实施例中informe模型的处理数据的流程示意图；
58.图4为另一个实施例中informer模型的结构示意图；
59.图5为一个实施例中异常数据判决条件的设置方法流程示意图；
60.图6为一个实施例中informer模型的训练流程示意图；
61.图7为一个实施例中informer模型的预测结果可视化图；
62.图8为一个实施例中异常检测的样本的示意图；
63.图9为一个实施例中informer模型对样本的判断结果示意图；
64.图10为一个实施例中最详细流程示意图；
65.图11为一个实施例中装置的结构框图；
66.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
67.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
68.本技术实施例提供的设备监测数据的处理方法，可以应用于如图1所示的应用环境中。其中，终端102用于获取变电站设备的待检测的实际状态数据序列，并将变电站设备的待检测的实际状态数据序列传输给服务器104；终端102基于变电站设备的待检测的实际状态数据序列预测理论状态序列；其中，理论状态序列包括各时刻的实际状态数据对应的理论状态数据；终端102基于理论状态序列确定异常数据判决条件，将实际状态数据序列中的实际状态数据不符合异常数据判决条件的实际状态数据确定为实际状态数据序列中的异常点；在存在连续预设数量的异常点时，终端102判定异常点为设备状态异常导致的异常点。服务器104接收终端102发送的变电站设备的待检测的实际状态数据序列。数据存储系统可以存储变电站设备的待检测的实际状态数据序列。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集来实现。
69.在一个实施例中，如图2所示，提供了一种设备监测数据的处理方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：
70.步骤202，获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据。
71.其中，实际状态数据序列是指变电站的状态传感器按照时间先后顺序采集并排列而成的数列。实际状态数据由变电站的状态传感器采集得到。
72.具体地，通过变电站的状态传感器采集各时刻的实际状态数据，并按照时间先后顺序排列形成实际状态数据序列，将实际状态数据序列传输给终端102。
73.步骤204，根据实际状态数据序列预测理论状态序列。
74.其中，理论状态序列包括各时刻的理论状态数据。理论状态序列可以采用预测模型或其他方法获得。
75.步骤206，根据理论状态序列确定异常数据判决条件。
76.其中，变电站的实际状态数据不服从正态分布，但异常值可以用远离平均值的多少倍标准差来描述。根据异常数据判决条件判决的异常点只与理论状态序列的分布相关，从而不会受到其他异常监测数据的影响。
77.步骤208，若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点。
78.具体地，若实际状态数据序列中的实际状态数据符合异常数据判决条件，则确定实际状态数据序列中的实际状态数据为正常数据，直接存入正常数据集库。若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点。
79.步骤210，若存在连续预设数量的异常点，则判定异常点为设备状态异常导致的异常点。
80.其中，若待测试的目标测试时刻对应的实际状态数据被判决为异常点，为进一步判决该异常点的类型，本实施例根据在实际状态数据序列的时间刻度上是否存在连续预设数量的实际状态数据被判决为异常点，确定该异常点为设备状态异常导致的异常点，该异
常点为设备异常点。
81.具体地，若待测试的目标测试时刻对应的实际状态数据被判决为异常点，且在实际状态数据序列的时间刻度上存在连续预设数量的实际状态数据被判决为异常点，则判定异常点为设备状态异常导致的异常点，在该实际状态数据序列的时间范围内发生了设备状态异常，记录异常点对应的时间。
82.上述设备监测数据的处理方法中，通过异常点在实际状态数据序列的时间刻度上存在连续预设个状态数据被判别为异常点，判定变电站设备发生了设备状态异常，本实施例在检测实际状态数据序列中异常点的同时，还可以区分异常点是噪声数据还是设备状态异常数据；相比于传统的直接删除噪声数据的做法，本实施例的方法不仅保证了清洗后的时序数据的完整性，而且能够识别出设备异常状况，避免了有用信息的丢失，从而达到提升数据质量、获取设备异常状态和实现突发性故障信息有效获取的目的。
83.在一个实施例中，若不存在连续预设数量的异常点，则判定异常点为噪声数据导致的异常点。由于噪声数据导致的异常点影响变电站的分析决策。因此，为解决上述为问题，本实施例中，若不存在连续预设数量的异常点，则判定异常点为孤立异常点，用孤立异常点对应的理论状态数据替换孤立异常点的实际状态数据。
84.本实施例中，可以判决异常数据是否是噪声数据导致的孤立异常点，用孤立异常点对应的理论状态数据替换孤立异常点的实际状态数据，实现对噪声数据的修正，以此降低噪声数据对分析决策的影响。
85.在一个实施例中，电力设备数据监控与修正领域中，可以利用大量有关过去行为的时间序列数据来进行长期预测，即长时间序列预测(long sequence time-series forecasting,lstf)。目前，现有的时间预测方法都意图从时间复杂度方面提高自主力效率。因此，为解决上述问题，本实施例采用已经训练好的informer模型预测理论状态序列。
86.具体地，将实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列。
87.其中，将实际状态数据序列标准化后的测试集输入至informer模型中，理论状态序列的数据长度与实际状态数据序列的数据长度相等。
88.在一个实施例中，采用informer模型预测理论状态序列的方法，如图3所示，将实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列，包括：
89.步骤302，将实际状态数据序列中每一时刻的实际状态数据进行位置编码，并输入至预先训练好的informer模型的编码器中，得到隐含观测量。
90.其中，informer模型的结构如图4所示，分别为位置编码、编码器和解码器。其中稀疏性自注意力层主要用于特征提取，全连接层提供非线性变换，而残差连接和归一化层可以防止网络发生梯度爆炸。
91.其中，稀疏性自注意力机制通过计算输入序列中样本点之间的相似度来表征其关联程度，这种相互关系体现了不同样本点的重要程度，并以此来调整每个样本点的权重，筛选出少量重要信息，使得模型聚焦于更为重要的信息上，最终将其映射为包含输入信息的中间向量。稀疏性自注意力机制通过这种将单独序列的不同位置联系起来计算编码的方法，减少了对外部信息的依赖，更擅长捕获数据中长距离依赖特征，同时运用稀疏性评价，
降低运算的空间和时间复杂度。
92.单一的稀疏性自注意力机制只能聚焦到一个表现空间中重要信息，为了使模型能够同时关注到来自不同位置与不同子空间的信息，informer模型采用多头稀疏性注意力机制综合输入序列包含的信息的重要性，实际上就是将每个头得到的信息进行拼接，将拼接后得到的矩阵线性变换为一个新的向量，即为最终的注意力值。
93.实际状态数据序列输入informer模型之前，需要采用z-score标准化算法进行归一化处理。设数据集为则标准化后的值为：
[0094][0095]
式中：l
x
为数据集的长度；为实数集；为标准化后的数据，μ和σ分别为数据集的均值和标准差。经过处理的数据符合标准正态分布，即均值为0，标准差为1，可避免放大某些数量级较大的值的影响，从而使预测结果更加准确。
[0096]
由于稀疏性自注意力机制可以到各个特征之间的联系，但是无法感知到其相互位置关系。因此，在编码器与解码器的输入序列中添加额外的位置编码信息以区分不同位置，这个过程对应图4中的位置编码，偶数位置进行正弦编码如公式(2)所示，奇数位置进行余弦编码如公式(3)所示：
[0097][0098][0099]
式中：p表示输入编码的位置，d
model
表示输入向量的维度，i表示该向量中的第i维。
[0100]
在位置编码后，实际状态数据序列x
t
已变换为矩阵具体操作就是标准化输入序列+位置信息+时间信息(数据里带的)，三合一表示为
[0101]
编码器负责将输入的变电站设备状态序列进行编码，学习输入序列的内部特征，其核心原理为稀疏性自注意力机制。稀疏性自注意力机制通过将单独序列的不同位置联系起来计算编码的方法，减少了对外部信息的依赖，更擅长捕获数据中长距离依赖特征，同时运用稀疏性评价，降低运算的空间和时间复杂度，具体实现步骤包括步骤1～步骤步骤5：
[0102]
步骤1，矩阵与权重矩阵相乘，得到q查询矩阵、k键矩阵、v值矩阵。q查询矩阵的第i行元素为一个查询向量qi，获取每个查询向量qi随机采样部分的键向量；
[0103]
步骤2，计算每个查询向量的稀疏性评价：
[0104][0105]
式中，为稀疏性评价；d为q查询矩阵、k键矩阵、v值矩阵的维数，qi代表q查询矩阵中的第i行；kj代表k键矩阵的第j行；lk表示k键矩阵的行数。
[0106]
步骤3，选择稀疏性评价最高的u个查询向量，u的默认值设为5*lnl；l表示查询矩阵的数量；
[0107]
步骤4，只计算u个查询向量和所有键向量的点积结果，从而得到自注意力的结果，自注意力值计算公式如公式(5)所示：
[0108][0109]
其中，softmax(
·
)为归一化指数函数；是与qi维度大小相同的稀疏矩阵，并且仅包含最大均值稀疏度评价的前u个查询向量。
[0110]
步骤5，在输入数据长度为l的情况下，其余的l-u个查询向量不计算，直接将自注意力层的输入值矩阵取均值作为输出，从而保证每一个稀疏性自注意力层的输入和输出序列长度都是l。
[0111]
单一的稀疏性自注意力机制只能聚焦到一个表现空间中重要信息，为了使模型能够同时关注到来自不同位置与不同子空间的信息，informer采用多头稀疏性注意力机制综合输入序列包含的信息的重要性，如公式(6-7)所示。
[0112]
multihead(q,k,v)＝concat(head1,...,headm)
·
woꢀꢀꢀ
(6)；
[0113][0114]
式中：为第i个注意力头q、k、v的权重矩阵，wo为多头注意力权重矩阵，m是注意力头的数量，dmodel＝d*m，表示输入向量的维度，concat(
·
)函数用于拼接各个注意力头计算得到的输出值。
[0115]
为了解决网络深度增加反而影响数据预测准确率的问题以及加快网络收敛、提升网络泛化能力，本实施例中，如图4所示，在编码器与解码器的各个子层之间均添加了残差连接操作和层归一化操作，如公式(8)所示：
[0116]
o＝layernorm(x+sublayer(x))
ꢀꢀ
(8)；
[0117]
式中：o表示输出；sublayer(
·
)包括多头稀疏性注意力机制和前馈神经网络。layernorm(
·
)为层归一化处理函数。
[0118]
如图4所示，编码器为n层编码器，上一层编码器的输出作为下一层编码器的输入。作为稀疏性自注意力机制的自然结果，编码器的特征映射会造成值矩阵的冗余组合。因此，采用蒸馏操作将主导的优势特征特权化，并在下一层生成重点突出的自注意力特征映射，大幅缩减了输入矩阵的维度，从而允许更长的序列输入。本实施例采用蒸馏操作是因为编码器的特征映射会造成值矩阵的冗余组合。因此，采用蒸馏操作将主导的优势特征特权化，并在下一层生成重点突出的自注意力特征映射，大幅缩减了输入矩阵的维度，从而允许更长的序列输入。
[0119]
其中，从第j层到第j+1层的蒸馏过程如下：
[0120][0121]
其中[
·
]
ab
包含多头稀疏性自注意力和注意力块的基本操作，conv1d(
·
)表示时间序列上的一维卷积操作，并将elu(
·
)作为激活函数，最后再进行一个最大步长为2的最大池化maxpool(
·
)操作，从而在堆叠一层后将x
t
缩减到其长度的一半，这将整个内存使用
量减少为o((2-∈)llogl)，其中∈为一个很小的数。
[0122]
此外，为了增强鲁棒性，蒸馏操作构建了多个主序列副本，每个副本是前一个副本长度的一半，并通过一次丢弃一层的方式来逐渐减少自注意力蒸馏层的数量，以使它们的输出尺寸对齐为l/4。最后将所有堆栈的输出连接起来，得到最终编码器的隐含观测量。
[0123]
步骤304，根据实际状态数据序列得到初始化序列，对初始化序列进行位置编码。
[0124]
其中，informer使用如图4所示的标准解码器架构，它由2个多头注意力层的堆叠组成。在长时间预测中，编码器采用了生成推理来缓解输出速度骤降的问题。解码器输入采用如下向量形式：
[0125][0126]
其中是待预测时段前l
token
长度的已知序列，concat(
·
)为拼接函数。是待预测序列的占位符(将标量设置为0)但包含目标序列的时间戳。通过将被屏蔽的点积设置为-∞，从而在稀疏性自注意力计算中屏蔽未来的数据信息，避免了自回归问题。
[0127]
步骤306，将位置编码后的初始化序列、隐含观测量输入至预先训练好的informer模型的解码器中，得到理论状态序列。
[0128]
其中，解码器负责将编码器输出的隐含观测量解码为输出序列，其核心原理为编码-解码多头稀疏性注意力机制以及遮挡的多头稀疏性自注意力机制。
[0129]
编码器将学习和编码的信息通过编码器-解码器注意力层发送给解码器，为解码器提供输入数据与预测数据之间的依赖关系，从而提高数据预测的精准度。编码-解码多头稀疏性注意力机制与编码器的多头稀疏性自注意力机制不同，其键矩阵k与值矩阵v来自编码器的输出，包含输入序列的信息，查询矩阵q来自遮挡多头稀疏性自注意力机制模块的输出，包含预测数据的信息。最后，通过一个全连接层获取最终输出，其输出维度取决于模型执行的是单变量预测还是多变量预测。
[0130]
为了在解码过程中按时间顺序对输出进行预测，解码器引入了遮挡多头稀疏性自注意力机制模块。这个模块的目的是只对网络显示当前时刻和之前时刻产生的数据，而对此时刻后边的数据进行掩码操作，保证参数更新时不会受到此时刻后的数据的影响。值得注意的是，在模型训练过程中，预测数据是已知的，解码器根据并行计算特性同时完成序列每个时间步解码。但在解码器测试阶段当前时刻的输出是不应该受之后数据产生影响，因此在计算缩放点积注意力时，将被屏蔽的点积设置为-∞，从而达到了隐藏后续节点的要求，避免了自回归问题。最后，通过一个全连接层获取最终输出，其输出维度dy取决于模型执行的是单变量预测还是多变量预测。
[0131]
在“动态解码”中，将单个字符作为“开始字符”这里拓展为一种生成方式，即将待预测时段前l
token
长度的已知序列作为解码器通过这样一种前向过程预测长序列的所有输出，从而摆脱了琐碎的编码器-解码器体系结构中耗时的“动态解码”方法。经过解码器后，每个预测位都有一个向量，然后输入到全连接层一步得到预测结果，解决了transformer的预测长期输出的效率问题。
[0132]
本实施例中，informer模型不仅通过稀疏性自注意力机制将时间复杂度和内存使
用率降低到了o(llogl)，而且利用自注意力蒸馏操作突出注意力，提出了生成式解码器避免了累积误差的传播。
[0133]
在一个实施例中，如图5所示，根据理论状态序列确定异常数据判决条件，包括：
[0134]
步骤502，在理论状态序列中选取以目标测试时刻为中心、预设长度的滑动窗口。
[0135]
其中，目标测试时刻为将实际状态数据序列中待测试的时刻。滑动窗口的长度可以小于理论状态序列的数据长度，也可以大于理论状态序列的数据长度。例如，目标测试时刻为t1时刻，预设长度为48，则在理论状态序列中选取t1时刻前后各48长度的滑动窗口。
[0136]
具体地，选取实际状态数据序列中的某一时刻为目标测试时刻，取目标测试时刻对应的理论状态数据，以该理论状态数据为中心，前后各预设长度的滑动窗口。
[0137]
步骤504，计算滑动窗口内各时间点的理论状态数据的均值和标准差。
[0138]
其中，变电站设备数据不服从正态分布，但异常值可以用远离平均值的多少倍标准差来描述。因此，可通过理论状态数据的均值和标准差反映理论状态数据的分布，通理论状态数据的分布判断实际状态数据是否符合理论状态数据的分布来检测实际状态数据是否异常。
[0139]
具体地，获取滑动窗口内各时间点的理论状态数据，基于均值和标准差的公式分别计算滑动窗口内各时间点的理论状态数据的均值和标准差。
[0140]
步骤506，基于目标时刻的实际状态数据、均值和标准差，设置异常数据判决条件。
[0141]
其中，若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点。异常数据判决条件可以设置为若实际状态数据序列的实际状态数据与均值之间差值的绝对值大于预设值和标准差的乘积，则确定实际状态数据为异常点。即定义实际状态数据x
t
如果满足|x
t-μ
t
|＞kσ
t
条件则判定实际状态数据x
t
为异常点。其中，x
t
为实际状态数据序列中某一时刻的实际状态数据；μ
t
为理论状态数据序列的均值；σ
t
为理论状态数据序列的标准差。
[0142]
具体地，基于目标时刻的实际状态数据、均值和标准差，设置异常数据判决条件，异常数据判决条件为：若实际状态数据序列的实际状态数据与均值的绝对值之间差值大于预设值和标准差的乘积，则确定实际状态数据为异常点。
[0143]
本实施例中，选取以目标测试时刻为中心、预设长度的滑动窗口，并计算滑动窗口内各时间点的理论状态数据的均值和标准差，若目标时刻的实际状态数据与均值之间差值的绝对值大于预设值和标准差的乘积，则确定实际状态数据为异常点，通过上述实际状态数据的异常判断方式仅取决于在t时刻窗口内理论状态数据的分布，从而不会受到其他异常监测数据的影响。
[0144]
在一个实施例中，通过上述实施例可以判断目标测试时刻对应的实际状态数据是否为异常点，当目标测试时刻对应的实际状态数据判决结束后，滑动窗口的中心在时间刻度上往目标测试时刻的下一时刻移动，并获取以下一时刻为中心、预设长度的滑动窗口内的理论状态序列，计算滑动窗口内各时间点的理论状态数据的均值和标准差，判断实际状态数据序列的实际状态数据与均值之间差值的绝对值是否大于预设值和标准差的乘积，若实际状态数据序列的实际状态数据与均值之间差值的绝对值大于预设值和标准差的乘积，则确定实际状态数据为异常点；若实际状态数据序列的实际状态数据与均值之间差值的绝对值小于预设值和标准差的乘积，则确定实际状态数据为正常数据。
[0145]
本实施例中，采用理论状态序列中滑动窗口内的理论状态数据的均值和标准差判断实际状态数据是否为异常点，可以提高informer模型的准确性。
[0146]
在一个实施例中，如图6所示，本实施例还包括以下步骤：
[0147]
步骤602，获取训练样本，训练样本包括各时刻的实际状态数据。
[0148]
为了验证所提出的检测方法的有效性与可行性，本实施例使用电力变压器温度(electricity transformer temperature,ett)数据集中的油温数据来评估本实施例提供方法的性能。该数据集是从两个不同的区域采集的测试数据，采集间隔为15分钟，其中informer的训练/验证/测试集分别为12/4/4个月，其中训练集和验证集均为正常数据，测试集中添加了噪声数据和设备状态异常数据两种异常值模拟真实异常情况。
[0149]
步骤604，将训练样本输入至informer模型中，获得每一时刻对应的理论状态序列。
[0150]
其中，informer预测模型的编码器中包含一个3层堆栈层和一个2层堆栈层，解码器由2个相同的模块层堆叠而成，批大小均为32。使用mse作为损失函数并通过adam优化算法进行训练，初始学习率为1e-4
，每训练2个时期减小10倍，总共训练10个时期。
[0151]
对于稀疏性自我注意机制，输入维度d设为32，多头注意力层的头数n为16，并添加剩余连接、位置前馈神经网络层(神经元数量为2048)和随机失活层(失活概率p'＝1)。同时，为每个数据集保留了10％的验证数据，因此所有实验都有5次随机的训练和验证，结果是5次运行的平均值。所有数据集都进行了标准化，使得变量的平均值为0，标准偏差为1。训练、验证与测试环境中gpu为nvidiageforcertx2070，内存为8gb，深度学习框架为pytorch1.8.0，在python3.6平台运行。
[0152]
在异常检测中，设置滑动窗口的数据长度为48，异常点判断阈值k为2.5，连续预设数量为5。
[0153]
步骤606，根据每一时刻的实际状态数据与对应的理论状态序列的误差测定值，调整informer模型的参数，完成一次训练。
[0154]
其中，为验证本发明所用的预测方法的有效性，使用均方根误差(root mean squared error,rmse)和平均绝对百分比误差(mean absolute percentage error,mape)对预测结果进行分析。令yi表示实际状态数据，为理论状态数据，则上述误差测定值的计算公式分别为：
[0155][0156][0157]
表1列出了以ett部分数据作为样本集，informer预测模型的rmse和mape，同时也列出了与经典时序数据预测方法-长短期记忆神经网络(long short-term memory,lstm)的对比实验结果，从对比实验结果可以看出：informer方法相较于lstm均方根误差降低了70.5794％，平均绝对误差降低了10.0406％，证明了informer预测模型在长时间序列预测方面的有效性与优越性。
[0158]
表1 预测准确性指标对比
[0159][0160]
将预测结果可视化如图7所示，可以看出，lstm模型预测值与真实值相比有明显偏差，不适合长时间预测任务；相较于lstm神经网络，informer预测模型具有更好的预测效果，并且在ett高峰低谷等ett不确定时段的预测准确率更高。
[0161]
使用上述ett数据集评估本实施例的清洗方法的性能，选取2017/10/24t00：00至2017/10/25t24:00(共48小时)的采样时间，每隔15分钟为一个数据间隔(共192个时间点)的实际状态数据作为异常检测的样本，如图8所示。
[0162]
首先将数据x
t
输入informer模型获得预测的理论状态序列p
t
，对滑动窗口内的p
t
计算均值μ
t
和标准差σ
t
。若|x
t-μ
t
|＞2.5σ
t
则说明x
t
为异常值，并将其标记，判断结果如图9所示(1为异常点，0为正常数据点)。对于标记的异常值判断其连续性，如果在时间刻度上连续预设数量的实际状态数据被判为异常值，则说明发生了设备异常，否则认为是噪声点，用预测值代替后入库。
[0163]
异常数据如表2所示，在t＝170～179，存在一小片连续的异常数据点，因此可以得出结论，设备在该段时间出现了不稳定的异常运行状态，后续检修人员对异常设备进行维修，因此异常状态消失。在某些时刻数据流(如t＝10、t＝71、t＝73和t＝112)，存在一些孤立的异常数据点，可以得出该时刻存在明显的异常噪声数据，可能是由于某传感器或者线路不稳定造成，用预测值代替后入库。
[0164]
表2 异常数据
[0165]
[0166][0167]
步骤608，迭代多次训练过程，当误差测定值满足目标值时，停止训练得到已训练好的informer模型。
[0168]
本实施例中，运用的informer预测模型作为改进的transformer模型，在长时间预测方面具有显著优势，其采用了稀疏性自注意力机制来高效地替换常规的自注意力，并通过自注意力蒸馏将级联层输入减半来突出注意力，使用生成式解码器来获取长序列输出，使得transformer模型更加适用于lstf预测问题，从而验证了transformer类型的模型用于捕获长时间序列输出和输入之间的长期依赖性的潜在价值。
[0169]
在一个实施例中，本实施例提供最详细的实施例，如图10所示，具体包括以下步骤：
[0170]
步骤1002，获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据。
[0171]
步骤1004，将实际状态数据序列中每一时刻的实际状态数据输入至已训练好的informer模型，得到预测理论状态序列。
[0172]
步骤1006，在理论状态序列中选取以目标测试时刻为中心、预设长度的滑动窗口。
[0173]
步骤1008，计算滑动窗口内各时间点的理论状态数据的均值和标准差。
[0174]
步骤1010，判断实际状态数据序列的实际状态数据与均值之间差值的绝对值是否大于预设值和标准差的乘积，若实际状态数据序列的实际状态数据与均值之间差值的绝对值小于预设值和标准差的乘积，则执行步骤1012；若实际状态数据序列的实际状态数据与均值之间差值的绝对值大于预设值和标准差的乘积，则执行步骤1014。
[0175]
步骤1012，确定实际状态数据为正常数据，将实际状态数据存入正常数据集。
[0176]
步骤1014，确定目标测试时刻对应的实际状态数据为异常点，并将滑动窗口从目
标测试时刻滑动到下一个目标测试时刻，执行步骤s1006-步骤s1014，直至实际状态数据序列中每一时刻的实际状态数据均被识别。
[0177]
步骤1016，判断实际状态数据序列中是否存在连续预设数量的异常点，若实际状态数据序列中不存在连续预设数量的异常点，则执行步骤s1018；若实际状态数据序列中存在连续预设数量的异常点，则执行步骤s1020。
[0178]
步骤1018，确定实际状态数据序列中的异常点为孤立异常点，用孤立异常点对应的理论状态数据替换孤立异常点的实际状态数据。
[0179]
步骤1020，确定实际状态数据序列中的异常点为设备状态异常导致的异常点。
[0180]
本实施例中，基于神经网络的数据分析技术，充分利用类transformer模型在长时间预测的潜力，通过改进的transformer模型即informer模型预测状态数据情况，从而检验出变电站设备状态数据中的噪声点和设备异常数据，并对噪声数据进行修正。相比于传统的直接删除噪声数据的做法，本实施例不仅保证了清洗后的时序数据的完整性，而且能够识别出设备异常状况，避免了有用信息的丢失，从而达到提升数据质量、获取设备异常状态的目的。
[0181]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0182]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的设备监测数据的处理方法的设备监测数据的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个设备监测数据的处理装置实施例中的具体限定可以参见上文中对于设备监测数据的处理方法的限定，在此不再赘述。
[0183]
在一个实施例中，如图11所示，提供了一种设备监测数据的处理装置，包括：获取模块100、预测模块200、判决条件确定模块300、异常点判决模块400和异常点类型判决模块500，其中：
[0184]
获取模块100，用于获取变电站设备的待检测的实际状态数据序列，所述实际状态数据序列包括各时刻的实际状态数据；
[0185]
预测模块200，用于根据所述实际状态数据序列预测理论状态序列；
[0186]
判决条件确定模块300，用于根据所述理论状态序列确定异常数据判决条件；
[0187]
异常点判决模块400，用于在所述实际状态数据序列中的实际状态数据不符合所述异常数据判决条件使，确定实际状态数据序列中的异常点；
[0188]
异常点类型判决模块500，用于在存在连续预设数量的所述异常点时，判定所述异常点为设备状态异常导致的异常点。
[0189]
在一个实施例中，预测模块200还用于将实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列。
[0190]
在一个实施例中，预测模块200还用于：将实际状态数据序列中每一时刻的实际状
态数据进行位置编码，并输入至预先训练好的informer模型的编码器中，得到隐含观测量；根据实际状态数据序列得到初始化序列，对初始化序列进行位置编码；将位置编码后的初始化序列、隐含观测量输入至预先训练好的informer模型的解码器中，得到理论状态序列。
[0191]
在一个实施例中，预测模块200还用于：获取训练样本，训练样本包括各时刻的实际状态数据；将训练样本输入至informer模型中，获得每一时刻对应的理论状态序列；根据每一时刻的实际状态数据与对应的理论状态序列的误差测定值，调整informer模型的参数，完成一次训练；迭代多次训练过程，当误差测定值满足目标值时，停止训练得到已训练好的informer模型。
[0192]
在一个实施例中，判决条件确定模块300还用于：在理论状态序列中选取以目标测试时刻为中心、预设长度的滑动窗口；计算滑动窗口内各时间点的理论状态数据的均值和标准差；基于目标时刻的实际状态数据、均值和标准差，设置异常数据判决条件。
[0193]
在一个实施例中，判决条件确定模块300还用于：若实际状态数据序列的实际状态数据与均值之间差值的绝对值大于预设值和标准差的乘积，则确定实际状态数据为异常点。
[0194]
在一个实施例中，异常点类型判决模块500还用于：若异常点为孤立异常点，则用孤立异常点对应的理论状态数据替换孤立异常点的实际状态数据。
[0195]
上述设备监测数据的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0196]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种设备监测数据的处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0197]
本领域技术人员可以理解，图12中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0198]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0199]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算
机程序被处理器执行时实现上述各方法实施例中的步骤。
[0200]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0201]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0202]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0203]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0204]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：

1.一种设备监测数据的处理方法，其特征在于，所述方法包括：获取变电站设备的待检测的实际状态数据序列，所述实际状态数据序列包括各时刻的实际状态数据；根据所述实际状态数据序列预测理论状态序列；根据所述理论状态序列确定异常数据判决条件；若所述实际状态数据序列中的实际状态数据不符合所述异常数据判决条件，则确定实际状态数据序列中的异常点；若存在连续预设数量的所述异常点，则判定所述异常点为设备状态异常导致的异常点。2.根据权利要求1所述的方法，其特征在于，所述根据所述实际状态数据序列预测理论状态序列，包括：将所述实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列。3.根据权利要求2所述的方法，其特征在于，所述将所述实际状态数据序列中每一时刻的实际状态数据输入至已经训练好的informer模型中，得到预测理论状态序列，包括：将所述实际状态数据序列中每一时刻的实际状态数据进行位置编码，并输入至预先训练好的informer模型的编码器中，得到隐含观测量；根据所述实际状态数据序列得到初始化序列，对所述初始化序列进行位置编码；将位置编码后的所述初始化序列、所述隐含观测量输入至预先训练好的informer模型的解码器中，得到理论状态序列。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取训练样本，所述训练样本包括各时刻的实际状态数据；将所述训练样本输入至informer模型中，获得每一时刻对应的理论状态序列；根据每一时刻的实际状态数据与对应的理论状态序列的误差测定值，调整所述informer模型的参数，完成一次训练；迭代多次训练过程，当所述误差测定值满足目标值时，停止训练得到已训练好的informer模型。5.根据权利要求1所述的方法，其特征在于，根据所述理论状态序列确定异常数据判决条件，包括：在所述理论状态序列中选取以目标测试时刻为中心、预设长度的滑动窗口；计算所述滑动窗口内各时间点的理论状态数据的均值和标准差；基于所述目标时刻的实际状态数据、所述均值和所述标准差，设置异常数据判决条件。6.根据权利要求5所述的方法，其特征在于，若所述实际状态数据序列中的实际状态数据不符合所述异常数据判决条件，则确定实际状态数据序列中的异常点，包括：若所述实际状态数据序列的实际状态数据与所述均值之间差值的绝对值大于预设值和标准差的乘积，则确定所述实际状态数据为异常点。7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：若所述异常点为孤立异常点，则用所述孤立异常点对应的理论状态数据替换所述孤立异常点的实际状态数据。
8.一种设备监测数据的处理装置，其特征在于，所述装置包括：获取模块，用于获取变电站设备的待检测的实际状态数据序列，所述实际状态数据序列包括各时刻的实际状态数据；预测模块，用于根据所述实际状态数据序列预测理论状态序列；判决条件确定模块，用于根据所述理论状态序列确定异常数据判决条件；异常点判决模块，用于在所述实际状态数据序列中的实际状态数据不符合所述异常数据判决条件使，确定实际状态数据序列中的异常点；异常点类型判决模块，用于在存在连续预设数量的所述异常点时，判定所述异常点为设备状态异常导致的异常点。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结

本申请涉及一种设备监测数据的处理方法、装置、计算机设备和程序产品。所述方法包括：获取变电站设备的待检测的实际状态数据序列，实际状态数据序列包括各时刻的实际状态数据；根据实际状态数据序列预测理论状态序列；根据理论状态序列确定异常数据判决条件；若实际状态数据序列中的实际状态数据不符合异常数据判决条件，则确定实际状态数据序列中的异常点；若存在连续预设数量的异常点，则判定异常点为设备状态异常导致的异常点。采用本方法能够保证了清洗后的时序数据的完整性，而且能够识别出设备异常状况，避免了有用信息的丢失，从而达到提升数据质量、获取设备异常状态的目的。获取设备异常状态的目的。获取设备异常状态的目的。