首页 > 学术百科

一种电力大数据的数据清洗方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201911014952.8

(22)申请日 2019.10.24

(71)申请人南方电网科学研究院有限责任公司

地址 510670 广东省广州市萝岗区科学城

科翔路11号

申请人中国南方电网有限责任公司电网技

术研究中心

(72)发明人钱斌　郑楷洪　周密　蔡梓文　

肖勇　

(74)专利代理机构常州佰业腾飞专利代理事务

所(普通合伙) 32231

代理人李珍

(51)Int.Cl.

G06F 16/215(2019.01)

G06K 9/62(2006.01)

G06Q 50/06(2012.01)

(54)发明名称

一种电力大数据的数据清洗方法

(57)摘要

本发明提供一种电力大数据的数据清洗方

法，包括以下步骤：建立多个清洗模型，其中，多

个清洗模型分别用于清洗不同异常类型的电力

数据；接收待清洗电力数据，并将待清洗电力数

据分别输入多个清洗模型进行并行处理；将处理

得到的正常数据和异常数据进行存储，其中，异

常数据按照对应的异常类型写入数据库。本发明

能够对电力数据实时地进行自动清洗，准确率和

效率均较高，并且能够保存异常数据以备需要时

调用。权利要求书1页说明书3页附图1页CN 110750527 A 2020.02.04

C N 110750527

1.一种电力大数据的数据清洗方法，其特征在于，包括以下步骤：

建立多个清洗模型，其中，所述多个清洗模型分别用于清洗不同异常类型的电力数据；接收待清洗电力数据，并将所述待清洗电力数据分别输入所述多个清洗模型进行并行处理；

将处理得到的正常数据和异常数据进行存储，其中，所述异常数据按照对应的异常类型写入数据库。

2.根据权利要求1所述的电力大数据的数据清洗方法，其特征在于，在每个所述清洗模型中，对所述待清洗电力数据按照数据格式进行分类处理。

3.根据权利要求1或2所述的电力大数据的数据清洗方法，其特征在于，所述多个清洗模型包括第一清洗模型、第二清洗模型和第三清洗模型，所述第一清洗模型、所述第二清洗模型和所述第三清洗模型所清洗数据的异常类型分别为数据缺失、电力参数超限和电力参数相关数据错误。

4.根据权利要求3所述的电力大数据的数据清洗方法，其特征在于，所述第一清洗模型通过所述电力数据中时间信息的连续性判断所述待清洗电力数据是否存在数据缺失。

5.根据权利要求3所述的电力大数据的数据清洗方法，其特征在于，所述第二清洗模型通过聚类算法判断所述待清洗电力数据是否存在电力参数超限。

6.根据权利要求3所述的电力大数据的数据清洗方法，其特征在于，所述第三清洗模型通过神经网络算法判断所述待清洗电力数据是否存在电力参数相关数据错误。

7.根据权利要求2所述的电力大数据的数据清洗方法，其特征在于，其中，接收外部kafka集数据，并在每个所述清洗模型中按照json、csv两种格式分类处理。

8.根据权利要求7所述的电力大数据的数据清洗方法，其特征在于，其中，将处理得到的正常数据和异常数据分topic转存储到内部kafka集中，并将处理得到的异常数据以parquet格式落地到hdfs中，以及使用sparksql对各个类型的异常数据进行统计写入数据库中。

权　利　要　求　书1/1页CN 110750527 A

一种电力大数据的数据清洗方法

技术领域

[0001]本发明涉及数据处理技术领域，具体涉及一种电力大数据的数据清洗方法。

背景技术

[0002]南方电网公司于2013年起组织建设网级电能量数据平台，实现对全网发电、输电、配电、用电各个环节电能量计量数据的统计采集、处理。由于全网电力数据量非常大，每天数据记录达到50亿条以上，加上异常数据导致的数据重传，实际入库数据量将翻倍。这些异常数据对存储空间和计算资源都会造成很大消耗，而通过人工方式对数据进行清洗、校验几乎无法完成的。

发明内容

[0003]本发明为解决上述技术问题，提供了一种电力大数据的数据清洗方法，能够对电力数据实时地进行自动清洗，准确率和效率均较高，并且能够保存异常数据以备需要时调用。

[0004]本发明采用的技术方案如下：

[0005]一种电力大数据的数据清洗方法，包括以下步骤：建立多个清洗模型，其中，所述多个清洗模型分别用于清洗不同异常类型的电力数据；接收待清洗电力数据，并将所述待清洗电力数据分别输入所述多个清洗模型进行并行处理；将处理得到的正常数据和异常数据进行存储，其中，所述异常数据按照对应的异常类型写入数据库。

[0006]在每个所述清洗模型中，对所述待清洗电力数据按照数据格式进行分类处理。[0007]所述多个清洗模型包括第一清洗模型、第二清洗模型和第三清洗模型，所述第一清洗模型、所述第二清洗模型和所述第三清洗模型所清洗数据的异常类型分别为数据缺失、电力参数超限和电力参数相关数据错误。

[0008]所述第一清洗模型通过所述电力数据中时间信息的连续性判断所述待清洗电力数据是否存在数据缺失。

[0009]所述第二清洗模型通过聚类算法判断所述待清洗电力数据是否存在电力参数超限。

[0010]所述第三清洗模型通过神经网络算法判断所述待清洗电力数据是否存在电力参数相关数据错误。

[0011]其中，接收外部kafka集数据，并在每个所述清洗模型中按照json、csv两种格式分类处理。

[0012]其中，将处理得到的正常数据和异常数据分topic转存储到内部kafka集中，并将处理得到的异常数据以parquet格式落地到hdfs中，以及使用sparksql对各个类型的异常数据进行统计写入数据库中。

[0013]本发明的有益效果：

[0014]根据本发明实施例的电力大数据的数据清洗方法，通过建立多个分别用于清洗不

同异常类型电力数据的清洗模型，并将接收到的待清洗电力数据分别输入多个清洗模型进行并行处理，最后将处理得到的正常数据和异常数据均进行存储，由此，能够对电力数据实时地进行自动清洗，准确率和效率均较高，并且能够保存异常数据以备需要时调用。

附图说明

[0015]图1为本发明实施例的电力大数据的数据清洗方法的流程图。

具体实施方式

[0016]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0017]如图1所示，本发明实施例的电力大数据的数据清洗方法包括以下步骤：[0018]S1，建立多个清洗模型，其中，多个清洗模型分别用于清洗不同异常类型的电力数据。

[0019]在本发明的一个实施例中，所建立的多个清洗模型包括第一清洗模型、第二清洗模型和第三清洗模型，第一清洗模型、第二清洗模型和第三清洗模型所清洗数据的异常类型分别为数据缺失、电力参数超限和电力参数相关数据错误。

[0020]其中，电力参数可以包括电量值、负荷值、电压值、电流值、功率因数、线损等，电力参数相关数据为表示电力参数相关信息的数据。举例而言，在一包含“地区，用户ID，计量表ID，负荷值，时间”的电力数据中，电力参数为负荷值，电力参数相关数据为地区、用户ID、计量表ID和时间。

[0021]S2，接收待清洗电力数据，并将待清洗电力数据分别输入多个清洗模型进行并行处理。

[0022]其中，在每个清洗模型中，可对待清洗电力数据按照数据格式进行分类处理。具体地，可接收外部kafka集数据，并在每个清洗模型中按照json、csv两种格式分类处理。[0023]在本发明的一个实施例中，第一清洗模型可通过电力数据中时间信息的连续性判断待清洗电力数据是否存在数据缺失。一般地，电力数据的采集、传输与存储均具有时间连续性，即在一段连续的时间内，每间隔预设时间出现一个电力数据。当连续多个时间间隔未出现某一种电力数据时，则可判断该种电力数据在该连续多个时间间隔内缺失，即该种电力数据存在数据缺失。

[0024]在本发明的一个实施例中，第二清洗模型可通过聚类算法判断待清洗电力数据是否存在电力参数超限。以K-means聚类算法为例，可以以电力参数合理范围内的数据量作为分类依据，例如对于数值可能为零至几百的电力参数，可设定聚类组别数K＝3，分别对应个位数量级、十位数量级和百位数量级的电力参数，并设定最大迭代次数和平方误差数值。然后确定3个聚类中心，并计算其他每个待清洗电力数据中的电力参数与聚类中心之间的欧氏距离，以各电力参数到最近的聚类中心为一类更新分类结果，重新分配聚类组。进而根据每个聚类组中各点坐标的平均值更新聚类中心坐标，并更新平方误差函数值。多次迭代后，在迭代次数达到最大迭代次数，或平方误差小于阈值，返回分类结果、聚类中心坐标、平方

误差函数值、迭代次数、各个聚类中的数据个数。在聚类完成后，针对每一聚类组，电力参数与当前聚类中心之间的欧氏距离大于预设距离的电力数据，可确定为电力参数超限的电力数据。

[0025]在本发明的一个实施例中，第三清洗模型可通过神经网络算法判断待清洗电力数据是否存在电力参数相关数据错误。具体地，可以以待判断相关数据为人工神经网络(例如BP神经网络)的输出，以其他相关数据为人工神经网络的输入，首先根据历史正常数据对人工神经网络进行训练，然后将待清洗电力数据中其他相关数据输入训练后的人工神经网络，如果无输出或输出与待判断相关数据不同，则可判定该电力数据中的电力数据错误。举例而言，如果要判断上述包含“地区，用户ID，计量表ID，负荷值，时间”的电力数据中用户ID 是否错误，则可以地区、计量表ID和时间作为输入，以用户ID作为输出，对人工神经网络进行训练和应用。

[0026]本发明实施例通过多个清洗模型对待清洗电力数据进行分开并行处理，能够同时保证电力数据清洗的准确率和效率。

[0027]S3，将处理得到的正常数据和异常数据进行存储，其中，异常数据按照对应的异常类型写入数据库。

[0028]具体地，可将处理得到的正常数据和异常数据分topic转存储到内部kafka集中，并将处理得到的异常数据以parquet格式落地到hdfs中，以及使用sparksql对各个类型的异常数据进行统计写入数据库中。

[0029]应当理解的是，所存储的异常数据存在可用数据，例如可修正的数据、可作为数据修正依据的数

据以及可用于分析数据采集端和中间存储端缺陷的数据。本发明实施例通过存储异常数据，可便于后续需要时调用。

[0030]根据本发明实施例的电力大数据的数据清洗方法，通过建立多个分别用于清洗不同异常类型电力数据的清洗模型，并将接收到的待清洗电力数据分别输入多个清洗模型进行并行处理，最后将处理得到的正常数据和异常数据均进行存储，由此，能够对电力数据实时地进行自动清洗，准确率和效率均较高，并且能够保存异常数据以备需要时调用。[0031]在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

[0032]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

[0033]尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

本文发布于:2024-09-20 16:27:00，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/786732.html

上一篇：一种GPS轨迹优化方法及系统[发明专利]

下一篇：...变量长序列时间序列预测模型的构建方法[发明专利]

标签：数据电力清洗模型进行参数

留言与评论（共有 0 条评论）