一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法

著录项

申请号 CN202010601219.2
申请日 20200629
公开（公告）号 CN111768034A
公开日 20201013
申请（专利权）人上海积成能源科技有限公司
发明人顾一峰;周浩;胡炳谦;韩俊
主分类号 G06Q10/04
分类号
G06Q10/04 G06Q50/06 G06K9/62 G06N20/00
地址上海市宝山区高逸路80号南楼6楼
国省代码上海(31)

摘要

在电网商业化运营改革中，准确的电力负荷预测数据在经济上以及运营中都有很重要的用途。在电力负荷预测中，准确的历史负荷数据是进行预测计算，模拟的重要基础。要准确高效的运行电力负荷数据预测模型，历史负荷数据的数据质量尤为关键。本发明公开了一种对历史电力负荷数据中的缺失值应用KNN插补方法补充缺失数据的方法，可以有效填补历史电力负荷数据中由于各种原因造成的确失数据和异常剔除数据的目的,切实的提高运用于电力负荷预测模型中的数据质量，进而提高电力负荷预测效果，对电网运营管理以及决策等方面提供有力的支持。

权利要求

1.本发明一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法其特征在于，包括：

步骤一、数据预处理：对采集到的原始历史电力负荷历史数据按时间序列排列，确定数据集起止时间，检查数据在时间序列上的缺省，标明缺省值并记录缺省的起止时间；

步骤二、KNN算法插值补充数据：经过处理的数据集将会在时间序列上有标记，即在某些时间段没有相对应的历史数据，对于这些缺省值，将使用KNN插值补充的方法进行数据补充，以保证电力负荷历史数据在时间序列上的连贯性，KNN算法是一个在尺度空间中寻最近点的优化问题，问题描述如下：在尺度空间M中给定一个点集S和一个目标点q ∈ M，在S中到距离q最近的点，在本发明中，主要将KNN算法用于回归计算，以补充时间序列中的缺失值，即最近的K个样本的样本输出的平均值作为回归预测值，具体计算方式如下：

1）确定K值，在填充历史电力负荷数据的具体实施过程中，对于k值的选择，没有一个固定的树脂，一般根据样本的分布，选择一个较小的值，之后可以通过交叉验证选择一个合适的k值；选择较小的k值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，但是泛化误差会增大，K值的减小就意味着整体模型变得复杂，容易发生过拟合；选择较大的k值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大；

与输入实例较远的（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单；在本发明具体实施过程中，一般最小K值选为24（日小时数），最大K值为整体数据集数量的平方根；

2）确定距离计算度量；

本发明中，距离度量方式通常使用欧式距离，即：

x,y 为数据点在n维向量上的表示点；

当步骤三数据有效性验证不通过时，也可以使用曼哈顿距离：

或者闵科夫斯基距离：

计算点之间距离；

3）计算预测样本和所有训练集中的样本的距离，通过距离分类，到与缺失值距离最近的K个距离，计算这些值的平均电力负荷数据进行缺失填充；

在具体实施过程中，可以通过计算机蛮力计算所有样本距离，或者通过其他算法如KD树，球树等进行快速运算；

4）按时间序列分步重复以上三过程，填补缺失值至原始数据集；

步骤三、数据有效性验证：原始电力负荷历史数据集与经过KNN算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据的有效性；

两组数据将进行单因素方差分析（one way-ANOVA），计算两组数据间显著性差异值，需要保证两组数据间没有显著性差异；如果两组数据验证后存在显著性差异，则需要调整k的值（最近邻居的数量）或者改变距离度量方式，改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始数据不存在显著性差异，使处理后的数据保持准确性和有效性。

说明书

技术领域

本发明涉及电力负荷预测技术领域，具体涉及一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法。

在电力系统运营中,准确预测未来电力负荷是保证电力系统安全和实现电网科学管理及调度的重要基础, 也是电力能源管理系统的核心组成部分。电力负荷预测通常是利用一系列数学方法或模型, 到历史数据之间特有的联系，进而确定未来某特定时刻或某些特定时刻的电力负荷数值。所以，准确有效的电力历史负荷数据在电力负荷预测中十分关键，不仅在电力预测数据分析，也在预测模型中起到重要作用。在实际运营中，由于用电实践情况的不规律性，不符合电力预测对象普遍用电规律或者监测值背离实际的情况经常会出现。当这些异常的数值被纳入到电力负荷预测模型或者数学分析中这类异常的数值将会大大的降低电力负荷预测的精度以及模拟效果，进而降低电力负荷预测结果的准确性。当这些异常情况出现时，就需要人为介入，通过相应的数学统计的方式分析及提出这些异常值，再加上运行过程中的缺失值，就会造成历史电力负荷数据的不完整性。如今，如何通过合理有效的方法补充这些电力历史负荷数据中被剔除的的异常值以及缺失值以保证电力负荷预测模型所使用的电力负荷历史数据的完整性已经成为电力负荷预测模型研究中的一个重要方面。本发明提出了一种对历史电力负荷数据中的缺失值应用KNN插补方法补充缺失数据的方法。

本发明提出了一种对电力负荷数据缺失值或者异常剔除数据进行补充，复原的方法, 其特点在于应用了KNN插值补充的方法，包含了缺失值识别和KNN插值补充和填补缺失值验证三大功能模块。

原始历史电力负荷数据集需要先进行缺失值识别，数据集按时间序列排列，确定数据集起止时间，检查数据在时间序列上的缺省，标明缺省值并记录缺省的起止时间。经过识别标记后的原始数据集将被输入到下一步KNN模型进行插值补充计算。

KNN (k-nearst neighbors,K近邻算法法)是一种很有效的机器学习方法。它的基本思想是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。在进行插值补充时，模型根据设定的距离度量选择出缺失值发生位置的k个“邻居”，这一个分类的K个邻居的均值就被用于插补缺失数据。这个方法要求模型选择k的值（最近邻居的数量），以及距离度量。在本发明中，KNN模型的训练集为输入的带有缺失数据值的历史电力负荷数据，模型运算的目标为通过KNN算法针对缺失值的位置到他的K个邻居并且计算其均值。本发明所述K值选择为通过训练集的反馈实时调整的数值。本发明所述的距离度量方式包括欧氏距离，曼哈顿距离以及余弦距离。原始数据集经过KNN计算后，对相应缺失值进行补充后的数据集需要进行下一步的数据有效性分析。

填补缺失值前的原始数据集合及填补缺失值后的数据集合将进行单因素方差分析（one way-ANOVA），计算两组数据间显著性差异值，需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异，则需要调整KNN插值补充模型中的K值的选择，或者改变距离度量的方式，或者仍然剔除缺失值以确保填补后的数据与原始数据不存在显著性差异，整体数据集可以保持一定的有效性。

实际收集到的电力负荷历史数据经过上述模块的处理，可以达到补充数据集完整性的效果，提高了原始数据的有效性。将进行过填充处理后的电力负荷历史数据用于电力负荷预测模型将大大的提高电力负荷预测的可靠度与准确性。

图1是本发明实施例中历史负荷数据缺失值进行补充的方法的处理流程示意图。

为使得本发明的内容、目的、特征及优点能够更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护说明书的范围。

如图1所示，针对本发明提出的应用了KNN插值补充电力负荷缺失值的方法，具体分为以下步骤。

步骤一、数据预处理：对采集到的原始历史电力负荷历史数据按时间序列排列，确定数据集起止时间，检查数据在时间序列上的缺省，标明缺省值并记录缺省的起止时间。

步骤二、KNN算法插值补充数据：经过处理的数据集将会在时间序列上有标记，即在某些时间段没有相对应的历史数据，对于这些缺省值，将使用KNN插值补充的方法进行数据补充，以保证电力负荷历史数据在时间序列上的连贯性。KNN算法是一个在尺度空间中寻最近点的优化问题。问题描述如下：在尺度空间M中给定一个点集S和一个目标点q ∈ M，在S中到距离q最近的点。在本发明中，主要将KNN算法用于回归计算，以补充时间序列中的缺失值，即最近的K个样本的样本输出的平均值作为回归预测值。具体计算方式如下：

1.确定K值。在填充历史电力负荷数据的具体实施过程中，对于k值的选择，没有一个固定的树脂，一般根据样本的分布，选择一个较小的值，之后可以通过交叉验证选择一个合适的k值。选择较小的k值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，但是泛化误差会增大，K值的减小就意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。与输入实例较远的（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。在本发明具体实施过程中，一般最小K值选为24（日小时数），最大K值为整体数据集数量的平方根；

2.确定距离计算度量。本发明中，距离度量方式通常使用欧式距离，即：

x,y 为数据点在n维向量上的表示点；

当步骤三数据有效性验证不通过时，也可以使用曼哈顿距离：

或者闵科夫斯基距离：

计算点之间距离；

3.计算预测样本和所有训练集中的样本的距离，通过距离分类，到与缺失值距离最近的K个距离，计算这些值的平均电力负荷数据进行缺失填充。在具体实施过程中，可以通过计算机蛮力计算所有样本距离，或者通过其他算法如KD树，球树等进行快速运算；

4.按时间序列分步重复以上三过程，填补缺失值至原始数据集。

步骤三、数据有效性验证：原始电力负荷历史数据集与经过KNN算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据的有效性。两组数据将进行单因素方差分析（one way-ANOVA），计算两组数据间显著性差异值，需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异，则需要调整k的值（最近邻居的数量）或者改变距离度量方式，改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始数据不存在显著性差异，使处理后的数据保持准确性和有效性。

本发明提出了一种应用KNN算法模型的方法补充电力负荷预测的历史数据中由于各种原因剔除值或者缺失值的方法，其特点为在电力负荷预测数据处理中引入KNN算法补充缺失值并且比对前后数据集的有效性验证来调整KNN的K值选择和距离度量方式，使得用于电力负荷预测的历史负荷数据更加完整，显著提高了电力负荷模型的预测效果。

本文发布于:2024-09-25 03:20:34，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/85063.html

上一篇：简明数码保加利亚文输入法

下一篇：汉字部首笔顺和字频拼音互补输入法

标签：一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法

留言与评论（共有 0 条评论）