风电机组异常数据预处理的分类多模型算法

风电机组异常数据预处理的分类多模型算法
陈伟;吴布托;裴喜平
【摘 要】Through the analysis of the causes and distribution characteristics of the abnormal wind speed-power data from wind turbines,a classification multi-model algorithm is proposed for abnormal data.According to different catego?ries of abnormal data,the data processing models including abandoned wind data,quartile method and fuzzy C-means are established to identify the data due to abandoned wind data,isolated point data and cluster data,rrespectively,and cubic spline method is further used to correct the point whose wind speed data are abnormal.Using this method,the his?torical data from Jiuquan wind farm in Gansu,China and Butler Ridge wind farm in Wisconsin,USA are preprocessed, and the historical data before and after preprocessing are predicted using RBF network,respectively,showing that after the identification and exclusion of abnormal data from wind turbines,the prediction accuracy can be improved by 1%~3%.It is indicated that the proposed method can effectively eliminate the abnormal
data from wind farms,thus it has certain applicable values to the prediction of wind speeds in wind farms.%针对风电机组异常风速-功率数据的产生原因和分布特点进行分析,提出一种异常数据分类多模型算法.对不同类别异常数据建立弃风、4分位和模糊C均值数据处理模型,识别弃风产生数据、离孤立点数据、偏差簇数据,并利用3次样条方法修正异常风速点.运用该方法对甘肃酒泉风电场和美国Wisconsin州Butler Ridge风电场历史数据进行数据预处理,采用RBF网络对处理前后的数据进行风速预测.预测结果表明,经过识别并剔除异常风电机组数据后风速预测精度可提高1%~3%,说明该方法有效剔除了风电场异常数据,对风电场风速预测有一定的应用价值.
【期刊名称】《电力系统及其自动化学报》
【年(卷),期】2018(030)004
【总页数】7页(P137-143)
【关键词】异常数据;数据预处理;4分位法;模糊C均值;风速预测;RBF神经网络
【作 者】陈伟;吴布托;裴喜平
【作者单位】兰州理工大学电气工程与信息工程学院,兰州730050;兰州理工大学电气工程与信息工程学院,兰州730050;兰州理工大学电气工程与信息工程学院,兰州730050
【正文语种】金钩月饼中 文
【中图分类】TM614
近年来风电机组装机容量的增加和电网消纳能力的限制,造成风电场历史数据含有异常数据,一方面是由传感器自身精度误差、外界的电磁干扰和信息处理存储故障产生的;另一方面是由风电机组故障、检修和弃风导致的风机停机产生的。目前多数文献将数据直接进行分析计算,造成风电机组功率预测精度降低[1-2]和风电功率曲线的计算误差增大[3],从而影响风电功率对电网影响评估及控制策略[4]。在预测前需对数据进行数据预处理工作,可提高历史数据的可靠性[5]。
文献[6]提出基于T2椭圆图的异常数据识别方法,利用贡献率判断异常数据,当需处理数据量多时计算量大;文献[7]提出参数化公式表示识别风速-功率散点图中的异常数据,但对不同的风机需要重新设置参数;文献[8]采用小波模极大值法剔除异常负荷,通过设定阈值剔
除噪声负荷,该方法通过t分布辨识异常负荷,其通用性不强;文献[9]对日负荷曲线采用模糊C均值FCM(fuzzy C-means)聚类形成特征曲线,使用超圆神经元网络辨识异常数据,该方法自适应差、建模复杂;文献[10]通过平滑算法及时间序列建模来检测异常数据,该方法需要对每个窗口的数据重新拟合且拟合精度低。
基于以上分析,本文依据历史数据分布特征划分异常数据类型,提出了风电机组异常数据预处理的分类多模型算法。根据弃风数据特点,建立检测连续恒定的功率值数据处理模型;运用统计学中稳健的4分位法建立辨识离孤立点的模型,剔除由传感器误差引起的异常数据;将数据挖掘中模糊C均值首次运用到辨识风速-功率曲线偏差簇数据中,剔除由传输过程中的电磁干扰和存储故障产生的偏差簇数据;为确保风速-时间序列的连续性,利用3次样条插值方法修正异常风速点。将原始数据和本文预处理后的风速数据作为RBF的输入数据,分析对比2组数据的预测结果,经过本文预处理后风速和功率预测精度可提高1%~3%。
1 风电机组历史数据分类
风电机组历史数据由风速和功率组成,并通过高灵敏度传感器分别采集风速和功率并传输
到控制终端,控制终端收集并存储数据。图1是酒泉风电场风速-功率散点图。观察发现,风电场数据聚集成一条曲线和一条直线,在曲线周围分布着离孤立点和偏差簇数据。
图1 酒泉风电场风速-功率散点图Fig.1 Scatter plot of wind speed-power in Jiuquan wind farm
坪上人论坛根据风电场数据散点图分布特点,可将异常数据划分为弃风数据、离孤立点数据和偏差簇数据,如表1所示。
表1 风电机组异常数据的分类Tab.1 Classification of abnormal data from wind turbines异常数据分类 描述弃风数据离孤立点数据偏差簇数据在散点图中聚集成一条直线,满足式(1)孤立离点分布在风速-功率曲线外数据聚集成簇分布在风速-功率曲线上
(1)弃风数据(用A表示弃风数据)聚集成一条直线,分布在图1中,风速大于切入风速,即v>vci时,功率小于正常功率的一半。图2为风电机组风速与功率时间序列,由图可看出,当t∈[130,280]时功率恒定不变而风速不断变化,其他时间段内功率随着风速的变化而变。据统计,自然条件下功率跟随风速变化,当连续采样10次以上时,风机功率恒定不变则判定为弃风数据。根据以上特点,弃风数据集A满足
稀土氧化物
式中:Pi为第i个功率数据;t为采样次数为风机理论风速v-功率Pˉ曲线中风速v对应的理想功率。
图2 风电机组风速与功率时间序列Fig.2 Time series plots of wind speed and power for wind turbines
(2)由传感器异常造成的测量数据误差过大产生的离孤立点数据(用O表示离孤立点数据),离散、稀疏、孤立的分布在风速-功率曲线外的点。这种异常点所占比重较少,易于采用统计方法识别、剔除。
病房呼叫系统设计
(3)偏差簇数据(用D表示偏差簇数据)以高密度、小范围的分布在风速-功率曲线上,主要由传输过程中长时间的电磁干扰和信息处理存储故障引起。这类异常点局部密度大、不同类别数据点区分明显,可采用数据挖掘方法识别偏差簇数据。神秘搭车人
2 风电机组历史数据的预处理模型及算法
把含有异常数据的风电场数据直接用于风速预测,风速预测模型易受大量异常数据的影响,有必要对预测数据进行优化处理,避免由异常数据导致预测精度的降低。在风电机组
数据中含有弃风数据、离孤立点数据和偏差簇数据,由于这些异常数据产生的原因不同,很难建立统一的辨识模型把异常数据识别并剔除,因此本文提出了异常数据分类多模型的方法。结合每类异常数据产生原因和分布特点分别建立弃风数据处理模型、4分位模型和模糊C均值模型。图3是本文对风电机组数据分类多模型预处理过程的示意。
图3 风电机组历史数据预处理示意Fig.3 Schematic of preprocessing of historical data from wind turbines
2.1 弃风数据处理方法
弃风是由于风机检修停机或者电网消纳能力不足所造成的,随着我国风力发电机组容量的快速增长与电网远距离输电能力不足造成了弃风现象越来越严重。含有弃风数据不仅使风电场等值功率曲线畸变严重而且降低了风速和功率短期预测精度,进而影响电网评估及控制策略。
根据式(1)识别、剔除弃风数据集A的步骤如下。
步骤1 输入风速和功率数据。输入风电场实测历史数据矩阵dataA⋃O⋃D,其中矩阵data第
1列表示风速,第2列表示功率;
步骤2  识别弃风数据。根据式(1)识别弃风数据集A,如果满足集合A,将flag置1,否则置0;
步骤3  剔除弃风数据集A。检测flag数据,剔除被置1的弃风数据。
此方法简单、快速有效地识别剔除因弃风等因素造成的异常数据。图4是剔除弃风数据后数据dataO⋃D构成的散点图,其中dataO⋃D表示含有离孤立点数据和偏差簇数据,对比图1与图4,由弃风数据聚集的直线被识别剔除。
叶丹阳博客图4 剔除弃风数据后的散点图Fig.4 Scatter plot after the exclusion of abandoned wind data
2.2 离孤立点数据预处理方法
离孤立点数据无规律的离散、孤立地分布在风速-功率曲线周围,这些异常点由传感器测量误差引起,误差的随机性很难到一种满意的分布与之对应。与高斯分布相比,4分位法
不依赖于均值和方差辨识异常值,也不需要序列服从某种分布模型,当离数据所占比例较少时,具有较好的数据辨识性和通用性。剔除弃风数据后,数据dataO⋃D中偏差数据所占比例很小,可选用4分位法来识别异常数据。
2.2.1 4分位模型
4分位是把一组按从小到大排列的序列平均分成4份,每份序列所占整组序列比例的25%,需要3个数据点作为每份的分界点[11-12],依次为下分位数Q1、中位数Q2和上分位数Q3。对于一个升序序列 X=[x1,x2,…,xn-1,xn],序列中 xi<xi+1,n为样本总数,i表示序列中的某一点。按25%的比例把序列X分成4份,分位数Q1、Q2、Q3的求取方法参考文献[13]。
依据得到的上分位数Q1和下分位数Q3,通过公式(2)计算得到4分位距IQR,即
在统计学中[11-12],用IQR确定序列X的内限范围,即
式中:F1为4分位法确定序列X的下限值;Fu为序列X的上限值;ω1和ω2为权值,取ω1=ω2=1.5,见文献[11-12]。如果xi∈[F1,Fu],判定为异常数据予以剔除;反之xi保留。
2.2.2 识别、剔除离孤立点集
步骤1  输入数据dataO⋃D。
步骤2  将数据dataO⋃D中第2列功率按从小到大依次排序,以10 kW为间隔单位把[0,800]kW的功率等间隔划分80份,即Ti(i=1,2,…,80)。
步骤3  剔除横向离孤立点。取每个区间段Ti对应的风速数据,计算每个区间的下分位数Q1、中位数Q2和上分位数Q3,并采用式(2)和式(3)确定内限区间,标记位于内限区间[F1,Fu]以外的离孤立点风速值,剔除后存储数据dataO⋃D,此时dataO⋃D横向离孤立点已被剔除。

本文发布于:2024-09-24 01:16:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68444.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   风速   功率   预测
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议