基于Storm与Kafka集的火电厂分布式流式数据建模与分析系统

《工业控制计算机》2021年第34卷第5期33基于Storm与Kafka集的火电厂分布式流式
货款回收Distributed Streaming Data Modeling and Analysis System
in Thermal Power Pla n ts Based on Storm a n d Kafka Cluster
陈木斌(华润电力技术研究院有限公司,广东深圳518001)
摘要:大数据时代环境下,火电厂超大规模的数据量以及较高的数据处理时效性要求都对我们能否有效地利用数据进行分析提出了挑战,传统的数据分析方式在性能、时效、精度等方面已不能满足电厂运行人员对设备运行状态精确判断的要求遥为此提出一种基于Storm与Kafka集的数据建模与分析系统,利用Kafka高吞吐量的消息驱动能力和Storm流式计算框架,通过将预置的常用数据处理组件的灵活搭接的方式,满足业务模块数据处理的需求遥结果表明,系统可以提高数据建模与分析的效率,能高效地处理火电厂多设备、高维度的实时数据,且具备弹性扩容的能力遥
关键词:Storm集;K-Means聚类;主成分分析;流式处理;弹性扩容
Abstract:"the era of big data environment,the huge amount of data and the high timeliness of data proc
essing in thermal power plants pose a challenge to our effective data analysis.The traditional data analysis methods can not meet the requirements of power plant operators in terms of performance,timeliness snd accuracy fo^accurate judgment of equipment operation status.Therefore,the data modeling and analysis system based on Storm and Kafka cluster is presented in this pa­per to meet the data processing requirements of business modules through using high throughput message driven capability of Kafka,streaming computing framework of Storm and flexibly overlapped preset common data processing components.The results show that the system can greatly improve the efficiency of data modeling and Qnalysis,can efficiently process multi equipment,high-dimensional real-time data of thermal power plant,and has the ability of elastic expansion.
Keywords:Storm cluster,K-Means clustering,principal component tnalysis,streaming process,auto scaling
火力发电已经经历了一个多世纪的发展,目前,火电仍然是中国电力的最主要组成部分,而随着现代控制系统的发展,火力发电的规模也变得越来越大型化、集中化,厂内设备的复杂程度也随之增加。在大数据时代环境下,火电厂大都装配着庞大的DCS,SIS等信息化系统,各机组的大量多年的实际运行数据以及各类设备的状态参数被存储到不同类型的实时数据库及历史数据库中,这些数据蕴涵了丰
富的、有价值的设备相关知识和运行规律,可以用于火力发电厂今后的运营决策、指导操作人员优化当前的运行方案、对设备运行工况判断等方面,但由于火电厂设备众多,每时每刻都有海量的数据产生,传统的机里建模和实验建模方式也无法充分利用历史运行数据库中的数据袁单机运行的模型无法实时处理多设备、多维度的实时数据。
针对传统的设备建模与分析系统难以适用当前控制系统发展速度的问题,本文采取的大数据建模方法,基于分布式Storm 和Kafka集架构,能在云计算的环境下,从火电厂海量历史数据中提取信息袁对设备运行状态进行建模袁并采用流式处理方式,将所建模型与设备实时运行数据进行对接,实现了超大规模、可弹性扩展的数据建模与分析系统。
1大数据环境下火电厂数据特点
火力发电厂在流程工业中本身属于技术密集和资产密集型企业,在大数据时代背景下,火电厂的数据具有一些新的特点:
1)超大规模:随着火力发电厂机组容量从300MW、600MW 到1000MW的不断提升,电厂流程控制系统结构的复杂程度也越来越高,尤其是大型火电机组所需要的电力设备更多,各个电厂所产生的数据量也在急剧膨胀,一座电厂每天产生的数据要以GB计算。电厂各个机组都是长年累月运行的,日积月累起来就是非常庞大的数据量。随着监控要求和采样精度的提高,机组实时运行的数据只会越来越多,
甚至会成倍增长。
2)有较多的重复性:通过观察某电厂的历史运行数据,在正常、稳定的运行工况下袁单个机组的数据会有很大部分重复袁因而在数据处理时会大大增加无用的计算量。
3)数据时效性要求高:对火电厂的运行建模分析不仅要基于历史数据袁所建模型还需要根据实时数据进行动态调整袁历史与实时相结合的建模分析更有助于准确的对电厂各设备运行工况进行实时监控。
4)相关性越来越复杂:火电厂流程控制系统中,控制量与被控量之间存在着不确定的相关关系袁而随着数据量的剧增袁对设备进行建模所用到的多个样本之间的相互影响也在加深袁使得控制量与被控量之间相关性的复杂程度越来越高。
2数据建模与分析系统
针对上述火电厂数据特点,本文实现了一种基于Storm和Kafka集的流式数据建模与分析系统,以应对当前火电厂高时效性、高维度数据带来的挑战。
火电厂数据的生成可以看作是一连串发生的离散事件,这些事件流会伴随着不同的数据流、操作、分析。随着业务对数据流的处理提岀越来越高的要求,我们必须要在更少的时间内处理更多的数据流,Storm正是最流行的实时流计算框架之一,它提供了可容错分布式计算所需的机制,可满足大量关
键业务应用的需求,同时,Storm也是一种数据流和控制的机制遥Storm分布式计算结构称为拓扑(Topology),由数据流(Stream)、数据流的生产者(Spout)和运算(Bolt)组成:
1)Stream由无限制键值对(Tuple)序列组成,是数据处理流中的触发事件;
2)Spout代表了一个Storm Topology的主要数据入口,连
34基于Storm与Kafka集的火电厂分布式流式数据建模与分析系统
接到数据源,将接收到的数据转化为一个个Tuple,并将Tuple
作为数据流进行发射;
3)Bolt可以理解为计算程序中运算或者函数,每一个Bolt
将一个或者多个数据流作为输入,对输入数据实施运算后,根据
程序配置,有选择性地输岀一个或者多个数据流。每一个Bolt
通过订阅的方式可以接收多个由Spout或者其他Bolt发射岀
来的数据流,从而根据数据处理繁简程度,可以建立Bolt点对
广州城市职业学院国学院
点之间的连接,也可以建立复杂的数据流转换网络。
本文实现的流式数据建模与分析系统的核心思想是基于
Storm集中预置的数据处理、算法模型插件,也就是Bolt,根
据系统中常用业务模块所需,灵活组装数据处理流中的各个节
点袁数据处理由上层控制模块通过发布具有特定主题的消息到Kafka集中袁Storm集中根据需要订阅相关主题,根据配置组装数据处理和建模组件,再通过Kafka集,将处理结果通知到上层控制模块,再进行后续的存储、展示等处理,系统处理框图如图1所示。
图1系统处理框图
数据建模与分析系统中预置有多种数据处理、算法建模插件,涵盖数据归一化、降维、离点检测以及SVM等算法模型,下面介绍其中几种的处理方式。
2.1Z-Score归一化
现场设备运行数据中某些属性,其实际值的最大/最小值未知,某些情况下还可能岀现超岀取值范围的
离数据的情况,针对这种情况,我们常采用Z-Score归一化方法使用原始数据的均值(mean)和标准差(standard deviation)对数据进行标准化处理,经过处理的数据符合标准的正态分布,即均值为0,标准差为1,转化函数为:
x=x-u
normalization滓
其中滋为所有样本数据的均值,滓为所有样本数据的标准差。
2.2基于K-Means的离点数据检测
对样本数据进行聚类分析,可以用来查局部强相关的样本对象组,因此聚类分析的方法可以用来对离数据点检测,根据需要来剔除由多种原因引起的不合理的采样数据。
K-Means聚类算法有较好的局部性袁因而我们将K-Mea n s算法进一步拆分为三个阶段:
第一阶段:簇的生成。基于Storm的流式处理机制,将从Kafka中接收到的数据,通过Storm的Spout发送到多个Bolt 中,利用Storm集,进行并行处理,生成簇集合;
第二阶段:利用第一阶段生成簇进行聚类操作,将之前在Bolt 中分布独立处理的数据与簇进行计算,输岀各个点对应的簇;
第三阶段:利用第二阶段Bolt输岀的数据进行全局簇集合计算,按照最终的聚类中心划分数据,标注岀基于给定阈值来判定的离点数据。图2为振动信号离点检测示意图。
通过离点数据检测过程,可以提高后续模型输入的样本数据质量,提高模型精度。
图2振动信号离点检测示意图
2.3降维处理
根据前述数据特性,为了解决数据有较多的重复性可能导致无用计算过多的情况,我们一般都要对数据进行降维处理。数据降维的方式有多种,可以直接通过删除不相关的设备属性来减少数据的维数,也可以通过属性合并来创建新属性维数。本文描述的数据建模与分析系统中提供的降维处理工具是主成分分析算法插件。
主成分分析(PCA,principal component analysis)算法是数据预处理过程中可能应用最广泛的无监督算法之一,是一种非常基础的基于多元统计分析的特征提取数据降维算法。主成分分析算法将多个维度的数据转化为几个少数综合维度,通过建立较小数目的综合变量,使其更集中地反映原始数据中所包
含的变化信息,通过识别数据集中最重要的几个特征,如方差矩阵、协方差矩阵、最大的一些数据的特征向量,进而求得主成分的值,来降低数据的复杂性,非常适用于火电厂各设备数值型的采用数据的约简。
本文描述的PCA算法插件基于Storm集,提供了一个Bolt来对接原始数据或前述K-Means聚类离点检测后的数据,经过PCA降维后的运行结果如图3所示。
•恒Q
祀0
a192G XI4Q5060
主成井摊圧
图3PCA主成分累计贡献率
从图3分析结果可以看岀,对于一个含有高维度数据的主设备来说,只需选取约1/3主成分,即可表达原始数据95%以上的信息,这大大降低了数据维数,缩减了后续数据建模所需时间,使数据能更好地满足下一步的算法数据分析过程。
2.4基于支持向量分类(SVC)模型的数据分析
支持向量机(SVM,Support Vector Machine)是一类按监督学习方式对数据进行二元分类的广义线性分类器,在诸如文本分类的模式识别问题中有得到广泛应用,本文描述的是将SVM由分类问题推广至回归问题袁从而得到支持向量回归(SVR,Support Vector Regression),采用的算法模型称为支持
谐波分析(下转第36页
)
36基于前馈补偿的HXD岀口水分控制系统设计
先岀”的堆栈功能。
首先,新建一个供FC84、FC85存取水分值所需的DB块。
第一行length和第二行index必须先声明好,分别声明了堆栈
最多能存入的数据的个数和已经存入的数据的个数。由于
FC84、FC85只能存取Word类型数据,而水分值是双整形数
据,则需要160个Word类型存储位置来存储80个水分值。所
颅内高压以length初始值为W#16#A0,即十进制的160遥将index初始值也设置为W#16#A0,这意味着初始时堆栈是满的,后续数据的存储从堆栈“底部”开始。水分堆栈DB块如图3所示。
图3水分堆栈DB块
其次,从堆栈顶部取一个水分值,再在堆栈底部存入一个水分值,每0.5s存取一次的话,那么底部存入的水分值经过40s 就会冒泡到顶部。每次取岀的水分值即是40s之前的RCC滚筒岀口烟丝水分值。
使用CPU系统时钟脉冲,周期为0.5s的M2.3实现每0.5s存取水分值。每0.5s从堆栈顶部取两个数据,分别传送到一个双字的低位和高位,然后将这个双字即水分值传送到MD1000遥每0.5s将当前RCC滚筒岀口烟丝水分值(双整形)的高位和低位从堆栈底部存入。程序如图4所示。
图4水分值数据存储堆栈程序冀教版小学英语教案
最后用取岀的水分值与当前牌别RCC滚筒岀口水分设定值进行差值运算,运算结果乘以系数10后,设置上下限为20.0和-20.0,存入MD1004,结合工艺气温度偏差对控制喷水流量的调节量对HXD加水流量进行综合调节。程序如图5所示。
图5RCC水分补偿量计算程序
3应用效果
为解决制丝线HXD岀口水分标准偏差过大的问题,本文设计了基于前馈补偿的HXD岀口水分控制系统,根据RCC岀口水分和工艺气温度的偏差,在原PID输岀加水量的基础上,引入相应的前馈补偿,提前调节加水量,避免了HXD加水流量调节的滞后性。系统应用后,HXD岀口水分波动明显减小,标偏由0.25降至0.14,Cpk值由0.97提高到1.3,有效保障了制丝产品的内在品质。
参考文献
[1]周俊,崔升,康金岭,等•高温气流式叶丝干燥机HXD工艺的理论和技术探讨[C]椅第三届广西青年学术年会论文集(自然科学篇),2004
[2]潘高伟•烟丝在线膨胀HXD工艺研究[D]•杨凌:西北农林科技大学,2008
[3]张大波.叶丝HXD在线膨胀技术应用研究[D].郑州:郑州大学,2006
[4]李庆春•新型PID模糊控制器的结构分析及应用研究[D]•长沙:中南大学袁2010
[5]佟亮,赵肖宇,黄操军,等•模糊PID控制在锅炉燃烧系统中的应用[J].信息技术,2009(6):55-57
[6]郝静,冯书强•关于HXD加水控制模式的探索[C]椅2016首届全国智慧城市建设应用高峰论坛论文集,2016
[7]刘坤,石建飞•基于模糊PID的恒温控制系统[J].科技信息,2013
(19):2
[8]段荣华•基于专家-模糊PID控制的松散回潮出口水分控制系统设计[J].计算机测量与控制,2019,27(1):85-91
[收稿日期:2020.12.28]
(上接第34页)落红不是无情物化作春泥更护花赏析
向量分类(SVC,Support Vector Classification)。
火电厂设备众多袁面对火电厂所产生的源源不断的实时运
行数据,传统的单机SVC数据分析算法很难做到在业务可接受的运算时间内完成数据分析任务并给岀运算结果。随着并发计算需求的增加,单机SVC处理所需时长明显增加,甚至呈现指数级上升趋势,而基于Storm集,将SVC模型Storm中Bolt
的形式提供服务,利用Storm的流式任务处理机制,支持不同业务模块的实时数据并发调用该算法实现数据分类分析袁与单机
SVC模型应用相比袁随着并发实时数据量的增加袁耗时增加趋
势较为平缓,两种方式的对比效果如图4所示。
3结束语
本文针对在大数据环境下的火电厂的数据特点袁实现了基于Storm的集的实时流数据处理与分析系统袁在系统中利用Storm的Bolt组件袁提供了多种数据处理与分析插件袁可基于配置的方式袁灵活组装这些插件袁生成流式数据处理任务袁提交到Storm集。实际运行情况表面,本系统能缩短实时大数据处理的耗时袁能应对火电厂对数据处理时效性提岀的挑战袁为不同业
图4单机SVC与Storm集SVC处理耗时对比
务模块的数据处理工作提供了良好的支持。
参考文献
[1]吉奥兹,奥尼尔.Storm分布式实时计算模式[M].董昭,译•北京:机械工业出版社,2015
[2]周志华•机器学习[M]•北京:清华大学出版社,2016
[收稿日期:2021.1.27

本文发布于:2024-09-24 19:15:45,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/60417.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   建模   分析   运行   进行   设备   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议