基于神经网络的天气质量指数预测

基于神经⽹络的天⽓质量指数预测

基于神经⽹络的空⽓质量指数预测

1 项⽬背景

1.1背景

随着我国经济的快速发展，⼤量的⼯⼚企业以及尾⽓排放使得⼤⽓环境污染⽇益严重，所以⼤⽓污染的预测防治⼯作应该加⼤⼒度[1]。通过预测未来影响空⽓质量指数的污染物浓度，实现我们对短期空⽓质量状况和变化趋势的判断则变得尤为重要。

空⽓质量指数是将对⼈产⽣影响的空⽓质量，通过对评价空⽓质量的污染物浓度计算得到的⽆量纲数值。⽤不同得等级表⽰空⽓污染状况的程度。空⽓质量指数主要是通过CO、NO、O3、PM10、 PM2.5、SO2这主要6种污染物浓度的规定的限值标准计算得到[2]。该指数被分为五个等级，按0～500的取值范围划分，从I级到V级的分级标准分别对应从优到严重污染的空⽓污染程度。空⽓污染的程度越严重对⼈体健康或是环境⽣态的影响越⼤[2]。为相关部门做出合理的决策提供科学的数据⽀撑，同时该研究成果对我国⼤⽓环境质量污染研究具有⼀定的参考价值和指导意义

1.2研究现状

⽬前空⽓质量数值预报的研究⼤多建⽴在⽓象数据和历史统计数据的基础上[4]。如郭飞等⼈在通过对沈阳⼤⽓环境质量历史数据和空⽓质量详细数据分析，⽤改进的⽀持向量机的⽅法精准的预测了污染物浓度[5]。使⽤变化权重组合实现多种⽅法的ARIMA、SVR组合模型达到理想的提⾼预测拟合效果[6]。张超利等⼈，结合数据相关性分析分析利⽤改进的粒⼦算法的神经⽹络⽅法实现了河南省的空⽓质量的预测[3]。空⽓数据通过结合各种优化算法可以达到预期效果。

富士j25由此可见深度学习等⽅法的普及出现了许多新理论和创新，对⼤型地域的空⽓质量的从时空演化特[7]实现⼤规模分析并且从多种⾓度进⾏空⽓质量的数值预测。可总结空⽓质量数值预报技术主要有3个⽅向：⾸先基于历史污染物浓度数据记录或⽓象数据，利⽤统计学规律建⽴回归模型[8]；第⼆种是时间序列的分析，通过历史的数据进⾏如ARIMA[9]模型建⽴，LSTM时间序列预测[10]，通过结合数据特点来建⽴曲线拟合以及参数估计的拟合模型；第三种是利⽤⼤数据进⾏神经⽹络的建模⽅法，⽐如模糊推理系统，粒⼦算法[10]，改进如多类天⽓识别的区域选择和并发模型[12]等，使在空⽓质量预测的研究⽅向上提供了更多的思路。

1.3研究内容

本⽂基于⽯家庄地区的空⽓质量监测站和⽓象数据监测站得到的2019年⽯家庄空⽓质量的详细数据，利⽤神经⽹络的相关技术，通过数据的相关性分析，建⽴神经⽹络模型来预测未来第4⼩时的CO、N

O、O3、PM10、PM2.5、SO2这6种污染物浓度，从⽽计算得到空⽓质量指数实现预警，课题研究思路如图2-1。本⽂的研究内容包括以下两点：

(1)数据相关性分析

由于获取的历史⽓象条件污染物浓度数据众多，不同污染物浓度的变化关系，通过⾃变量回归⽅法得到我们定义数据相关性系数，对于同⼀种污染物数据取相关系数较⼤的数据作为参考。以及实现神经⽹络模型的建⽴数据集提供参考依据。

(2)神经⽹络模型的建⽴

通过研究和学习BP神经⽹络，确定输⼊数据集，⽹络参数的确定实验，掌握前向传播和反向传播过程算法，确定学习率，⽹络节点个数的影响，建⽴能够实现预测未来⼩时的各个污染物浓度的模型，并通过污染物浓度计算空⽓质量指数实现预警。

本课题内容通过5个章节进⾏论述，第⼀章引述了课题研究的意义背景，将空⽓质量预测的相关研究成果和研究⽅向进⾏论述。第⼆章进⾏获取的空⽓质量数据集进⾏相关性分析，分析了污染物的季节变化特征，结合神经⽹络的特性，利⽤相关性系数为不同污染物的模型数据集提供依据。第三章简述了⼈⼯神经⽹络的算法，并且引⼊了算法的常见相关问题和相关概念，推导了两层前馈⽹络的前向传

播和反向传播的公式。第四章介绍了实现空⽓质量指数预警的流程，得到优化的实验参数和完成了实验结果的验证。第五章总结了课题的研究思路，并对课题研究的发展趋势提出了观点。

2 项⽬⽅法

数据相关性分析

2.1 污染物的特点

分析主要的六种污染物为CO、NO、O3、PM10、PM2.5、SO2。这些污染物的主要来源是化学燃料的⼤量燃烧，资源燃烧会产⽣氮氧化物和硫化物，如春冬季节的锅炉供暖，⽇常交通的机动车辆运⾏等[4]，⼤型企业⼯⼚⽣产过程的烟尘颗粒和废⽓排放，这也会导致酸⾬的形成，对建筑、⽣态环境产⽣危害，⽽当⽓象条件恶劣或空⽓流动性差时固体颗粒物与空⽓中物质融合变成⽓溶胶状态发⽣沉降，这也是导致雾霾产⽣的主要原因。

2.2 污染物浓度数据的相关性分析

通过中国⽓象数据⽹站，可以获取到⽯家庄2019年全年每⼩时6种污染物浓度数据和⼩时的空⽓质量指数。其中6种污染物默认CO的浓度单位为mg/m3，NO、O3、SO2、PM10、PM2.5的浓度单位为µg/m3。通过对Excel表格软件操作，对全年的数据进⾏整理计算，得到每种污染物浓度的过去4个⼩

时平均数值、过去12⼩时平均数值、过去第4⼩时数值、过去第12⼩时数值和过去第24⼩时数值共6种情况。6种污染物共计36种数据。通过研究预测的每个污染物的未来第4⼩时污染物浓度与36种数据的相关性，利⽤相关性系数选择⽹络的输⼊节点，并且相关性在后期对神经⽹络建模的参数选择上有着重要影响。

2.2.1 相关性系数的计算公式

相关性系数表⽰是两种变量数据之间的相关程度关系，通过回归模型可以表⽰变量在数据上的拟合相关程度，我们采⽤的计算公式是：⽹络获取到的污染物浓度数据通常为有单位的如mg/m^3

⽽且以当前⼩时的六组数据co,no,o3,pm10,pm2.5,so2，六种污染物浓度。如果单纯⽤【1*6】向量数据作为输⼊，可能存在相关性低的数据。所以采⽤扩充数据，将六种污染物过去第6⼩时，第12⼩时的数据，过去24⼩时的平均，过去48⼩时平均数据。

其中Cov表⽰矩阵的协⽅差矩阵，它是以变量个数为维度的对称矩阵，假设和都是列向量，表⽰相关度即相关性系数，相关系数的绝对值越⼤，意味着两个随机变量线性相关性越⼤；相关系数的绝对值

越⼩，意味着两个随机变量的线性相关性越⼩[12]，并且根据数值和相关程度有以下表格定义相关程度。

经过分析可得

可以得出结论，按季节分的数据集相关性系数更⼤，然⽽按全年数据的⽓候条件得到反⽽相关性有所下降，所以数据集并⾮是越⼤越好，取决于相关性程度，除了SO2浓度数据选择的半年数据相关性较⾼之外，其他数据按季度相关性来划分数据集，这样在⽹络训练时会有更好的表现。

3 平台苏州蓝缨学校

Matlab2012以上。

2数据集建⽴

经过相关性分析筛选这些数据和预测未来第四⼩时的污染物浓度。