R利用回归分析与时间序列预测北京市PM2.5

R利⽤回归分析与时间序列预测北京市PM2.5
注:代码全部在最后,数据来源UCI,链接如下:
摘要
现代社会科技进步,⼈们的⽣活质量逐步提⾼,但伴随着各类⼯业和科技的发展,环境问题凸显,最初⼈们粗放式的经济发展⽅式在⼀定程度上对环境造成不可逆转的破坏。在各种环境污染问题,空⽓污染问题⼜是如今⼈们关注的重中之重。北京是我国⾸都,同时也是我国空⽓污染较为严重的⼏个北⽅城市之⼀,因此关注北京市空⽓污染情况是我国观测空⽓污染情况的重要关注对象之⼀。在本⽂中,⾸先,我就北京市PM2.5及其他污染物和⽓象情况的近⼏年观测数据做出相应回归分析,建⽴回归模型试图利⽤已知的其他污染物和⽓象情况信息对
PM2.5做出预测;其次,利⽤现如今已观察到的数据做单变量时间序列分析,寻其变化规律、做简单预测,为北京市⼈民规划出⾏做好提前空⽓质量预警。百花仙酒
关键词:PM2.5 多元回归分析 时间序列分析
⼀、数据集介绍
该数据集来⾃于北京市环境检测中⼼,包括了2013年3⽉1⽇到2017年2⽉28⽇,12个国家控制的空⽓质量监测站每⼩时的空⽓污染数据,且每个空⽓质量站点的⽓象数据都与中国⽓象局站相匹配。此空⽓污染数据集包括12个站点数据集,每个数据集包括了35064个时间数据,共有(35064*12)个样本。
变量包括:PM2.5、PM10、SO2(⼆氧化硫)、NO2(⼆氧化氮)、CO(⼀氧化碳)、O3(臭氧)为空⽓污染物;剩余变
arm7开发板量TEMP(温度)、PRES(⼤⽓压)、DEWP(露点温度)、RAIN(降⾬量)、WD(风向)、WSPM(风速)天⽓情况。
站点包括:万寿西宫(西城区)、官园(西城区)、万柳(海淀区)、天坛(东城区)、农展馆(朝阳区)、奥体中⼼(朝阳区)、怀柔、古城(顺义区)、顺义、东寺(平⾕区)、定陵(昌平区)、昌平共⼗⼆个,其地理位置分布如下:
⼆、研究问题⼀
(⼀)研究问题
将SO2、NO2、CO、O3、TEMP(温度)、PRES(⼤⽓压)、DEWP(露点温度)、RAIN(降⾬量)、WD(风向)、WSPM(风速)作为解释变量,Y作为被解释变量,以预测误差最⼩为原则,选择最优多元回归模型。
(⼆)研究⽅法
污染物扩散模型多元回归
(三)研究步骤
1.数据集选择
由于该数据集有北京12个观测点的完整时间数据,以下以PM2.5为例绘制出PM2.5分布的盒图和⼩提琴图,并按照均值从从低到⾼排列,发现12个观测点PM2.5的分布基本相似,以下选择其中⼀个地区奥体中⼼的数据集进⾏分析。
2.数据可视化
在进⾏定量建模之前,先绘制图像对变量分布和变量之间的相关关系进⾏直观感受与定性分析。
观察SO2、NO2、CO和O3这四种污染物分别与PM2.5的相关关系:
可以看出PM2.5随着CO、NO2浓度的上升⽽呈线性上升趋势,O3和SO2和PM2.5的线性关系没有那么强烈。接下来考虑⽓温、压强、露点温度、降⾬量与被解释变量PM2.5的关系:
从图中可以看出⽓温、压强、露点温度、降⾬量和PM2.5的相关性更弱,但具体会对PM2.5的预测有怎样的效果,需要在回归模型中进⼀步分析。
最后考虑风速和风向与被解释变量PM2.5的关系:
在第⼀幅图可以看中,图例从上到下以PM2.5均值⼤⼩排序,可以看出西北⽅向的风PM2.5峰度⾼且整体分布靠左,东南⽅向的风峰度低⽽整体分布靠右,也就是PM2.5值整体偏⼤;风速和PM2.5的线性相关关系不是很明显。
3.回归分析(以奥体中⼼为例)
(1)前期准备
① 对待选⼊模型的变量进⾏平稳性检验,防⽌出现伪回归,使⽤ADF单位根检验,拒绝原假设,不存在单位根,序列平稳。
② 对所选的“奥体中⼼”数据做删失处理,由于数据量⾜够多,直接删除带有缺失值的⾏。
(2)变量选择:
先做全变量回归,发现有⼤量变量存在系数t检验结果不显著,并且存在VIF值较⾼的变量,需要进⾏变量选择,这⾥尝试了两种变量选择的⽅法,两种⽅法筛选出的变量相同。
① 根据BIC准则做逐步回归,依次从全模型剔除变量,直⾄BIC值最⼩。
② 利⽤10折交叉验证,将数据根据被解释变量均匀分为10份,每⼀份分别当作测试集,计算利⽤10个训练集训练出的模型在相应测试集上的MSE并取平均,建⽴循环寻使得交叉验证所得MSE平均值最⼩的变量组合,即预测效果最好的变量组合。
(3)回归结果:
极早期烟雾探测器
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)232.81225064.033810  3.6360.000278***
SO20.4639880.01917924.192<2e-16***
NO20.7106020.01593144.605<2e-16***
压线板CO0.0359090.00044081.608<2e-16***
O30.2492230.00915927.211<2e-16***
TEMP-1.1545380.086582-13.335<2e-16***
PRES-0.2550640.062654-4.071  4.7e-05***
DEWP  1.6124180.06115726.365<2e-16***
RAIN-1.6051670.413330-3.8830.000103*** Estimate Std. Error t value Pr(>|t|)
WSPM  5.1170950.37811413.533<2e-16*** wdENE-3.069006  1.125061-2.7280.006382** wdN  3.0
49390  1.506081  2.0250.042913* wdNNW  4.275978  1.719299  2.4870.012891* wdSE  5.081616  1.756569  2.8930.003822** wdSSE  4.561950  2.014055  2.2650.023523* wdSSW  3.442118  1.493166  2.3050.021165* wdW-5.690030  1.895453-3.0020.002687** wdWSW-3.425869  1.428746-2.3980.016505*
Residual standard error42.81 on 15891 degrees of freedom
Multiple R-squared0.7164
Adjusted R-squared0.7161
F-statistic2361 on 17 and 15891 DF
p-value< 2.2e-16
(4)模型检验:
a. 独⽴性检验:拒绝原假设rho==0,认为随机扰动项存在⾃相关;
b. 线性性检验:由图可以看出RAIN不是线性的;推拉活动护栏

本文发布于:2024-09-22 09:38:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/179046.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   数据   分布   分析   模型   回归   时间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议