融合图卷积神经网络和注意力机制的PM2.5小时浓度多步预测

浙江大学学报(理学版)
Journal of Zhejiang University (Science Edition )
http ://www.zjujournals/sci
第48卷第1期2021年1月
Vol.48No.1
Jan.2021
融合图卷积神经网络和注意力机制的
PM 2.5小时浓度多步预测
傅颖颖1,2,张丰1,2*,杜震洪1,2,刘仁义1,
2
(1.浙江大学浙江省资源与环境信息系统重点实验室,浙江杭州310028;2.浙江大学地理信息科学研究所,
浙江杭州310027)
要:PM 2.5小时浓度多为单步预测。为实现PM 2.5小时浓度的多步预测,基于“编码器-解码器”的序列-序列
预测(Seq2Seq )模型,集合图卷积神经网络提取非欧式空间数据特征的能力以及注意力机制自适应关注特征的能力,提出了融合图卷积神经网络和注意力机制的PM 2.5小时浓度多步预测(GCN_Attention_Seq2Seq )模型。并与Seq2Seq 模型和使用了图卷积神经网络、未使用注意力机制的GCN_Seq2Seq 模型进行了对照,以2015—2016年北京市22个空气质量监测站点的空气质量数据为样本进行实例验证,结果表明,Seq2Seq 模型和图卷积神经网络(GCN )可对PM 2.5小时浓度数据的时空依赖进行有效建模,注意力机制有助于减缓多步预测中的预测精度衰减,提升PM 2.5小时浓度多步预测的精度。GCN_Attention_Seq2Seq 模型可有效应用于多种长度的PM 2.5浓度预测窗口。关
词:PM 2.5小时浓度多步预测;图卷积;注意力机制;深度学习
中图分类号:P208
文献标志码:A
重庆都市快轨
文章编号:1008⁃9497(2021)01⁃074⁃10
FU Yingying 1,2,ZHANG Feng 1,2,DU Zhenhong 1,2,LIU Renyi 1,2(1.Zhejiang Provincial Key Lab of GIS ,Zhejiang University ,Hangzhou 310028,China ;2.Department of Geographic Information Science ,Zhejiang University ,Hangzhou 310027,China )
Multi-step prediction of PM 2.5hourly concentration by fusing graph convolution neural network and attention mechanism .Journal of Zhejiang University (Science Edition),2021,48(1):74⁃83
Abstract :The current studies about PM 2.5hourly concentration prediction are mostly on single -step prediction.In order to achieve accurate prediction of PM 2.5hourly concentration at multiple moments in a single prediction task,this article proposes a multi -step prediction model of PM 2.5hourly concentration based on graph convolution neural network and attention mechanism,which is named GCN_Attention_Seq2Seq.The model based on Seq2Seq is able to extract the features of non -eucli
华丰煤矿吧dean spatial data meantime pays attention to features adaptively.We take air quality data of 22monitoring stations in Beijing from January 1st,2015to December 29th,2016as samples and compare GCN_Attention_Seq2Seq with GCN_Seq2Seq and Seq2Seq model.Results show that Seq2Seq and GCN can model spatio -temporal dependence effectively and the attention mechanism is helpful to improve the prediction accuracy and slow down the prediction accuracy decline in multi -step prediction,it indicates that the GCN_Attention_Seq2Seq model can be effectively applied to multi -step prediction of PM 2.5concentration.
Key Words :multi -step prediction of PM 2.5hourly concentration;graph convolution;attention mechanism;deep learning
DOI :10.3785/j.issn.1008-9497.2021.01.011
收稿日期:2019⁃10⁃17.
基金项目:国家重点研发计划项目(2018YFB0505000);国家自然科学基金资助项目(41871287).作者简介:傅颖颖(1995—),ORCID :http :///0000-0002-2543-1558,女,硕士研究生,主要从事时空大数据挖掘研究.*通信作者,ORCID :http :///0000-0003-1475-8480,E -mail :
*******************.
傅颖颖,等:融合图卷积神经网络和注意力机制的PM2.5小时浓度多步预测第1期
2013年,我国遭遇有观测记录以来最严重的雾霾天气[1],污染最严重的京津冀地区日均PM2.5浓度高达500μg·m-3,严重影响了人们的生产生活和身体健康。研究表明,当PM2.5浓度超过115μg·m-3时,身体将感到严重不适[2]。因此,利用历史数据高效准确地预测未来的PM2.5浓度,具有重大的现实意义。
目前,根据PM2.5浓度预测模型类别可将其分为化学机理模型、时空分析模型和深度学习神经网络模型3种。ZHANG等[3]采取“气象化学+传输机制”组合对PM2.5浓度进行在线实时预测;徐文等[4]运用时空自回归移动平均模型预测我国华北地区的日均PM2.5浓度;范竣翔等[5]使用循环神经网络模型,基于过去48h的空气质量和气象数据预测未来1h的PM2.5浓度;黄婕等[6]将我国大陆地区的空气质量监测站点数据处理成时序数据,将Stacking集成策略与卷积神经网络和循环神经网络相融合,预测未来1h的PM2.5浓度。
然而,上述研究都局限于PM2.5浓度的单步预测,即利用历史PM2.5浓度序列预测未来某时段的PM2.5浓度,尚未有研究开展对PM2.5浓度的多步预测。目前对多步预测的研究主要集中在自然语言处理领域和工业领域,例如,在自然语言处理领域,“编码器-解码器”的序列-序列(Seq2Seq)预测模
型已广泛应用于机器翻译,为提高机器翻译的精度,文献[7]提出了注意力机制模型;在工业领域,CHEN 等[8]考虑规则风电网中风速的时空相关性,结合卷积神经网络和双向门控循环单元,实现了风速的多步预测;GUO等[9]将全注意力机制应用于时间序列,预测未来分钟级时间窗内秒级的网络流量。但上述研究均未涉及非欧式空间数据及其特征提取。
根据已有研究,针对PM2.5小时浓度多步预测问题,本文以自然语言处理领域中的Seq2Seq预测模型为基础,集合图卷积神经网络提取非欧式空间数据特征的能力以及注意力机制自适应关注特征的能力,提出了融合图卷积神经网络和注意力机制的PM2.5小时浓度多步预测模型,旨在一次性准确预测未来连续多个时间步的PM2.5浓度。通过实验,验证和分析了模型的有效性和优越性。
1PM
2.5小时浓度多步预测方法
1.1问题描述
PM2.5小时浓度多步预测问题本质上是利用一个时间序列预测另一个时间序列的问题,即利用历史M个连续时间步的PM2.5浓度数据,预测未来N 个连续时间步的PM2.5浓度,通过观测窗口x obs= [x t-M+1,…,x t]对预测窗口x pre=[x t+1,…,x t+N]进行预测,PM2.5小时浓度多步预测示意如图1所示。
每个空气质量监测站点都有各自的时间序列,可将某一时刻所有空气质量监测站点的PM2.5浓度数据的空间分布抽象成一张无向拓扑图。先提取该站点每个时间步上的空间特征,形成空间特征时间序列,再对基于空间特征时序依赖关系的时间序列解码,得到目标PM2.5浓度序列。
1.2PM
2.5小时浓度时空相关性分析
通过单位根检验(ADF)和全局空间自相关分析,简要说明PM2.5小时浓度的时空关联性。
用ADF对北京市2015—2016年的PM2.5小时浓度序列进行平稳性检验,实验结果如表1所示。假设序列存在单位根,ADF得到的统计检验值为-13.0573,小于99%,95%,90%3种置信区间的临界值,且p值接近于0,因此拒绝原假设。也就是说,从研究时间范围看,PM2.5小时浓度序列是平稳的,PM2.5小时浓度数据的历史和现状具有代表性和可延续性。
将北京市2015—2016年22个空气质量监测站点的PM2.5小时浓度数据按照春季(3—5月)、夏季(6—8月)、秋季(9—11月)、冬季(12—次年2月)划分,分别汇总得到各监测站点在不同季节的PM2.5小时浓度均值,使用GeoDA软件进行全局空间自相关分析,分析结果以Moran’s I散点图的形式展示,见图2。春、夏、秋、冬4个季节PM2.5小时浓度全局空间自相关Moran’s I分别为0.510,0.611,
0.601,0.469,各季节北京市PM2.5小时浓度均呈较高的空间自相关性,空间集聚特征显著,其中春、冬两季的空间自相关性较弱,夏、秋两季的空间自相关性较强。
1.3图卷积神经网络
由地理学第一定律[10]及1.2节的空间分析可知,PM2.5
小时浓度在空间上具有相关性。卷积神经
图1PM2.5小时浓度多步预测
Fig.1Multi-step prediction of PM2.5hourly concentrations
表1PM2.5小时浓度序列单位根检验结果
Table1ADF results of PM2.5hourly concentrations
ADF
-13.0573
1%
-3.4307
5%
-2.8617
10%
-2.5669
p值
2.0821×10-24
75
浙江大学学报(理学版)第48卷
网络(convolutional neural network ,CNN )是包含卷积计算且具有深度结构的前馈神经网络
[11]
,其实质
是在规则矩阵上平移共享参数的过滤器,同时计算中心像素点与相邻像素点的加权和,从而实现空间特征的提取,其核心是平移不变性。然而,在进行空间特征提取时,由于PM 2.5小时浓度来自空气质
量监测站点的记录数据,每个监测站点邻近的站点数不一定相同,无法保证平移不变性,因此,无法直接使用CNN 提取空间特征。考虑某一时刻所有监测站点的PM 2.5小时浓度数据的空间分布可以被抽象成一张无向拓扑图,因此,本文选择图卷积神经网络,以有效提取拓扑图数据结构的空间特征。
将某时刻S 个空气质量监测站点的PM 2.5小时浓度数据的空间分布抽象为一张空间图,记为G =(V ,E ,A ),其中,V ∈R S ×P 为点集,P 为每个站点的属性维度;E ∈R S ×S 为边集,表示各站点之间的连通性;A ∈R S ×S 为G 的空间邻接矩阵,元素A ij 表征图节点v i
和v j 之间的相对空间关系。基于站点之间的空间距离构建邻接矩阵A 。若站点v i 的地理坐标为(lon i ,lat i ),
i ∈[0,S ),则站点v i 和站点v j 的空间距离为d ij =
(lon i -lon j )2+(lat i -lat j )2×111,(1)
A ij =
{
1
d ij ,i ≠j ,0,其他。
(2)
G 中每个站点都会产生采样频率一致的污染物浓度序列数据,由此组成图序列数据,见图3。
图卷积操作发生在空间维度,首先只考虑一个时间片上的空间图G 。图卷积神经网络层接受某时间片上的G ,通过某种卷积操作提取空间特征,然后,将G 中每个节点的原始特征转化为具有各自空间特征的隐层。由于图数据无法保持平移不变,因此,与卷积神经网络类似,用过滤器在空域上进行特
征提取显得极为不便。图卷积神经网络提取特征最常用的是图谱理论方法[12],傅里叶变换可从空域变换至频域求解,通过拉普拉斯矩阵将网格数据中的卷积操作推广至图结构数据[13]。
由于对图信号进行卷积后再做傅里叶变换等于对图信号进行傅里叶变换后的乘积[14],所以图的卷积等价为
g ∗x =F -1{F {f }·F {g }},
日译汉(3)
其中,g 为图过滤器,x 为图信号,*表示卷积,F 和F -1分别为傅里叶变换与逆变换。傅里叶变换与逆
变换的关键是求得基e -2πi t ·v 和基e 2πi v ·t
(其中,v 为频域
中的变量,t 为空域中的变量,i 为虚数单位)。拉普拉斯算子是实对称矩阵,具有良好的性质,如易进行特征分解,且其特征向量是傅里叶变换基[15]。在图G 中,拉普拉斯算子L 可用图的度数矩阵D ∈R S ×S 和邻接矩阵A ∈R S ×S 表示:
D (i ,j )
{
d i ,i =j ,0,其他,
(4)L =D -A ,
(5)
其中,
d i 为节点v i 的度。拉普拉斯算子L 的特征分解式为
L =UΛU T ,
(6)
其中,U T 对应傅里叶变换基e -2πi t ·v ,U 对应傅里叶逆
变换基e 2πi v ·t ,Λ为特征值组成的对角矩阵,记作
Λ=
(
)
θ1
θn
。(7)
又由式(3),图G
的卷积等价为
图2各季节PM 2.5小时浓度的Moran ’s I 散点图
Fig.2
Moran's I scatter plot of PM 2.5hourly concentration in
each
season
图3
空气污染数据时空结构
Fig.3
Spatiotemporal structure of air pollution data
76
傅颖颖,等:融合图卷积神经网络和注意力机制的PM 2.5小时浓度多步预测
第1期
g ∗x =U (U T g ·U T x )。(8)
由式(6),可将U T g 看作参数为L 的函数g (L ),进一步将其看作参数为θ的函数g θ(Λ)。为降低计算复杂度,对g θ(Λ)做切比雪夫多项式的K 阶截断近似[12]:
g ∗x ≈g θ'∗x ≈∑k =0K
θ'k T k (L
)x ,(9)
其中,取K =1,λmax =2,此时可得图卷积的一阶线
性近似:
g ∗x ≈θ'0x +θ'1(L -I N )x =
θ'0x -θ'1D -1
2
AD -12
x ,(10)
令θ=θ'0=-θ'1,记A =A +I N ,D
ii =∑j
A ij
图卷积为
g ∗x ≈θ(D
-1
2A D -1
2)x ,(11)
将θ看作权值,加上激活层,可得最终的图卷积神经网络的前向传播式为
H l =σ(D
-12
A D -12
H l -1W l )。(12)
由于采用的是切比雪夫多项式的一阶近似,图卷积只能建立一阶邻居依赖,若建立K 阶邻居依赖,需堆叠多个图卷积层。本文采用两层图卷积神经网络,前向传播式为
H 1=tanh (D
-1
2
A D -12
H 0W 1),(13)H 2=tanh (D
-12
A D -12
H 1W 2),(14)
其中,
刘国湘H 0为节点集V ,H 2为图卷积神经网络的最终输出特征。神经网络通过反向传播修改参数矩阵W 1
和W 2
,以获得邻接节点的最优特征组合,即提
取站点间的空间关系。1.4
Seq2Seq 预测模型
由于循环神经网络(recurrent neural network ,
RNN )可以很好地关联上下文信息,故常被用于序列数据建模[16]。Seq2Seq 模型,又称编码器-解码器模型,是RNN 的一个重要变种。编码器将输入向量编码成一个长度固定的上下文向量,解码器将上下文向量解码为目标序列。Seq2Seq 模型最常见的结构是用2个RNN 结构充当编码器和解码器,编码器RNN 的最后一个隐状态作为上下文变量[17]。
本文选择门控循环单元(gated recurrent unit ,GRU )作为编码器和解码器。普通RNN 在时间序列较长的情况下易出现梯度消失或梯度爆炸等问题[18],长短期记忆(long short -term memory ,LSTM )神经网络通过引入的3个门函数控制信息传递,以克服长距离记忆消失的问题[19],GRU 为LSTM 网络中一种效果较好的变体,其结构较简单、且容易训练。
图卷积神经网络提取的空间特征组成时间序列矩阵,作为编码器的整体输入,编码器每次接受一个时间步的输入向量,经GRU 门函数,输出该时间步的输出向量和状态向量,然后将状态向量与下一个时间步的输入向量同时输入编码器,循环至输入序列的最后时间步。编码器最终输出的为压缩了输入序
列整体信息的状态向量和输出序列矩阵。输出的状态向量将作为解码器的初始状态向量,而解码器的输入向量在训练阶段和预测阶段有所不同。在训练阶段,采用Teacher Forcing 策略[20],取上一个时间步的真实数据作为当前时间步的输入向量,神经网络将参数快速更新至合适的值;在预测阶段,则将上一个时间步的输出向量作为当前时间步的输入向量,因此不可避免地会产生误差累积,造成预测精度衰减。编码器-解码器模型的工作示意如图4所示。
1.5注意力机制
编码器-解码器模型的缺陷是上下文向量的表
征能力有限,无法包含输入序列的所有信息,从而限制,解码器的解码能力。研究发现,
注意力机制可以
图4
编码器-解码器模型的工作示意
Fig.4
Schematic diagram of encoder -decoder model
77
浙江大学学报(理学版)第48卷
有效缓解序列预测模型中的信息衰减[7]。由于编码器将更多信息分散地保存在每个时间步的输出向量中,注意力机制允许解码器不只依靠上下文向量完成解码,而是在每个时间步上考虑编码器的所有输出向量,通过分配权重,加权求和得到解码器在当前时间步最关注的信息。
注意力机制关注目标序列中某一时间片上的值x t k
与依赖序列x t s
-t e
=[x t s
,…,x t e
]的相关性,相关性
由一组权值a
t k
t s -t e
=[a t k
t s ,…,a t k t e
]表示。目标值x t k
依赖序列x t s
-t e
中的每个元素具有相同的维度d x 。
将x t k
与x t s
-t e
映射到参数空间:
Q =x t k
W Q ,
(15)K =x t s
-t e
W K ,
(16)V =x t s
-t e
结晶氯化铝
W V ,
(17)
其中,
W Q 为d x ×d q 维的Query 参数矩阵,W K 为d x ×d k 维的Key 参数矩阵,W V 为d x ×d v 维的Value 参数矩阵,
d q =d k 。W Q 、W K 、W V 的作用与全连接神经网络中的权重矩阵类似,需要通过反向传播算法更新参数。目标值与Query 参数矩阵相乘使得目标值从d x 维度的x t k
向量映射为d q 维度的Q 向量,同
理,
x t s
-t e
矩阵映射为元素维度为d k 的K 矩阵和元素维度为d v 的V 矩阵。K 与V 都是对依赖序列的另一种表达,区别是K 用于衡量目标值与依赖序列的相关性,即求解权值,V 用于计算权值与依赖序列的加权和,即求解注意力机制的输出。x t k
向量可来自
依赖序列x t s
-t e
,也可来自其他序列,若来自依赖序
列x t s
-t e
,则称该注意力机制为自注意力。
目标值与依赖序列之间的关系为
a
t k名人掌上电脑
t s -t e
=softmax
()
QK T
d k
,(18)
其中,softmax 为深度学习中的softmax 激活函数,将数据归一化(0,1)区间:
softmax (x )=
e x
∑j e j
,(19)
a t k
t s
-t e
为目标值d x 对依赖序列x t s
-t e
中每个时间步的
注意力分配权值,权值越大,相关性越强。
将权值矩阵与依赖序列加权求和,可得注意力向量
Attention=a t k
t s
-t e
V 。
(20)
为提高目标值与依赖序列之间注意力的表达能力,增强注意力的广度和深度,文献[7]进一步提出了多头注意力机制(multi -head attention )概念,即使用H 组(W Q 、W K 、W V )参数矩阵,计算同一组目标值和依
赖序列的H 次注意力机制,得到H 个注意力向量,将H 个注意力向量拼接成一个向量,作为注意力机制的最终输出结果。1.6
融合图卷积神经网络和注意力机制的PM 2.5小时浓度多步预测模型
本文提出的PM 2.5小时浓度多步预测模型可简写为GCN_Attention_Seq2Seq ,由图卷积神经网络、
GRU 编码器和GRU 解码器3部分堆叠而成,其中,GRU 编码器和GRU 解码器与多头注意力机制连接,GRU 解码器内部使用多头自注意力机制以提取待解码时间步的输入与已解码的所有输出间的关系。
图5为处于预测模式的GCN_Attention_Seq2Seq 模型结构,处于训练模式时,解码器每个时间步的输入都由实测值代替。图5说明如下:
①编码器最后一个时间步的输出经过全连接
层得到预测值,该预测值经图卷积操作后作为解码器第一个时间步的输入。
②将编码器最后一个时间步的状态向量作为
解码器的初始状态向量。
图5GCN_Attention_Seq2Seq 模型结构
Fig.5
Model structure of GCN_Attention_Seq2Seq
78

本文发布于:2024-09-21 05:48:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/596248.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:浓度   序列   预测   卷积   神经网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议