多级小波分解网络:可解释的时间序列分析

多级⼩波分解⽹络:可解释的时间序列分析
初中学法指导⽂章信息
本周阅读的论⽂是题⽬为《Multilevel Wavelet Decomposition Network for Interpretable Time Series Analysis》的⼀篇2018年发表在《Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》上的涉及时间序列数据预测的⽂章。
摘要
近年来,时间序列应⽤在⼏乎所有的学术和⼯业领域都出现了前所未有的崛起。各种类型的深度神经⽹络模型被引⼊到时间序列分析中,但对重要的频率信息还缺乏有效的建模。基于此,⽂章提出了⼀种基于⼩波的神经⽹络结构,称为多级⼩波分解⽹络( multilevel Wavelet Decomposition network, mWDN ),⽤于建⽴时间序列分析的频率感知深度学习模型。mWDN模型保留了多级离散⼩波分解在连续学习中的优势,同时可以在深度神经⽹络框架下对所有参数进⾏调整。在mWDN的基础上,进⼀步提出了两种⽤于时间序列分类和预测的深度学习模型:残差分类( Residual Classification Flow, RCF )和多频长短时记忆( multi-frequency Long Short-Term Memory, mLSTM )。这两种模型以不同频率的mWDN分解的全部或部分⼦序列作为输⼊,通过反向传播算法在全局学习所有的参数,使得基于⼩波的频率分析能够⽆缝嵌⼊到深度学习框架中。在40个UCR数据集和真实⽤户量数据集上的⼤量实验表明,基于mWDN的时
间序列模型具有良好的性能。特别的,⽂章提出的⼀种基于mWDN模型的重要性分析⽅法,该⽅法成功地识别出了对时间序列分析⾄关重要的时间序列元素和mWDN层。这实际上说明了mWDN的可解释性优势,可以看作是对可解释性深度学习的⼀次深⼊探索。
介绍
近年来,伴随着深度学习领域的飞速发展,不同类型的深度神经⽹络模型被应⽤于时间序列处理分析⽅⾯并在实际⽣活中取得了满意的效果,例如循环神经⽹络(RNN),使⽤记忆节点来捕捉序列节点的相关性,但⼤部分的这些模型都没有利⽤时间序列的频率信息。
⼩波分解是⼀种在时域和频域上刻画时间序列特征的常⽤⽅法。只管来说,可以将它作为特征提取⼯具,⽤于深度模型建模前的数据预处理。虽然这种松散的耦合⽅式可能会提⾼原始神经⽹络模型的预测性能,但没有采⽤独⽴的参数推理过程进⾏全局优化。如何将⼩波分解整合到深度学习模型中仍然具有挑战性。
这篇⽂章提出了⼀个基于⼩波分解的神经⽹络模型,叫做多级⼩波分解⽹络(mWDN),为时间序列分析搭建了频率感知的深度学习模型。与标准的多级离散⼩波分解模型(MDWD)相似,mWDN模型可以将⼀个时间序列分解为⼀组频率由⾼到低的⼦序列,这是模型获得频率因⼦的关键。但与参数固定的MDWD模型不同,mWDN中的所有参数都可以进⾏学习,以适应不同学习任务的训练数据。也就
说,mWDN模型既可以利⽤⼩波分解对时间序列进⾏分析,⼜可以利⽤深度神经⽹络的学习能⼒学习参数。
氧化锡
基于mWDN,⽂章设计了两种分别⽤于时间序列分类(TSC)和时间序列预测(TSF)的深度学习模型,即Residual Classification
Flow(RCF)和multi-frequency Long Short-Term Memory(mLSTM)。其中TSC的关键问题是从时间序列数据中尽可能提取代表性特征,因此RCF模型采⽤mWDN不同层级的分解结果作为输⼊,采⽤残差学习⽅法和分类器堆栈的⽅式挖掘隐藏在⼦序列中的特征。⾄于TSF问题,其关键在于根据不同频率下的隐藏趋势推断时间序列数据的未来状态。因此,mLSTM模型将所有由mWDN分解得到的⾼频⼦序列数据分别放⼊独⽴的LSTM模型中,并将所有LSTM模型的输出进⾏整合进⾏最终预测。值得注意的是RCF和mLSTM模型的所有参数,包括mWDN的参数都是使⽤端对端的反向传播算法进⾏训练的。通过这种⽅式,基于⼩波的频率分析可以⽆缝的嵌⼊到深度学习模型中。
tl模型
1. Multi-level Discrete Wavelet Decomposition
多级离散⼩波分解(如图1)是⼀种基于⼩波变换的离散信号分析⽅法,该⽅法通过对时间序列进⾏分解,将时间序列逐级分为低频和⾼频⼦序列,从⽽提取多级时间-频率特征。
以时间序列为例,分解得到的第i层的低频和⾼频⼦序列分别以和表⽰。在第i+1层,MDWD使⽤⼀个低频滤波和⼀个⾼频滤波,对上⼀层的低频⼦序列进⾏卷积操作,如下所⽰:
其中,表⽰第i层中低频率⼦序列的第n个元素,并且被设置为输⼊的序列。第i层的低频和⾼频⼦序列和是由中间变量
序列和进⾏⼆分之⼀的下采样获得。
⼦序列被成为时间序列数据X的第i层分解结果。特别的,该序列满⾜:1)可以由⼦序列完整重建原始序列X;2)不同层级的序列具有不同的时间和频率分辨率。随着层级的增加,频率分辨率不断增加,⽽时间分辨率,特别是低频⼦序列的时间分辨率不断减⼩。
图1 mWDN模型框架
2. Multi-level Wavelet Decomposition Network
图⼀为mWDN模型的构架图。正如图⽚中所⽰,mWDN模型依照以下两个公式分层次分解时间序列数据:
表⽰sigmoid激活函数,和分别是可训练的偏差矩阵,其初始为接近零的随机数值。可以看出来,公式(2)中的⽅程与公式(1)中的⽅程⾮常相似。和分别表⽰时间序列X在第i层级分解⽣成的低频和⾼频⼦序列,这是由中间变量和通过平均
池化进⾏下采样所获得:。
为了实现公式(1)的卷积操作,我们设置了初始化的权重矩阵和如下:
很明显的,和,其中P是的尺⼨⼤⼩。权重矩阵中的是满⾜和的随机值。⽂章在模型中使⽤Daubechies 4 ⼩波系数,其滤波器系数如下:
由公式(2)到公式(3),⽂章使⽤深度神经⽹络框架实现近似的MDWD模型。值得注意的,虽然权
重矩阵初始化为MDWD模型的滤波器系数,但仍然可以根据真实数据的扰动对矩阵进⾏训练。
3. Residual Classification Flow
TRC任务主要是对未知类别标签的时间序列进⾏预测分类。其关键是从时间序列数据中提取出明显的特征。由mWDN模型分解得到的⾃然时间频率特征X可以应⽤到TSC。在该部分,⽂章提出了Residual Classification Flow(RCF)⽹络去挖掘mWDN在TSC任务中的潜在应⽤。
图2 RCF模型框架
RCF模型的框架如图2所⽰,包含了许多独⽴的分类器。RCF模型通过前向神经⽹络将第i层mWDN⽣成的⼦序列和连接在⼀起:
可以表⽰为⼀个多层感知机,或者⼀个卷积神经⽹络,⼜或者其他类型的神经⽹络,并且代表可训练参数。另外,RCF模型采⽤了残差⽹络结构将和所有分类器进⾏连接:
超级电容器表⽰softmax分类器,表⽰时间序列的类别标签的one-hot编码预测值。RCF模型对各层级mWDN的分解结果进⾏演化。因为在不同mWDN层级的分解结果有不同的时间和频率分辨率,所以RCF模型可以充分捕捉不同时间和频率分辨率的输⼊时间序列的模式。换句话说,RCF采⽤了⼀种多视图学习⽅法来实现⾼性能的时间序列分类。
此外,深度残差⽹络被提出来以解决在使⽤更深层次的⽹络结构可能导致训练困难的问题。RCF也继承了这个优点。在式(6)中,第i层级的分类器基于和第i-1层级分类器的决策做出决策。因此,⽤户可以追加残差分类器直到模型的分类性能不再提⾼。
4. Multi-frequency Long Short-Term Memory
⽂章提出了基于mWDN多频率的长短时记忆神经⽹络解决TSF问题。mLSTM模型的设计是基于对时间序列中隐藏节点的时间相关性与频率密切相关的认知。例如,⼤尺度的时间相关性,如长时趋势通常处于低频,⽽⼩尺度的时间相关性,如短期⼲扰和事件则通常处于⾼频。因此⽂章把复杂的TSF问
题划分成许多⼦问题来预测由mWDN分解得到的⼦序列,这将会使问题相对更简单,因为⼦序列的频率组成更加简化。
给定⼀个⽆限长度的时间序列,在该序列上给出⼀个从过去到时刻t且⼤⼩为T的滑动窗⼝如下:
使⽤mWDN分解X从⽽获得第i层级的低频和⾼频序列数据如下:
14cr1mor
如图3所⽰,mLSTM模型使⽤最后⼀层的分解结果,即⼦序列
作为N+1个独⽴的LSTM⼦⽹络的输⼊。每个⼦LSTM⽹络预测中每个⼦序列的未来状态。最后,通过⼀个全连接神经⽹络将各个⼦LSTM⽹络的预测值融合在⼀起得到最终预测结果。
图3 mLSTM框架
实验
在这部分,⽂章评估了基于mWDN的模型在解决TSC和TSF问题时的性能。
(1)Task 1: Time Series Classification
实验设置:在UCR时间序列库的40个数据集上,对不同的模型的分类性能进⾏了测试,主要模型如下:
RNN和LSTM:循环神经⽹络和长短时记忆神经⽹络是两种经典的深度神经⽹络模型,⼴泛应⽤于时间序列分析。
MLP, FCN, and ResNet:这三种模型被提出作为强有⼒的baselines⽤于UCR时间序列库。他们有相同的框架:⼀层输⼊层,紧接着三个隐藏偏差块,最后以⼀个softmax激活函数作为输出层。MLP采⽤⼀个全连接层作为它的偏差块,FCN和ResNet则分别采⽤⼀个卷积层和残差卷积⽹络作为它们的偏差块。
MLP-RCF, FCN-RCF and ResNet-RCF:这三个模型使⽤MLP/FCN/ResNet的偏差块作为公式(5)RCF模型中的。我们⽐较了RCF模型和MLP/FCN/ResNet的分类效果以验证RCF的有效性。
Wavelet-RCF:该模型与ResNet-RCF模型有着相同的结果,但使⽤mWDN部分替换了使⽤固定参数的标准MDWD。我们⽐较了它和ResNet-RCF模型以验证mWDM中可训练参数的有效性。
对于每个数据集来说,我们每个模型都跑了⼗次,将返回的平均分类误差作为评价指标。为了⽐较所有数据集上的表现性能,⽂章进⼀步提出了Mean Per-Class Error(MPCE)作为每个模型的评价指标。令为第k个数据集的类别数,表⽰每个模型在该数据集上的错误率,则每个模型的MPCE计算如下所⽰:
注意,类别数量的因⼦在MPCE中被抹去。MPCE其取值越⼩,整体性能越好。
结果&分析:表1展⽰了实验结果,总结信息列在了下⾯两⾏。注意,每个数据集中最好的表现⽤⿊体加粗表⽰出来,第⼆好的则⽤斜体表⽰出来。在所有baselines中,FCN-RCF取得了最棒的表现,有最⼩的MACE值,并且在40个数据集中取得了19个数据集的最好表现。⽽FCN也取得了⽐较满意的表现,其在9个数据集上的表现最优,并且有⽐较⼩的MPCE:0.023,但与FCM-RCF的差距还是⽐较⼤。由表格1还可以看出,MLP-RCF在37个数据集上的表现都要优于MLP,ResNet-RCF在27个数据集上的表现要优于ResNet。这表明RCF框架确实是⼀个可以兼容不同类型深度学习分类器的通⽤框架,能够显著提升TSC任务的分类性能。
另外,表格1表明Wavelet-RCF在MPCE和AVG排名上取得了第⼆好的表现性能,这说明由⼩波分解得到的频率信息对时间序列问题⾮常有帮助。另外,从表中可以清楚看出ResNet-RCF模型在⼤多数据集上的性能优于Wavelet-RCF,这有⼒的证明了我们的RCF框架在深度学习下采⽤参数可训练的mWDN,⽽不直接使⽤传统的⼩波分解作为特征提取⼯具的优势。从技术上更准确的讲,与Wavelet-RCF相⽐,基于mWND的ResNet-RCF模型可以在频域先验和训练数据可能性间取得⼀个较好的权衡。这也很好解释了为什么基于RCF的模型可以取得更好的预测结果在先前的实验观察中。
免疫逃逸表1 Comparison of Classification Performance on 40 UCR Time Series Datasets
(2)TaskⅡ: Time Series Forecasting
实验设置:⽂章测试了mLSTM模型对⼀个访问量预测场景的预测能⼒。实验采⽤了⼀个名为WuxiCellPhone的真实数据集,该数据集包含了位于⽆锡市中⼼的20个⼿机在两周内的⽤户量时间序列数据,⽤户量时间序列的统计时间粒度是5min。该实验,选择了以下的模型作为baselines:
SAE (Stacked Auto-Encoders),被⼴泛应⽤于各种TSF任务中;
RNN (Recurrent Neural Networks) 和 LSTM (Long Short-Term Memory),专门为时间序列分析所提出的模型;
wLSTM,与mLSTM有相同的结构,但将mWDM部分替换成标准的MDWD。
这部分使⽤了常⽤的两个指标去评估模型的表现性能,包括Mean Absolute Percentage Error (MAPE) 和 Root Mean Square Error (RMSE),具体定义如下:
结果&分析:我们⽐较了在两个TSF场景下(具体场景可以查阅原⽂)所有模型的表现性能。在第⼀
个场景,⽂章预测了在⼦序列期间的平均⽤户数,时段的长度由5到30分钟不定。图4⽐较了⼀个星期内20个的平均表现性能。从图⽚可以发现,尽管随着时间长度增加,所有模型的预测误差逐渐变⼩,但mLSTM还是取得了最好的表现。具体来说,mLSTM模型始终优于wLSTM模型,再次验证了mWDN⽤于时间序列预测的可⾏性。

本文发布于:2024-09-22 03:44:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/435878.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   模型   时间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议