时间序列预测的评估指标补遗

本⽂链接： | |

在⼀⽂中，我们介绍了⼀些时间序列点预测中常⽤的指标。⽽通过在、和等⽂中的探讨，我们已经看到，将需求预测的⽅式从点预测改为概率分布预测，可以有效降低库存管理的风险，获得更⼤的期望收益。针对时间序列的概率分布预测，我们也已经介绍了、等若⼲深度学习模型。那么，该如何评估概率分布预测的效果呢？在⼀⽂中，我们已经介绍了⼀些通⽤的概率预测的评估指标。在本⽂中，我们再补充介绍⼏个适⽤于时间序列的概率预测评估指标。

1. Quantile Loss

在⼀⽂中，我们证明了以最⼩化分位数损失作为训练⽬标，可以得到分位数预测模型。其实反过来看，分位数损失也可以作为概率分布预测的评估指标。

⽤表⽰时刻的真实值，⽤表⽰概率分布预测给出的时刻的分位数，总共预测步，我们定义 Quantile Loss 为在此基础上定义 weighted Quantile Loss 为

不难发现取时

wMAPE 是在销量点预测中常⽤的评估指标，现在我们知道它可以看作分位数损失的⼀个特例，或者反过来说，分位数损失可以看作

wMAPE 的泛化。因此，选择分位数损失作为概率分布预测的评估指标还有⼀个额外的好处，就是可以把点预测和概率分布预测的评估统⼀起来。

2. Coverage

沿⽤上⾯的符号，我们定义 Coverage 指标为

也就是在步预测中，真实值⼩于等于预测的分位数的⽐例。直观上来看，如果预测得越准，这个⽐例应该越接近。Z t t Z

^t ρ

t ρh QL =ρ2(−t =1∑h Z ^t ρZ )ρI −(1−ρ)I t ({>Z }Z ^t ρt {≤Z }Z ^t ρt )wQL =ρZ t =1∑h t

QL ρρ=0.5wQL =

0.5≡Z ∑t =1h t ∣−Z ∣∑t =1h Z ^t 0.5t wMAPE C =ρI h 1t =1∑h

牛蒡去皮机

{≥Z }Z ^t ρ

t h Z t ρZ ^t ρ

事实上

因此，，则。这个指标的优势是⾮常直观。我们可以取多个，分别计算，然后作图，如果越靠近直线，说明预测越准。3. MSIS (Mean Scaled Interval Score)

这是 M4 ⽐赛的指标之⼀，⽤来评估预测区间的好坏。其定义为

其中是显著性⽔平，和是预测区间的上界和下界。举例来说，我们给出了 95% 预测区间的上下界，此时。我们先看分⼦，第⼀项惩罚的是上下界之间的间隔，第⼆项惩罚的是真实值低于下界的情况，第三项惩罚的是真实值⾼于上界的情况。单看分⼦很好理解，直观上就是要⽤尽可能窄的区间把真实值“包”进去。

那么分母是个什么玩意⼉呢？它实际上借鉴⾃点预测的⼀种评估指标，MASE (Mean Absolute Scaled Error)。

MASE 实际上是⽤测试集上的 MAE 除以⼀个 Na ïve 预测模型在训练集上的 MAE。所谓的 Na ïve 模型，有两种情况，对于⾮周期性序

列，则预测；对于周期性序列，设周期为，则预测。MASE 的意义在于，所有的模型都来跟 Na ïve 模型⽐⼀⽐，看看能⽐它好出多少。

总之需要注意的是，MASE 和 MSIS 的分母是⽤训练集来计算的。

4. CRPS (Continuous Ranked Probability Score)

这个指标我们在中已经介绍过了，它也是概率预测中使⽤最⼴泛的指标之⼀，它的定义如下：

其中是预测分布的 CDF，是观测值的 CDF。由定义可知，CRPS 衡量的是预测分布和真实分布的差异，当预测分布与真实分布完全⼀致时，CRPS 为零。预测分布过于集中、过于分散，亦或是偏离观测值太远都会导致 CRPS 增⼤。

黑猎蝽

E I {Z ≥Z }ρ=I f (z )d z ∫−∞{Z ≥z }ρ=f (z )d z

∫−∞Z ρ

=F (Z )

ρ=ρ

→Z

^t ρZ t ρ

C →ρρρC ρC −ρρy =x MSIS =∣Z −Z ∣

玻璃升降器电路图n −m 1∑t =m +1n t t −m (−)+(−Z )I +(Z −)I h 1∑t =1h U ^t L ^t α2L ^t t {Z <}t L ^t α2t U

^t {Z >}t U ^t αU

^L ^α=0.05MASE =∣Z −Z ∣

n −m 1∑t =m +1n t t −m ∣−Z ∣h

1∑t =1h Z ^t t =Z

^t +1∣t Z t m =Z ^t +1∣t Z t −m CRPS (F ,F )=f o F (x )−F (x )d x ∫−∞+∞

[f o ]2

奖章制作

热再生F f F o

问题在于，在我们的场景下，每天的销量只会发⽣⼀次——我们不能看到某⼀件商品在多元宇宙中的销量——⽆法给出观测值的 CDF。这种情况下，可以⽤下⾯的式⼦来估算

其中

为单位阶跃函数。

前⾯已经提到分位数损失可以看作 wMAPE 的泛化。事实上，这种定义下的 CRPS 也可以看作是点预测中常见的 MAE 指标的泛化，这也

是为什么我们要在这⾥炒冷饭。如果我们输出的仅仅是⼀个点预测，则它的 CDF 也只能使⽤单位阶跃函数近似为。代⼊到 CRPS 的定义中，可以发现

CRPS 评估的是分布整体的情况，⽽不是某个分位数，这是它的优势。这也意味着模型必需能够输出累积分布函数。与分位数损失类似，CRPS 也可以将点预测和概率分布预测的评估统⼀起来，但是 MAE 并不像 wMAPE 应⽤得那么频繁。

参考⽂献

1. Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks[J].

International Journal of Forecasting, 2019.

3. CRPS =F (x )−ϵ(x −Z )d x h 1t =1∑h ∫−∞∞

[t t ]2ϵ(t )={0,

t <01,t ≥0

碎片文件^t F (x )=t ϵ(x −)Z ^t CRPS =ϵ(x −)−ϵ(x −Z )d x h 1t =1∑∫−∞∞

^t t ]2=1d x h 1t =1∑h ∫min(,Z )Z

^t t ma x(,Z )Z ^t t 2=∣−Z ∣h 1t =1∑h Z

^t t ≡MAE

本文发布于:2024-09-20 22:22:58，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/124430.html

上一篇：绿盟远程安全评估系统安全基线管理系列产品白皮书

下一篇：软件行业如何进行知识产权保护

标签：预测评估概率分布分布指标位数

留言与评论（共有 0 条评论）