日韩AV在线一二三区,插插插视频免费观看

本文鏈接：個人站 | 簡書 | CSDN
版權(quán)聲明：除特別聲明外，本博客文章均采用 BY-NC-SA 許可協(xié)議。轉(zhuǎn)載請注明出處。

在《銷量預(yù)測中的誤差指標(biāo)分析》一文中，我們介紹了一些時間序列點預(yù)測中常用的指標(biāo)。而通過在《為什么需要考慮銷量的隨機性？》、《報童問題》和《報童問題的簡單解法》等文中的探討，我們已經(jīng)看到，將需求預(yù)測的方式從點預(yù)測改為概率分布預(yù)測，可以有效降低庫存管理的風(fēng)險，獲得更大的期望收益。針對時間序列的概率分布預(yù)測，我們也已經(jīng)介紹了 DeepAR、Transformer 等若干深度學(xué)習(xí)模型。那么，該如何評估概率分布預(yù)測的效果呢？在《概率預(yù)測的評估方法簡介》一文中，我們已經(jīng)介紹了一些通用的概率預(yù)測的評估指標(biāo)。在本文中，我們再補充介紹幾個適用于時間序列的概率預(yù)測評估指標(biāo)。

1. Quantile Loss

在《分位數(shù)回歸》一文中，我們證明了以最小化分位數(shù)損失作為訓(xùn)練目標(biāo)，可以得到分位數(shù)預(yù)測模型。其實反過來看，分位數(shù)損失也可以作為概率分布預(yù)測的評估指標(biāo)。

用 $Z_t$ 表示 $t$ 時刻的真實值，用 $\hat Z_t^\rho$ 表示概率分布預(yù)測給出的 $t$ 時刻的 $\rho$ 分位數(shù)，總共預(yù)測 $h$ 步，我們定義 Quantile Loss 為
$QL_\rho = 2\sum_{t=1}^{h}(\hat Z_t^\rho-Z_t)\left(\rho I_{\{\hat Z_t^\rho > Z_t\}} - (1-\rho)I_{\{\hat Z_t^\rho \leq Z_t\}}\right)$
在此基礎(chǔ)上定義 weighted Quantile Loss 為
$wQL_\rho = \frac{QL_\rho}{\sum\limits_{t=1}^h Z_t}$
不難發(fā)現(xiàn)取 $\rho=0.5$ 時
$wQL_{0.5}=\frac{\sum_{t=1}^h|\hat Z_t^{0.5}-Z_t|}{ \sum_{t=1}^h Z_t} \equiv wMAPE$
wMAPE 是在銷量點預(yù)測中常用的評估指標(biāo)，現(xiàn)在我們知道它可以看作分位數(shù)損失的一個特例，或者反過來說，分位數(shù)損失可以看作 wMAPE 的泛化。因此，選擇分位數(shù)損失作為概率分布預(yù)測的評估指標(biāo)還有一個額外的好處，就是可以把點預(yù)測和概率分布預(yù)測的評估統(tǒng)一起來。

2. Coverage

沿用上面的符號，我們定義 Coverage 指標(biāo)為
$C_\rho=\frac{1}{h}\sum_{t=1}^h I_{\{\hat Z_t^\rho \geq Z_t\}}$
也就是在 $h$ 步預(yù)測中，真實值 $Z_t$ 小于等于預(yù)測的 $\rho$ 分位數(shù) $\hat Z_t^\rho$ 的比例。直觀上來看，如果預(yù)測得越準(zhǔn)，這個比例應(yīng)該越接近 $\rho$ 。

事實上
$\begin{aligned} \mathbb E I_{\{Z^\rho \geq Z \}} &= \int_{-\infty}^{+\infty} I_{\{ Z^\rho \geq z\}} f(z)\mathrm dz \\ &= \int_{-\infty}^{Z^\rho} f(z)\mathrm dz \\ &= F(Z^\rho) \\ &= \rho \end{aligned}$
因此， $\hat Z_t^\rho\to Z_t^\rho$ ，則 $C_\rho\to\rho$ 。

這個指標(biāo)的優(yōu)勢是非常直觀。我們可以取多個 $\rho$ ，分別計算 $C_\rho$ ，然后作 $C_\rho-\rho$ 圖，如果越靠近直線 $y=x$ ，說明預(yù)測越準(zhǔn)。

3. MSIS (Mean Scaled Interval Score)

這是 M4 比賽的指標(biāo)之一，用來評估預(yù)測區(qū)間的好壞。其定義為
$MSIS = \frac{\frac{1}{h}\sum_{t=1}^h(\hat U_t-\hat L_t)+\frac{2}{\alpha}(\hat L_t-Z_t)I_{\{Z_t<\hat L_t\}} +\frac{2}{\alpha}(Z_t-\hat U_t)I_{\{Z_t>\hat U_t\}} }{\frac{1}{n-m}\sum_{t=m+1}^n|Z_t-Z_{t-m}|}$
其中 $\alpha$ 是顯著性水平， $\hat U$ 和 $\hat L$ 是預(yù)測區(qū)間的上界和下界。舉例來說，我們給出了 95% 預(yù)測區(qū)間的上下界，此時 $\alpha=0.05$ 。

我們先看分子，第一項懲罰的是上下界之間的間隔，第二項懲罰的是真實值低于下界的情況，第三項懲罰的是真實值高于上界的情況。單看分子很好理解，直觀上就是要用盡可能窄的區(qū)間把真實值“包”進去。

那么分母是個什么玩意兒呢？它實際上借鑒自點預(yù)測的一種評估指標(biāo)，MASE (Mean Absolute Scaled Error)。
$MASE = \frac{\frac{1}{h}\sum_{t=1}^h|\hat Z_t-Z_t|}{\frac{1}{n-m}\sum_{t=m+1}^n|Z_t-Z_{t-m}|}$
MASE 實際上是用測試集上的 MAE 除以一個 Na?ve 預(yù)測模型在訓(xùn)練集上的 MAE。所謂的 Na?ve 模型，有兩種情況，對于非周期性序列，則預(yù)測 $\hat Z_{t+1|t}=Z_t$ ；對于周期性序列，設(shè)周期為 $m$ ，則預(yù)測 $\hat Z_{t+1|t}=Z_{t-m}$ 。MASE 的意義在于，所有的模型都來跟 Na?ve 模型比一比，看看能比它好出多少。

總之需要注意的是，MASE 和 MSIS 的分母是用訓(xùn)練集來計算的。

4. CRPS (Continuous Ranked Probability Score)

這個指標(biāo)我們在《概率預(yù)測的評估方法簡介》中已經(jīng)介紹過了，它也是概率預(yù)測中使用最廣泛的指標(biāo)之一，它的定義如下：
$CRPS(F^f, F^o) = \int_{-\infty}^{+\infty}\left[F^f(x)-F^o(x)\right]^2\mathrm dx$
其中 $F^f$ 是預(yù)測分布的 CDF， $F^o$ 是觀測值的 CDF。由定義可知，CRPS 衡量的是預(yù)測分布和真實分布的差異，當(dāng)預(yù)測分布與真實分布完全一致時，CRPS 為零。預(yù)測分布過于集中、過于分散，亦或是偏離觀測值太遠(yuǎn)都會導(dǎo)致 CRPS 增大。

問題在于，在我們的場景下，每天的銷量只會發(fā)生一次——我們不能看到某一件商品在多元宇宙中的銷量——無法給出觀測值的 CDF。這種情況下，可以用下面的式子來估算
$CRPS = \frac{1}{h}\sum_{t=1}^{h}\int_{-\infty}^{\infty}\left[F_t(x)-\epsilon(x-Z_t)\right]^2\mathrm dx$
其中
$\epsilon(t)= \begin{cases} 0, \qquad t < 0\\ 1, \qquad t\geq 0 \end{cases}$
為單位階躍函數(shù)。

前面已經(jīng)提到分位數(shù)損失可以看作 wMAPE 的泛化。事實上，這種定義下的 CRPS 也可以看作是點預(yù)測中常見的 MAE 指標(biāo)的泛化，這也是為什么我們要在這里炒冷飯。如果我們輸出的僅僅是一個點預(yù)測 $\hat Z_t$ ，則它的 CDF 也只能使用單位階躍函數(shù)近似為 $F_t(x) = \epsilon(x-\hat Z_t)$ 。代入到 CRPS 的定義中，可以發(fā)現(xiàn)
$\begin{aligned} CRPS &= \frac{1}{h}\sum_{t=1}^{h}\int_{-\infty}^{\infty}\left[\epsilon(x-\hat Z_t)-\epsilon(x-Z_t)\right]^2\mathrm dx\\ &= \frac{1}{h}\sum_{t=1}^{h}\int_{\min(\hat Z_t, Z_t)}^{\max(\hat Z_t, Z_t)}1^2\mathrm dx\\ &= \frac{1}{h}\sum_{t=1}^{h}|\hat Z_t - Z_t|\\ &\equiv MAE \end{aligned}$

CRPS 評估的是分布整體的情況，而不是某個分位數(shù)，這是它的優(yōu)勢。這也意味著模型必需能夠輸出累積分布函數(shù)。與分位數(shù)損失類似，CRPS 也可以將點預(yù)測和概率分布預(yù)測的評估統(tǒng)一起來，但是 MAE 并不像 wMAPE 應(yīng)用得那么頻繁。

參考文獻

Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks[J]. International Journal of Forecasting, 2019.
M4 Competitor's Guide
Mean absolute scaled error - Wikipedia

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

時間序列預(yù)測的評估指標(biāo)補遺

時間序列預(yù)測的評估指標(biāo)補遺

1. Quantile Loss

2. Coverage

3. MSIS (Mean Scaled Interval Score)

4. CRPS (Continuous Ranked Probability Score)

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

時間序列預(yù)測的評估指標(biāo)補遺

1. Quantile Loss

2. Coverage

3. MSIS (Mean Scaled Interval Score)

4. CRPS (Continuous Ranked Probability Score)

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av