本文鏈接:個人站 | 簡書 | CSDN
版權(quán)聲明:除特別聲明外,本博客文章均采用 BY-NC-SA 許可協(xié)議。轉(zhuǎn)載請注明出處。
在《銷量預(yù)測中的誤差指標(biāo)分析》一文中,我們介紹了一些時間序列點預(yù)測中常用的指標(biāo)。而通過在《為什么需要考慮銷量的隨機性?》、《報童問題》和《報童問題的簡單解法》等文中的探討,我們已經(jīng)看到,將需求預(yù)測的方式從點預(yù)測改為概率分布預(yù)測,可以有效降低庫存管理的風(fēng)險,獲得更大的期望收益。針對時間序列的概率分布預(yù)測,我們也已經(jīng)介紹了 DeepAR、Transformer 等若干深度學(xué)習(xí)模型。那么,該如何評估概率分布預(yù)測的效果呢?在《概率預(yù)測的評估方法簡介》一文中,我們已經(jīng)介紹了一些通用的概率預(yù)測的評估指標(biāo)。在本文中,我們再補充介紹幾個適用于時間序列的概率預(yù)測評估指標(biāo)。
1. Quantile Loss
在《分位數(shù)回歸》一文中,我們證明了以最小化分位數(shù)損失作為訓(xùn)練目標(biāo),可以得到分位數(shù)預(yù)測模型。其實反過來看,分位數(shù)損失也可以作為概率分布預(yù)測的評估指標(biāo)。
用 表示
時刻的真實值,用
表示概率分布預(yù)測給出的
時刻的
分位數(shù),總共預(yù)測
步,我們定義 Quantile Loss 為
在此基礎(chǔ)上定義 weighted Quantile Loss 為
不難發(fā)現(xiàn)取 時
wMAPE 是在銷量點預(yù)測中常用的評估指標(biāo),現(xiàn)在我們知道它可以看作分位數(shù)損失的一個特例,或者反過來說,分位數(shù)損失可以看作 wMAPE 的泛化。因此,選擇分位數(shù)損失作為概率分布預(yù)測的評估指標(biāo)還有一個額外的好處,就是可以把點預(yù)測和概率分布預(yù)測的評估統(tǒng)一起來。
2. Coverage
沿用上面的符號,我們定義 Coverage 指標(biāo)為
也就是在 步預(yù)測中,真實值
小于等于預(yù)測的
分位數(shù)
的比例。直觀上來看,如果預(yù)測得越準(zhǔn),這個比例應(yīng)該越接近
。
事實上
因此,,則
。
這個指標(biāo)的優(yōu)勢是非常直觀。我們可以取多個 ,分別計算
,然后作
圖,如果越靠近直線
,說明預(yù)測越準(zhǔn)。
3. MSIS (Mean Scaled Interval Score)
這是 M4 比賽的指標(biāo)之一,用來評估預(yù)測區(qū)間的好壞。其定義為
其中 是顯著性水平,
和
是預(yù)測區(qū)間的上界和下界。舉例來說,我們給出了 95% 預(yù)測區(qū)間的上下界,此時
。
我們先看分子,第一項懲罰的是上下界之間的間隔,第二項懲罰的是真實值低于下界的情況,第三項懲罰的是真實值高于上界的情況。單看分子很好理解,直觀上就是要用盡可能窄的區(qū)間把真實值“包”進去。
那么分母是個什么玩意兒呢?它實際上借鑒自點預(yù)測的一種評估指標(biāo),MASE (Mean Absolute Scaled Error)。
MASE 實際上是用測試集上的 MAE 除以一個 Na?ve 預(yù)測模型在訓(xùn)練集上的 MAE。所謂的 Na?ve 模型,有兩種情況,對于非周期性序列,則預(yù)測 ;對于周期性序列,設(shè)周期為
,則預(yù)測
。MASE 的意義在于,所有的模型都來跟 Na?ve 模型比一比,看看能比它好出多少。
總之需要注意的是,MASE 和 MSIS 的分母是用訓(xùn)練集來計算的。
4. CRPS (Continuous Ranked Probability Score)
這個指標(biāo)我們在《概率預(yù)測的評估方法簡介》中已經(jīng)介紹過了,它也是概率預(yù)測中使用最廣泛的指標(biāo)之一,它的定義如下:
其中 是預(yù)測分布的 CDF,
是觀測值的 CDF。由定義可知,CRPS 衡量的是預(yù)測分布和真實分布的差異,當(dāng)預(yù)測分布與真實分布完全一致時,CRPS 為零。預(yù)測分布過于集中、過于分散,亦或是偏離觀測值太遠(yuǎn)都會導(dǎo)致 CRPS 增大。
問題在于,在我們的場景下,每天的銷量只會發(fā)生一次——我們不能看到某一件商品在多元宇宙中的銷量——無法給出觀測值的 CDF。這種情況下,可以用下面的式子來估算
其中
為單位階躍函數(shù)。
前面已經(jīng)提到分位數(shù)損失可以看作 wMAPE 的泛化。事實上,這種定義下的 CRPS 也可以看作是點預(yù)測中常見的 MAE 指標(biāo)的泛化,這也是為什么我們要在這里炒冷飯。如果我們輸出的僅僅是一個點預(yù)測 ,則它的 CDF 也只能使用單位階躍函數(shù)近似為
。代入到 CRPS 的定義中,可以發(fā)現(xiàn)
CRPS 評估的是分布整體的情況,而不是某個分位數(shù),這是它的優(yōu)勢。這也意味著模型必需能夠輸出累積分布函數(shù)。與分位數(shù)損失類似,CRPS 也可以將點預(yù)測和概率分布預(yù)測的評估統(tǒng)一起來,但是 MAE 并不像 wMAPE 應(yīng)用得那么頻繁。
參考文獻
- Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks[J]. International Journal of Forecasting, 2019.
- M4 Competitor's Guide
- Mean absolute scaled error - Wikipedia