時間序列模型:ARIMA

本章涉及知識點:

1、時間序列分析

2、平穩(wěn)時間序列

3、白噪聲

4、AR自回歸模型

5、MA滑動平均模型

6、ARMA模型

7、ARIMA模型

8、差分計算

9、相關(guān)性分析—協(xié)方差

10、相關(guān)性分析—Pearson相關(guān)系數(shù)

11、時間序列相關(guān)性分析—ACK和PACK

12、AIC和BIC準(zhǔn)則

13、一階自相關(guān)檢驗—DW檢驗

14、ARIMA模型的步驟

15、ARIMA模型實戰(zhàn)案例

一、時間序列分析

時間序列:在一段時間T內(nèi),按照時間順序測量某個隨機變量的取值序列。即

時間序列

區(qū)別于一般的時間函數(shù)為

一般的時間函數(shù)

其中自變量是時間t,表示在f的作用法則下,將自變量t映射為因變量y

而時間序列函數(shù)為

時間序列函數(shù)

其中自變量是Xt的前p個序列值,表示在f的作用法則下,將自變量Xt的前p個序列值映射為因變量Xt

綜上分析可知

(1)對于單值函數(shù)f(t),關(guān)心的是時間t和實值y的映射關(guān)系

(2)對于時間序列Xt,關(guān)心的是Xt的前p個序列值和Xt的映射關(guān)系

二、平穩(wěn)時間序列

獨立時間序列:X_{n+1}對于{X_{1},X_{2},...,X_{n}}均彼此獨立,即任意X_{t}都不含有X_{n+1}的信息

穩(wěn)定時間序列:X_{n+1}的信息隱含在其歷史{X_{1},X_{2},...,X_{n}}之中

我們需要由歷史來推測未來,則研究的序列對象是穩(wěn)定時間序列,其必須滿足:

(1)EX_{t}^{2} < \infty

(2)EX_{t} = \mu

(3)cov(X_{i},X_{j})  =E[(X_{i} - \mu )(X_{j} - \mu )] = \gamma_{i-j}

即穩(wěn)定時間序列滿足:常量的均值、常量的方差、與時間t無關(guān)的自協(xié)方差

且對于任意序列X_{i}X_{j},共同平移k步后的序列得到的序列X_{i+k}X_{j+k}具有相同的協(xié)方差,即

cov(X_{i}, X_{j}) = cov(X_{i+k}, X_{j+k})

上式稱為協(xié)方差結(jié)構(gòu)的平移不變性

對于平穩(wěn)序列的任意n階自協(xié)方差矩陣

\Gamma _{n} =  \begin{bmatrix} \gamma_{0}&...  & \gamma_{n-1}\\  ...&  ...& ...\\  \gamma_{n-1}&...  & \gamma_{0}\end{bmatrix}

任意取一個n維向量a,則

a\Gamma_{n}a^{T} = \sum_{i=1}^n \sum_{j=1}^n  a_{i}  a_{j} \gamma_{i-j}

= \sum_{i=1}^n \sum_{j=1}^n a_{i}  a_{j} E[(X_{i} -\mu  )(X_{j} -\mu  )]

= E[\sum_{i=1}^n \sum_{j=1}^n a_{i}  a_{j} (X_{i} -\mu  )(X_{j} -\mu  )]

= E[\sum_{i=1}^n  a_{i}  (X_{i} -\mu  )^{2}] = var[\sum_{i=1}^n  a_{i}  (X_{i} -\mu  )] \geq 0

則證明平穩(wěn)序列的任意n階自協(xié)方差矩陣是非負(fù)定矩陣

三、白噪聲

白噪聲服從高斯分布,記時間序列\{X_{t} \}對于任意i和j,如果滿足

?EX_{t} = \mu \ , cov(X_{i}, X_{j}) = \left\{\begin{matrix}\sigma^{2}, \ i = j\\ 0, \ i \neq j\end{matrix}\right.

則時間序列\{X_{t} \}是一個白噪聲,記為WN(\mu , \sigma ^2)。

我們一般用白噪聲來驗證原始時間序列和擬合時間序列的殘差序列

即原始時間序列為\{X_{t} \},擬合時間序列為\{Y _{t} \},則殘差序列\{e_{t}  \}為:

\{e_{t}  \} \  = \{X_{t}  \}   -  \{Y_{t}  \}

當(dāng)\{e_{t}  \}近似的滿足白噪聲,則時間序列模型很好的捕捉了自相關(guān)性

例如:對于隨機變量U1,U2,...獨立分布且都在(0,2pi)上均勻分布,假設(shè)時間序列為:

X_{t} = b\cos(at+U_{t})

則分別計算EX_{t}^2EX_{t},得

EX_{t}^2 = \frac{b^2}{2\pi}\int_{0}^{2\pi}  \cos(at+u)^2du

= \frac{b^2}{2\pi}\int_{0}^{2\pi}  \frac{1+\cos[2(at+u)]}{2} du

= \frac{b^2}{2\pi}[ \frac{1}{2} \int_{0}^{2\pi}du +  \frac{1}{4} \int_{0}^{2\pi} \cos(2at+2u)d(2at+2u)] = \frac{b^2}{2}

EX_{t} = \frac{2\pi}\int_{0}^{2\pi}  \cos(at+u)du  = 0

則時間序列\{X_{t}\}是獨立的WN(0, \frac{b^2}{2} )正態(tài)白噪聲

四、AR自回歸模型

對于任意一個穩(wěn)定時間序列\{X_{t}\},當(dāng)滿足如下關(guān)系:

X_{t} = \alpha_{1}X_{t-1}  + \alpha_{2}X_{t-2} + ... + \alpha_{p}X_{t-p} + w_{t}  = \sum_{i=1}^p \alpha_{i}X_{t-i} + w_{t}

\{X_{t}\}為一個p階的自回歸模型,記為AR(p)模型

AR(p)模型的意義為:

(1)任意一個t時刻的序列值 = t時刻的前p個序列值的線性組合 + t時刻的隨機誤差

(2)以歷史序列為自變量,建立線性模型來預(yù)測未來

五、MA滑動平均模型

對于任意一個穩(wěn)定時間序列\{X_{t}\},由AR模型得到自回歸系數(shù)的估計為(\alpha_{1}...\alpha_{p})

\{ \varepsilon_{t }  \}\{X_{t}\}的殘差序列,即

\varepsilon_{t-q} = X_{t} -\sum_{i=1}^p \alpha_{i}X_{t-i}

則當(dāng)滿足如下關(guān)系:

X_{t} =  \beta_{1}\varepsilon_{t-1}  + \beta _{2}\varepsilon_{t-2} + ... + \beta _{q}\varepsilon_{t-q} + w_{t}  = \sum_{i=1}^q \beta_{i}\varepsilon_{t-i} + w_{t}

\{X_{t}\}為一個q階的滑動平均模型,記為MA(q)模型,其中\{ \varepsilon_{t }  \}滿足WN(0, \sigma ^2)白噪聲

MA(q)模型的含義為:

(1)任意一個t時刻的序列值 = t時刻的前q個序列的白噪聲累加和的線性組合 + t時刻的隨機誤差?

(2)以歷史白噪聲為自變量,建立線性模型來預(yù)測未來

六、ARMA模型

將一個p階的自回歸模型和一個q階的滑動平均模型組合在一起,便得到了一個階數(shù)為(p,q)的自回歸滑動平均模型,記為ARMA(p,q)模型,

X_{t} =  \alpha_{1}X_{t-1} +...+\alpha_{p}X_{t-p}  + \beta_{1}\varepsilon_{t-1}  +...+ \beta _{q}\varepsilon_{t-q} + w_{t}

= \sum_{i=1}^p \alpha_{i}X_{t-i}  + \sum_{i=1}^q \beta_{i}\varepsilon_{t-i} + w_{t}

ARMA(p,q)模型的意義為:

(1)將AR和MA模型的優(yōu)勢線性互補起來

(2)以歷史序列和歷史白噪聲序列為自變量,建立線性模型來預(yù)測未來

七、ARIMA模型

ARIMA模型:對時間序列\{X_{t}\}進(jìn)行d次差分得到一個新的差分時間序列\{Y_{t}\},再對該序列使用ARMA模型,為此ARIMA模型比ARMA模型多了一層思想:差分

八、差分計算

對于任意一個時間序列\{X_{t}\}進(jìn)行d次差分,設(shè)x_{t}是t時刻\{X_{t}\}的差分值

當(dāng)d=0時,x_{t}  = X_{t}

當(dāng)d=1時,x_{t}  = X_{t}  - X_{t-1}

當(dāng)d=2時,x_{t}  = X_{t}  - X_{t-1}  - (X_{t-1}  - X_{t-2} ) = X_{t}  -2 X_{t-1} + X_{t-2}

一般的,一個非平穩(wěn)序列經(jīng)過d次差分后,可以轉(zhuǎn)化為平穩(wěn)時間序列

九、相關(guān)性分析—協(xié)方差

假設(shè)兩個隨機變量X和Y滿足未知的概率分布,則我們可以使用協(xié)方差來衡量X和Y之間的相關(guān)性

cov(X, Y) = E[(X-E(X))(Y-E(Y))]

而在實際應(yīng)用中,由于整體的概率分布未知(無法計算出數(shù)學(xué)期望),則用X和Y的觀測值來計算樣本的協(xié)方差,其中\mu_{X}\mu_{Y}分別為X和Y的均值

cov(X, Y) = \frac{1}{n-1} \sum_{i=1}^n (x_{i}-\mu_{X})(y_{i}-\mu_{Y})

當(dāng)cov(X, Y)  >0,X和Y正相關(guān),有相同的變化趨勢

當(dāng)cov(X, Y)  <0,X和Y負(fù)相關(guān),有相反的變化趨勢

當(dāng)cov(X, Y)  =0,X和Y沒有線性關(guān)系

用協(xié)方差描述隨機變量的相關(guān)性,只能做到定性分析,無法做到定量分析,比如:一組身高和體重的協(xié)方差為205.6,這個數(shù)值是一個正數(shù),只能說明身高體重具有正相關(guān)型,而并沒有給出其相關(guān)性大小的判斷標(biāo)準(zhǔn)。

因此協(xié)方差具有量綱效應(yīng)

十、相關(guān)性分析—Pearson相關(guān)系數(shù)

為了對隨機變量的相關(guān)性做定量分析,需要消除協(xié)方差之間的量綱,為此引入Pearson相關(guān)系數(shù)

corr(X,Y) = \frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{var(X)}\sqrt{var(Y)} }=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}

=\frac{ \sum_{i=1}^n (x_{i}-\mu_{X})(y_{i}-\mu_{Y})}{\sum_{i=1}^n (x_{i}-\mu_{X})\sum_{i=1}^n (y_{i}-\mu_{Y})}

通過X和Y的標(biāo)準(zhǔn)差歸一化X和Y的協(xié)方差,且corr(X,Y) \  \epsilon \  [-1,+1]

當(dāng)corr(X,Y) =1,X和Y正相關(guān)

當(dāng)corr(X,Y) =-1,X和Y負(fù)相關(guān)

當(dāng)corr(X,Y) =0,X和Y沒有線性關(guān)系

當(dāng)0<|corr(X,Y) |<1,X和Y具有一定程度的線性關(guān)系

十一、時間序列相關(guān)性分析—ACK和PACK

由于時間序列的自變量是一維的,則使用Pearson相關(guān)系數(shù)判斷其相關(guān)性時,需要找到除自身序列值外的一個變量與之比較關(guān)系,為此時間序列有如下特點:

時間序列只能比較自己和自己滯后的序列值,即形成自相關(guān)關(guān)系

ACK自相關(guān)系數(shù):度量變量過去的行為對變量現(xiàn)在的影響,即

ACK (k) = \frac{cov(X_{1,k},X_{k+1,n})}{\sigma_{X}^2} =  \frac{\sum_{t=1}^{n-k}(x_{t}-\mu_{X})(x_{t+k}-\mu_{X})}{\sum_{t=1}^n(x_{t}-\mu_{X})^2}

ACK表示:歷史序列\{  x_{1},...,x_{k} \}和當(dāng)前序列\{  x_{k+1},...,x_{n} \}之間的相關(guān)性

PACK偏自相關(guān)系數(shù):計算某一個變量對另一個變量的相關(guān)程度時,把其他變量視為常數(shù)

PACK (k) = \frac{cov(X_{1,k} - \mu_{X_{1,k}},X_{k+1,n} - \mu_{X_{k+1,n}})}{\sigma(X_{1,k} - \mu_{X_{1,k}})\sigma(X_{k+1,n} - \mu_{X_{k+1,n}})}

= \frac{\sum_{t=1}^{n-k}  (x_{t+k} - \mu_{X_{k+1,n}}-\mu_{X}) (x_{t} - \mu_{X_{1,k}} -\mu_{X})}{\sum_{t=1}^k(x_{t} - \mu_{X_{1,k}}-\mu_{X})\sum_{t=k+1}^n(x_{t} - \mu_{X_{k+1,n}}-\mu_{X})}

PACK表示:計算時間序列\{  x_{t} \}\{  x_{t+k} \}的相關(guān)性影響,需要排除k-1個(\{  x_{t+1}  \}... \{  x_{t+k-1} \})中間變量的影響

十二、AIC和BIC準(zhǔn)則

AIC和BIC準(zhǔn)則可以輔助量化ARMA模型的定階,通過最小化AIC和BIC指標(biāo)來搜索出模型的最優(yōu)階數(shù)p和q

AIC準(zhǔn)則:全稱是最小化信息量準(zhǔn)則,定義為

AIC(k) =  - 2\ln(L) + 2k

其中k為模型的階數(shù),L為模型的極大似然函數(shù)

AIC準(zhǔn)則有一定的缺陷:即樣本容量很大時,k的懲罰因子一直是常數(shù)2,與樣本容量沒有關(guān)系,這樣會導(dǎo)致AIC增大

BIC準(zhǔn)則:全稱是貝葉斯信息準(zhǔn)則,定義為

BIC(k) =  - 2\ln(L) + k\ln(n)

其中n為樣本容量

BIC很好的彌補了AIC的不足,將樣本容量n關(guān)聯(lián)到k的懲罰因子中

十三、一階自相關(guān)檢驗—DW檢驗

由ACK的定義

ACK (k) = \frac{cov(X_{1,k},X_{k+1,n})}{\sigma_{X}^2} =  \frac{\sum_{t=1}^{n-k}(x_{t}-\mu_{X})(x_{t+k}-\mu_{X})}{\sum_{t=1}^n(x_{t}-\mu_{X})^2}

我們設(shè)e_{t}=x_{t}-\mu_{X},e_{t+1}=x_{t+1}-\mu_{X},則構(gòu)造統(tǒng)計量DW為:

DW=\frac{\sum_{t=1}^{n-1}(e_{t+1} - e_{t})}{\sum_{t=1}^{n}e_{t}^{2}}

分析DW,當(dāng)n非常大時,有\sum_{t=1}^{n}e_{t}^{2} \approx \sum_{t=1}^{n-1}e_{t}^{2} \approx \sum_{t=1}^{n-1}e_{t+1}^{2},則

DW=\frac{\sum_{t=1}^{n-1}e_{t+1}^{2} + e_{t}^{2} - 2e_{t+1}e_{t}}{\sum_{t=1}^{n}e_{t}^{2}}  \approx  2(1 - \frac{\sum_{t=1}^{n-1}e_{t+1}e_{t}}{\sum_{t=1}^{n}e_{t}^{2}} )=2(1-ACK(1))

DW檢驗有以下特點:

(1)DW檢驗僅適用于一階自相關(guān)的檢驗

(2)如果不存在一階自相關(guān),一般也不存在高階序列相關(guān)

(3)實際應(yīng)用中,對于序列相關(guān)問題一般只進(jìn)行DW檢驗

由ACK(1)的取值來決定DW的取值情況:

當(dāng)ACK(1)=1,說明相關(guān)變量組存在一階正相關(guān),DW=0

當(dāng)ACK(1)=-1,說明相關(guān)變量組存在一階負(fù)相關(guān),DW=4

當(dāng)ACK(1)=0,說明相關(guān)變量組完全不相關(guān),DW=2

十四、ARIMA模型的步驟

通過上述知識點,我們可以歸納出ARIMA模型的步驟為:

(1)獲取觀測的時間序列,檢驗序列的平穩(wěn)性

(2)縮小序列值域,一般取對數(shù)序列

(3)對于非平穩(wěn)序列,通過d次差分運算轉(zhuǎn)化為穩(wěn)定序列

(4)ADF單根檢驗,觀察p-value值是否小于5%

(5)模型定階:對平穩(wěn)時間序列分別求自相關(guān)系數(shù)ACF和偏自相關(guān)系數(shù)PACF,通過AIC、BIC準(zhǔn)則得到最佳的階數(shù)p和q

(6)模型訓(xùn)練:通過(p,d,q)階數(shù)訓(xùn)練ARIMA模型,學(xué)習(xí)到殘差序列

(7)模型檢驗:殘差序列是否滿足白噪聲、DW檢驗一階自相關(guān)性、觀察殘差序列擬合原始?xì)埐钚蛄行Ч?br>

(8)模型測試:殘差序列逆向還原擬合時間序列,殘差序列交叉驗證測試集

十五、ARIMA模型實戰(zhàn)案例

setp1:獲取時間序列樣本集

樣本數(shù)據(jù)為1949年1月到1960年12月每月的乘客數(shù)量

數(shù)據(jù)集
數(shù)據(jù)集

我們通過原始序列的滑動均值和方差,觀察其穩(wěn)定性

原序列平穩(wěn)性檢驗
原序列平穩(wěn)性檢驗

可以看到原始序列的滑動均值/方差都有逐漸增大的趨勢,該序列不穩(wěn)定

setp2:取對數(shù)和一階差分,通過滑動均值和方差、以及ADF單根檢驗差分序列是否滿足穩(wěn)定性

差分序列平穩(wěn)性檢驗
差分序列平穩(wěn)性檢驗

可以看到,差分后滑動均值/方差逐漸趨于平穩(wěn),P值小于5%,差分序列是穩(wěn)定的

setp3:模型定階,畫出ACF和PACF的圖像

ACF和PACF

上下兩條灰線之間是置信區(qū)間

非統(tǒng)計學(xué)專業(yè)出身,肉眼定階法缺乏經(jīng)驗。所以在階數(shù)和數(shù)據(jù)量不大的場景下,可以選擇暴力定階法,通過遍歷可能的階數(shù),計算ACK和PACK對應(yīng)于AIC和BIC準(zhǔn)則下的最小值,作為最優(yōu)階數(shù)p和q的參考

暴力定階法

上述選出基于BIC準(zhǔn)則下最優(yōu)參數(shù)(p,q)=(10,7)

setp4:訓(xùn)練ARIMA模型,即ARIMA(10,1,7),得到模型和殘差序列

訓(xùn)練ARIMA模型

setp5:檢驗?zāi)P蛯W(xué)習(xí)效果

(1)殘差序列是否滿足白噪聲—qq圖

qq圖

qq圖的x軸表示正態(tài)分布分位數(shù),y軸為樣本分位數(shù),可以看到殘差序列基本位于一條直線上,即滿足白噪聲

(2)DW檢測一階相關(guān)性

DW檢測
DW檢測

(3)觀察學(xué)習(xí)到的差分序列擬合效果

檢驗差分序列擬合結(jié)果

setp6:模型測試效果

(1)殘差序列逆向還原擬合時間序列

殘差序列逆向還原擬合時間序列

(2)殘差序列交叉驗證測試集

殘差序列交叉驗證測試集
交叉驗證

實驗結(jié)果可以看到,隨著時間的推移,模型的擬合效果和預(yù)測效果較為理想

案例代碼見:時間序列模型:ARIMA

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 時間序列簡介 時間序列 是指將同一統(tǒng)計指標(biāo)的數(shù)值按其先后發(fā)生的時間順序排列而成的數(shù)列。時間序列分析的主要目的是根據(jù)...
    熙淺閱讀 177,778評論 15 55
  • 1 概念 ARIMA模型,全稱為自回歸積分滑動平均模型(Autoregressive Integrated ...
    風(fēng)逝流沙閱讀 45,439評論 1 48
  • 一、基本概念 1.隨機時序分析的基本概念1)隨機變量:簡單的隨機現(xiàn)象,如某班一天學(xué)生出勤人數(shù),是靜態(tài)的。2)隨機過...
    apricoter閱讀 6,732評論 0 10
  • 姓名:車文揚 學(xué)號:16020199006 轉(zhuǎn)載至:https://www.cnblogs.com/babyfei...
    o錯覺_42a1閱讀 23,008評論 0 8
  • 他們說我短發(fā)的樣子像個男孩子,他們說女孩子就是應(yīng)該穿著漂亮的裙子,斯斯文文地講話,不說臟話。可是我不懂,難道所有的...
    云笙閱讀 218評論 2 3

友情鏈接更多精彩內(nèi)容