熟妇一区二区三区,亚洲有码日韩欧美,91国精品高清

本章涉及知識點：

1、時間序列分析

2、平穩(wěn)時間序列

3、白噪聲

4、AR自回歸模型

5、MA滑動平均模型

6、ARMA模型

7、ARIMA模型

8、差分計算

9、相關(guān)性分析—協(xié)方差

10、相關(guān)性分析—Pearson相關(guān)系數(shù)

11、時間序列相關(guān)性分析—ACK和PACK

12、AIC和BIC準(zhǔn)則

13、一階自相關(guān)檢驗—DW檢驗

14、ARIMA模型的步驟

15、ARIMA模型實戰(zhàn)案例

一、時間序列分析

時間序列：在一段時間T內(nèi)，按照時間順序測量某個隨機變量的取值序列。即

時間序列

區(qū)別于一般的時間函數(shù)為

一般的時間函數(shù)

其中自變量是時間t，表示在f的作用法則下，將自變量t映射為因變量y

而時間序列函數(shù)為

時間序列函數(shù)

其中自變量是Xt的前p個序列值，表示在f的作用法則下，將自變量Xt的前p個序列值映射為因變量Xt

綜上分析可知

（1）對于單值函數(shù)f(t)，關(guān)心的是時間t和實值y的映射關(guān)系

（2）對于時間序列Xt，關(guān)心的是Xt的前p個序列值和Xt的映射關(guān)系

二、平穩(wěn)時間序列

獨立時間序列： $X_{n+1}$ 對于{ $X_{1},X_{2},...,X_{n}$ }均彼此獨立，即任意 $X_{t}$ 都不含有 $X_{n+1}$ 的信息

穩(wěn)定時間序列： $X_{n+1}$ 的信息隱含在其歷史{ $X_{1},X_{2},...,X_{n}$ }之中

我們需要由歷史來推測未來，則研究的序列對象是穩(wěn)定時間序列，其必須滿足：

（1） $EX_{t}^{2} < \infty$

（2） $EX_{t} = \mu$

（3） $cov(X_{i},X_{j}) =$ $E[(X_{i} - \mu )(X_{j} - \mu )] = \gamma_{i-j}$

即穩(wěn)定時間序列滿足：常量的均值、常量的方差、與時間t無關(guān)的自協(xié)方差

且對于任意序列 $X_{i}$ 和 $X_{j}$ ，共同平移k步后的序列得到的序列 $X_{i+k}$ 和 $X_{j+k}$ 具有相同的協(xié)方差，即

$cov(X_{i}, X_{j}) = cov(X_{i+k}, X_{j+k})$

上式稱為協(xié)方差結(jié)構(gòu)的平移不變性

對于平穩(wěn)序列的任意n階自協(xié)方差矩陣

$\Gamma _{n} = \begin{bmatrix} \gamma_{0}&... & \gamma_{n-1}\\ ...& ...& ...\\ \gamma_{n-1}&... & \gamma_{0}\end{bmatrix}$

任意取一個n維向量a，則

$a\Gamma_{n}a^{T} = \sum_{i=1}^n \sum_{j=1}^n a_{i} a_{j} \gamma_{i-j}$

$= \sum_{i=1}^n \sum_{j=1}^n a_{i} a_{j} E[(X_{i} -\mu )(X_{j} -\mu )]$

$= E[\sum_{i=1}^n \sum_{j=1}^n a_{i} a_{j} (X_{i} -\mu )(X_{j} -\mu )]$

$= E[\sum_{i=1}^n a_{i} (X_{i} -\mu )^{2}] = var[\sum_{i=1}^n a_{i} (X_{i} -\mu )] \geq 0$

則證明平穩(wěn)序列的任意n階自協(xié)方差矩陣是非負(fù)定矩陣

三、白噪聲

白噪聲服從高斯分布，記時間序列 $\{X_{t} \}$ 對于任意i和j，如果滿足

? $EX_{t} = \mu \ , cov(X_{i}, X_{j}) = \left\{\begin{matrix}\sigma^{2}, \ i = j\\ 0, \ i \neq j\end{matrix}\right.$

則時間序列 $\{X_{t} \}$ 是一個白噪聲，記為 $WN(\mu , \sigma ^2)$ 。

我們一般用白噪聲來驗證原始時間序列和擬合時間序列的殘差序列

即原始時間序列為 $\{X_{t} \}$ ，擬合時間序列為 $\{Y _{t} \}$ ，則殘差序列 $\{e_{t} \}$ 為：

$\{e_{t} \} \ = \{X_{t} \} - \{Y_{t} \}$

當(dāng) $\{e_{t} \}$ 近似的滿足白噪聲，則時間序列模型很好的捕捉了自相關(guān)性

例如：對于隨機變量U1,U2,...獨立分布且都在(0,2pi)上均勻分布，假設(shè)時間序列為：

$X_{t} = b\cos(at+U_{t})$

則分別計算 $EX_{t}^2$ 和 $EX_{t}$ ，得

$EX_{t}^2 = \frac{b^2}{2\pi}\int_{0}^{2\pi} \cos(at+u)^2du$

$= \frac{b^2}{2\pi}\int_{0}^{2\pi} \frac{1+\cos[2(at+u)]}{2} du$

$= \frac{b^2}{2\pi}[ \frac{1}{2} \int_{0}^{2\pi}du + \frac{1}{4} \int_{0}^{2\pi} \cos(2at+2u)d(2at+2u)] = \frac{b^2}{2}$

$EX_{t} = \frac{2\pi}\int_{0}^{2\pi} \cos(at+u)du = 0$

則時間序列 $\{X_{t}\}$ 是獨立的 $WN(0, \frac{b^2}{2} )$ 正態(tài)白噪聲

四、AR自回歸模型

對于任意一個穩(wěn)定時間序列 $\{X_{t}\}$ ，當(dāng)滿足如下關(guān)系：

$X_{t} = \alpha_{1}X_{t-1} + \alpha_{2}X_{t-2} + ... + \alpha_{p}X_{t-p} + w_{t} = \sum_{i=1}^p \alpha_{i}X_{t-i} + w_{t}$

$\{X_{t}\}$ 為一個p階的自回歸模型，記為 $AR(p)$ 模型

$AR(p)$ 模型的意義為：

（1）任意一個t時刻的序列值 = t時刻的前p個序列值的線性組合 + t時刻的隨機誤差

（2）以歷史序列為自變量，建立線性模型來預(yù)測未來

五、MA滑動平均模型

對于任意一個穩(wěn)定時間序列 $\{X_{t}\}$ ，由AR模型得到自回歸系數(shù)的估計為 $(\alpha_{1}...\alpha_{p})$

記 $\{ \varepsilon_{t } \}$ 是 $\{X_{t}\}$ 的殘差序列，即

$\varepsilon_{t-q} = X_{t} -\sum_{i=1}^p \alpha_{i}X_{t-i}$

則當(dāng)滿足如下關(guān)系：

$X_{t} = \beta_{1}\varepsilon_{t-1} + \beta _{2}\varepsilon_{t-2} + ... + \beta _{q}\varepsilon_{t-q} + w_{t} = \sum_{i=1}^q \beta_{i}\varepsilon_{t-i} + w_{t}$

$\{X_{t}\}$ 為一個q階的滑動平均模型，記為 $MA(q)$ 模型，其中 $\{ \varepsilon_{t } \}$ 滿足 $WN(0, \sigma ^2)$ 白噪聲

$MA(q)$ 模型的含義為：

（1）任意一個t時刻的序列值 = t時刻的前q個序列的白噪聲累加和的線性組合 + t時刻的隨機誤差?

（2）以歷史白噪聲為自變量，建立線性模型來預(yù)測未來

六、ARMA模型

將一個p階的自回歸模型和一個q階的滑動平均模型組合在一起，便得到了一個階數(shù)為（p，q）的自回歸滑動平均模型，記為 $ARMA(p,q)$ 模型，即

$X_{t} = \alpha_{1}X_{t-1} +...+\alpha_{p}X_{t-p} + \beta_{1}\varepsilon_{t-1} +...+ \beta _{q}\varepsilon_{t-q} + w_{t}$

$= \sum_{i=1}^p \alpha_{i}X_{t-i} + \sum_{i=1}^q \beta_{i}\varepsilon_{t-i} + w_{t}$

$ARMA(p,q)$ 模型的意義為：

（1）將AR和MA模型的優(yōu)勢線性互補起來

（2）以歷史序列和歷史白噪聲序列為自變量，建立線性模型來預(yù)測未來

七、ARIMA模型

ARIMA模型：對時間序列 $\{X_{t}\}$ 進(jìn)行d次差分得到一個新的差分時間序列 $\{Y_{t}\}$ ，再對該序列使用ARMA模型，為此ARIMA模型比ARMA模型多了一層思想：差分

八、差分計算

對于任意一個時間序列 $\{X_{t}\}$ 進(jìn)行d次差分，設(shè) $x_{t}$ 是t時刻 $\{X_{t}\}$ 的差分值

當(dāng)d=0時， $x_{t} = X_{t}$

當(dāng)d=1時， $x_{t} = X_{t} - X_{t-1}$

當(dāng)d=2時， $x_{t} = X_{t} - X_{t-1} - (X_{t-1} - X_{t-2} ) = X_{t} -2 X_{t-1} + X_{t-2}$

一般的，一個非平穩(wěn)序列經(jīng)過d次差分后，可以轉(zhuǎn)化為平穩(wěn)時間序列

九、相關(guān)性分析—協(xié)方差

假設(shè)兩個隨機變量X和Y滿足未知的概率分布，則我們可以使用協(xié)方差來衡量X和Y之間的相關(guān)性

$cov(X, Y) = E[(X-E(X))(Y-E(Y))]$

而在實際應(yīng)用中，由于整體的概率分布未知（無法計算出數(shù)學(xué)期望），則用X和Y的觀測值來計算樣本的協(xié)方差，其中 $\mu_{X}$ 和 $\mu_{Y}$ 分別為X和Y的均值

$cov(X, Y) = \frac{1}{n-1} \sum_{i=1}^n (x_{i}-\mu_{X})(y_{i}-\mu_{Y})$

當(dāng) $cov(X, Y) >0$ ，X和Y正相關(guān)，有相同的變化趨勢

當(dāng) $cov(X, Y) <0$ ，X和Y負(fù)相關(guān)，有相反的變化趨勢

當(dāng) $cov(X, Y) =0$ ，X和Y沒有線性關(guān)系

用協(xié)方差描述隨機變量的相關(guān)性，只能做到定性分析，無法做到定量分析，比如：一組身高和體重的協(xié)方差為205.6，這個數(shù)值是一個正數(shù)，只能說明身高體重具有正相關(guān)型，而并沒有給出其相關(guān)性大小的判斷標(biāo)準(zhǔn)。

因此協(xié)方差具有量綱效應(yīng)

十、相關(guān)性分析—Pearson相關(guān)系數(shù)

為了對隨機變量的相關(guān)性做定量分析，需要消除協(xié)方差之間的量綱，為此引入Pearson相關(guān)系數(shù)

$corr(X,Y) = \frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{var(X)}\sqrt{var(Y)} }=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}$

$=\frac{ \sum_{i=1}^n (x_{i}-\mu_{X})(y_{i}-\mu_{Y})}{\sum_{i=1}^n (x_{i}-\mu_{X})\sum_{i=1}^n (y_{i}-\mu_{Y})}$

通過X和Y的標(biāo)準(zhǔn)差來歸一化X和Y的協(xié)方差，且 $corr(X,Y) \ \epsilon \ [-1,+1]$

當(dāng) $corr(X,Y) =1$ ，X和Y正相關(guān)

當(dāng) $corr(X,Y) =-1$ ，X和Y負(fù)相關(guān)

當(dāng) $corr(X,Y) =0$ ，X和Y沒有線性關(guān)系

當(dāng) $0<|corr(X,Y) |<1$ ，X和Y具有一定程度的線性關(guān)系

十一、時間序列相關(guān)性分析—ACK和PACK

由于時間序列的自變量是一維的，則使用Pearson相關(guān)系數(shù)判斷其相關(guān)性時，需要找到除自身序列值外的一個變量與之比較關(guān)系，為此時間序列有如下特點：

時間序列只能比較自己和自己滯后的序列值，即形成自相關(guān)關(guān)系

ACK自相關(guān)系數(shù)：度量變量過去的行為對變量現(xiàn)在的影響，即

$ACK (k) = \frac{cov(X_{1,k},X_{k+1,n})}{\sigma_{X}^2} = \frac{\sum_{t=1}^{n-k}(x_{t}-\mu_{X})(x_{t+k}-\mu_{X})}{\sum_{t=1}^n(x_{t}-\mu_{X})^2}$

ACK表示：歷史序列 $\{ x_{1},...,x_{k} \}$ 和當(dāng)前序列 $\{ x_{k+1},...,x_{n} \}$ 之間的相關(guān)性

PACK偏自相關(guān)系數(shù)：計算某一個變量對另一個變量的相關(guān)程度時，把其他變量視為常數(shù)

$PACK (k) = \frac{cov(X_{1,k} - \mu_{X_{1,k}},X_{k+1,n} - \mu_{X_{k+1,n}})}{\sigma(X_{1,k} - \mu_{X_{1,k}})\sigma(X_{k+1,n} - \mu_{X_{k+1,n}})}$

$= \frac{\sum_{t=1}^{n-k} (x_{t+k} - \mu_{X_{k+1,n}}-\mu_{X}) (x_{t} - \mu_{X_{1,k}} -\mu_{X})}{\sum_{t=1}^k(x_{t} - \mu_{X_{1,k}}-\mu_{X})\sum_{t=k+1}^n(x_{t} - \mu_{X_{k+1,n}}-\mu_{X})}$

PACK表示：計算時間序列 $\{ x_{t} \}$ 對 $\{ x_{t+k} \}$ 的相關(guān)性影響，需要排除k-1個（ $\{ x_{t+1} \}... \{ x_{t+k-1} \}$ ）中間變量的影響

十二、AIC和BIC準(zhǔn)則

AIC和BIC準(zhǔn)則可以輔助量化ARMA模型的定階，通過最小化AIC和BIC指標(biāo)來搜索出模型的最優(yōu)階數(shù)p和q

AIC準(zhǔn)則：全稱是最小化信息量準(zhǔn)則，定義為

$AIC(k) = - 2\ln(L) + 2k$

其中k為模型的階數(shù)，L為模型的極大似然函數(shù)

AIC準(zhǔn)則有一定的缺陷：即樣本容量很大時，k的懲罰因子一直是常數(shù)2，與樣本容量沒有關(guān)系，這樣會導(dǎo)致AIC增大

BIC準(zhǔn)則：全稱是貝葉斯信息準(zhǔn)則，定義為

$BIC(k) = - 2\ln(L) + k\ln(n)$

其中n為樣本容量

BIC很好的彌補了AIC的不足，將樣本容量n關(guān)聯(lián)到k的懲罰因子中

十三、一階自相關(guān)檢驗—DW檢驗

由ACK的定義

$ACK (k) = \frac{cov(X_{1,k},X_{k+1,n})}{\sigma_{X}^2} = \frac{\sum_{t=1}^{n-k}(x_{t}-\mu_{X})(x_{t+k}-\mu_{X})}{\sum_{t=1}^n(x_{t}-\mu_{X})^2}$

我們設(shè) $e_{t}=x_{t}-\mu_{X}$ , $e_{t+1}=x_{t+1}-\mu_{X}$ ，則構(gòu)造統(tǒng)計量DW為：

$DW=\frac{\sum_{t=1}^{n-1}(e_{t+1} - e_{t})}{\sum_{t=1}^{n}e_{t}^{2}}$

分析DW，當(dāng)n非常大時，有 $\sum_{t=1}^{n}e_{t}^{2} \approx \sum_{t=1}^{n-1}e_{t}^{2} \approx \sum_{t=1}^{n-1}e_{t+1}^{2}$ ，則

$DW=\frac{\sum_{t=1}^{n-1}e_{t+1}^{2} + e_{t}^{2} - 2e_{t+1}e_{t}}{\sum_{t=1}^{n}e_{t}^{2}} \approx 2(1 - \frac{\sum_{t=1}^{n-1}e_{t+1}e_{t}}{\sum_{t=1}^{n}e_{t}^{2}} )=2(1-ACK(1))$

DW檢驗有以下特點：

（1）DW檢驗僅適用于一階自相關(guān)的檢驗

（2）如果不存在一階自相關(guān)，一般也不存在高階序列相關(guān)

（3）實際應(yīng)用中，對于序列相關(guān)問題一般只進(jìn)行DW檢驗

由ACK(1)的取值來決定DW的取值情況：

當(dāng)ACK(1)=1，說明相關(guān)變量組存在一階正相關(guān)，DW=0

當(dāng)ACK(1)=-1，說明相關(guān)變量組存在一階負(fù)相關(guān)，DW=4

當(dāng)ACK(1)=0，說明相關(guān)變量組完全不相關(guān)，DW=2

十四、ARIMA模型的步驟

通過上述知識點，我們可以歸納出ARIMA模型的步驟為：

（1）獲取觀測的時間序列，檢驗序列的平穩(wěn)性

（2）縮小序列值域，一般取對數(shù)序列

（3）對于非平穩(wěn)序列，通過d次差分運算轉(zhuǎn)化為穩(wěn)定序列

（4）ADF單根檢驗，觀察p-value值是否小于5%

（5）模型定階：對平穩(wěn)時間序列分別求自相關(guān)系數(shù)ACF和偏自相關(guān)系數(shù)PACF，通過AIC、BIC準(zhǔn)則得到最佳的階數(shù)p和q

（6）模型訓(xùn)練：通過(p，d，q)階數(shù)訓(xùn)練ARIMA模型，學(xué)習(xí)到殘差序列

（7）模型檢驗：殘差序列是否滿足白噪聲、DW檢驗一階自相關(guān)性、觀察殘差序列擬合原始?xì)埐钚蛄行Ч?br>

（8）模型測試：殘差序列逆向還原擬合時間序列，殘差序列交叉驗證測試集

十五、ARIMA模型實戰(zhàn)案例

setp1：獲取時間序列樣本集

樣本數(shù)據(jù)為1949年1月到1960年12月每月的乘客數(shù)量

數(shù)據(jù)集

我們通過原始序列的滑動均值和方差，觀察其穩(wěn)定性

原序列平穩(wěn)性檢驗

可以看到原始序列的滑動均值/方差都有逐漸增大的趨勢，該序列不穩(wěn)定

setp2：取對數(shù)和一階差分，通過滑動均值和方差、以及ADF單根檢驗差分序列是否滿足穩(wěn)定性

差分序列平穩(wěn)性檢驗

可以看到，差分后滑動均值/方差逐漸趨于平穩(wěn)，P值小于5%，差分序列是穩(wěn)定的

setp3：模型定階，畫出ACF和PACF的圖像

ACF和PACF

上下兩條灰線之間是置信區(qū)間

非統(tǒng)計學(xué)專業(yè)出身，肉眼定階法缺乏經(jīng)驗。所以在階數(shù)和數(shù)據(jù)量不大的場景下，可以選擇暴力定階法，通過遍歷可能的階數(shù)，計算ACK和PACK對應(yīng)于AIC和BIC準(zhǔn)則下的最小值，作為最優(yōu)階數(shù)p和q的參考