日本一区二区中出,伊伊综合视频,香蕉国产精品视频

本文結(jié)構(gòu)：

時(shí)間序列分析？
什么是ARIMA？
ARIMA數(shù)學(xué)模型？
input，output 是什么？
怎么用？－代碼實(shí)例
常見問題？

時(shí)間序列分析？

時(shí)間序列，就是按時(shí)間順序排列的，隨時(shí)間變化的數(shù)據(jù)序列。
生活中各領(lǐng)域各行業(yè)太多時(shí)間序列的數(shù)據(jù)了，銷售額，顧客數(shù)，訪問量，股價(jià)，油價(jià)，GDP，氣溫。。。

隨機(jī)過程的特征有均值、方差、協(xié)方差等。
如果隨機(jī)過程的特征隨著時(shí)間變化，則此過程是非平穩(wěn)的；相反，如果隨機(jī)過程的特征不隨時(shí)間而變化，就稱此過程是平穩(wěn)的。
下圖所示，左邊非穩(wěn)定，右邊穩(wěn)定。

非平穩(wěn)時(shí)間序列分析時(shí)，若導(dǎo)致非平穩(wěn)的原因是確定的，可以用的方法主要有趨勢擬合模型、季節(jié)調(diào)整模型、移動(dòng)平均、指數(shù)平滑等方法。
若導(dǎo)致非平穩(wěn)的原因是隨機(jī)的，方法主要有ARIMA（autoregressive integrated moving average）及自回歸條件異方差模型等。

什么是ARIMA？

ARIMA (Auto Regressive Integrated Moving Average) 可以用來對時(shí)間序列進(jìn)行預(yù)測，常被用于需求預(yù)測和規(guī)劃中。

可以用來對付 ‘隨機(jī)過程的特征隨著時(shí)間變化而非固定’ 且 ‘導(dǎo)致時(shí)間序列非平穩(wěn)的原因是隨機(jī)而非確定’ 的問題。不過，如果是從一個(gè)非平穩(wěn)的時(shí)間序列開始，首先需要做差分，直到得到一個(gè)平穩(wěn)的序列。

模型的思想就是從歷史的數(shù)據(jù)中學(xué)習(xí)到隨時(shí)間變化的模式，學(xué)到了就用這個(gè)規(guī)律去預(yù)測未來。

ARIMA(p,d,q)模型，其中 d 是差分的階數(shù)，用來得到平穩(wěn)序列。

AR是自回歸, p為相應(yīng)的自回歸項(xiàng)。

MA為移動(dòng)平均，q為相應(yīng)的移動(dòng)平均項(xiàng)數(shù)。

ARIMA數(shù)學(xué)模型？

ARIMA（p，d，q）模型是ARMA（p，q）模型的擴(kuò)展。

ARIMA（p，d，q）模型可以表示為：

其中L 是滯后算子（Lag operator），d in Z, d>0。

AR：
當(dāng)前值只是過去值的加權(quán)求和。

MA：
過去的白噪音的移動(dòng)平均。

ARMA：
AR和MA的綜合。

ARIMA：
和ARMA的區(qū)別，就是公式左邊的x變成差分算子，保證數(shù)據(jù)的穩(wěn)定性。

差分算子就是：

令 wt 為：

則 ARIMA 就可以寫成：

input，output 是什么？

輸入歷史數(shù)據(jù)，預(yù)測未來時(shí)間點(diǎn)的數(shù)據(jù)。

怎么用？－代碼實(shí)例

本文參考了：時(shí)間序列實(shí)例
另外推薦大家看這篇，36大數(shù)據(jù)上有一個(gè)python版講的不錯(cuò)，里面對穩(wěn)定性的定量檢驗(yàn)的講解比較詳細(xì)：時(shí)間序列預(yù)測全攻略－附帶Python代碼

ARIMA模型運(yùn)用的基本流程有幾下幾步：

數(shù)據(jù)可視化，識(shí)別平穩(wěn)性。
對非平穩(wěn)的時(shí)間序列數(shù)據(jù)，做差分，得到平穩(wěn)序列。
建立合適的模型。
平穩(wěn)化處理后，若偏自相關(guān)函數(shù)是截尾的，而自相關(guān)函數(shù)是拖尾的，則建立AR模型；
若偏自相關(guān)函數(shù)是拖尾的，而自相關(guān)函數(shù)是截尾的，則建立MA模型；
若偏自相關(guān)函數(shù)和自相關(guān)函數(shù)均是拖尾的，則序列適合ARMA模型。
模型的階數(shù)在確定之后，對ARMA模型進(jìn)行參數(shù)估計(jì)，比較常用是最小二乘法進(jìn)行參數(shù)估計(jì)。
假設(shè)檢驗(yàn)，判斷（診斷）殘差序列是否為白噪聲序列。
利用已通過檢驗(yàn)的模型進(jìn)行預(yù)測。

使用ARIMA模型對裙子長度預(yù)測

1、加載數(shù)據(jù)

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat", skip=5)

str(skirts)
head(skirts)
boxplot(skirts)
length(skirts)

2、把數(shù)據(jù)轉(zhuǎn)化為是時(shí)間序列

skirts_ts <- ts(skirts, start=c(1886), frequency=1)

1)查看時(shí)間序列對應(yīng)的時(shí)間

skirts_ts

2)畫出時(shí)間序列圖

plot.ts(skirts_ts)

從圖可知：女人裙子邊緣的直徑做成的時(shí)間序列數(shù)據(jù)，從 1866 年到 1911 年在平均值上是不平穩(wěn)的

3、做差分得到平穩(wěn)序列

1)做時(shí)間序列的一階差分

skirts_diff <- diff(skirts_ts, differences = 1)
plot.ts(skirts_diff)

從一階差分的圖中可以看出，數(shù)據(jù)仍是不平穩(wěn)的，繼續(xù)差分

2)做時(shí)間序列的二階差分

skirts_diff2 <- diff(skirts_ts, differences = 2)
plot.ts(skirts_diff2)

二次差分后的時(shí)間序列在均值和方差上看起來是平穩(wěn)了

4、找到合適的ARIMA模型

尋找 ARIMA(p,d,q)中合適的 p 值和 q

1)自相關(guān)圖ACF

acf(skirts_diff2, lag.max = 20)

acf(skirts_diff2, lag.max = 20, plot = F)

自相關(guān)圖顯示滯后1階自相關(guān)值基本沒有超過邊界值，雖然5階自相關(guān)值超出邊界，那么很可能屬于偶然出現(xiàn)的，而自相關(guān)值在其他上都沒有超出顯著邊界，而且我們可以期望 1 到 20 之間的會(huì)偶爾超出 95%的置信邊界。自相關(guān)圖5階后結(jié)尾

2)偏相關(guān)圖PACF

pacf(skirts_diff2, lag.max = 20)

pacf(skirts_diff2, lag.max = 20, plot = F)

偏自相關(guān)值選1階后結(jié)尾
故我們的ARMIA模型為armia（1,2,5

3)使用auto.arima()函數(shù)，自動(dòng)獲取最佳的ARIMA模型

library(forecast)

auto.arima(skirts_ts, ic=c("aicc", "aic", "bic"), trace = T)

Best model: ARIMA(1,2,0)

5、建立ARIMA模型：并對比arima(1, 2, 0)與arima(1, 2, 5)模型

1）arima(1, 2, 0)模型

(skirts_arima <- arima(skirts_ts, order = c(1, 2, 0)))

aic = 391.33

2）arima(1, 2, 5)模型

(skirts_arima <- arima(skirts_ts, order = c(1, 2, 5)))

aic = 381.6

AIC是赤池消息準(zhǔn)則SC是施瓦茨準(zhǔn)則，當(dāng)兩個(gè)數(shù)值最小時(shí)，則是最優(yōu)滯后分布的長度。我們進(jìn)行模型選擇時(shí)，AIC值越小越好。所以arima(1, 2, 5)模型較好

6、預(yù)測：預(yù)測5年后裙子的邊緣直徑

(skirts_forecast <- forecast.Arima(skirts_arima, h=5, level = c(99.5)))

plot.forecast(skirts_forecast)

7、檢驗(yàn)

觀察 ARIMA 模型的預(yù)測誤差是否是平均值為 0 且方差為常數(shù)的正態(tài)分布，同時(shí)也要觀察連續(xù)預(yù)測誤差是否自相關(guān)

1）檢驗(yàn)預(yù)測誤差的自相關(guān)性

tsdiag(skirts_arima)

下面第一個(gè)圖表代表估計(jì)模型誤差的繪圖。圖中豎線的長度比較相似，都處在穩(wěn)定范圍之內(nèi)，即估計(jì)的模型沒產(chǎn)生不符合要求的誤差分布。

第二張繪圖，顯示估計(jì)的模型沒造成誤差之間的任何關(guān)系。這是符合數(shù)據(jù)生成時(shí)每個(gè)數(shù)據(jù)都是獨(dú)立的這個(gè)前提的。由此可見，這ACF圖符合檢測要求。

第三張圖，也就是Ljung-Box 指標(biāo)。這個(gè)指標(biāo)可對每一個(gè)時(shí)間序列的延遲進(jìn)行顯著性的評(píng)估。判定技巧是，P-value點(diǎn)的高度越高，我們的模型越可信。

acf(skirts_forecast$residuals, lag.max = 20)

Box.test(skirts_forecast$residuals, lag=20, type = "Ljung-Box")

p-value = 0.9871
相關(guān)圖顯示出在滯后1-20階中樣本自相關(guān)值都沒有超出顯著置信邊界，而且Ljung-Box檢驗(yàn)的p值為0.99，所以我們推斷在滯后1-20階（lags1-20）中沒明顯證據(jù)說明預(yù)測誤差是非零自相關(guān)的。

Acf檢驗(yàn)說明：殘差沒有明顯的自相關(guān)性，Ljung-Box測試顯示：所有的P-value>0.05，說明殘差為白噪聲。

2）判斷預(yù)測誤差是否是平均值為零且方差為常數(shù)的正態(tài)分布
做預(yù)測誤差的時(shí)間曲線圖和直方圖（具有正態(tài)分布曲線）

預(yù)測誤差的均值是否為0

plot.ts(skirts_forecast$residuals)

自定義判斷預(yù)測誤差的方差是正態(tài)分布的函數(shù)

plotForecastErrors <- function(forecasterrors){
  #畫預(yù)測誤差的直方圖
  hist(forecasterrors, col="red", freq = F)
  #畫方差是預(yù)測誤差數(shù)據(jù)的方差，平均值是0的正態(tài)分布數(shù)據(jù)的線
  mysd <- sd(forecasterrors)
  mynorm <- rnorm(10000, mean = 0, sd = mysd)
  myhist <- hist(mynorm, plot = F)
  points(myhist$mids, myhist$density, type="l", col="blue", lwd=2)
}
plotForecastErrors(skirts_forecast$residuals)

下圖顯示時(shí)間序列的直方圖顯示預(yù)測誤大致是正態(tài)分布的且平均值接近于0。因此，把預(yù)測誤差看作平均值為0方差為服從零均值、方差不變的正態(tài)分布是合理的。

既然依次連續(xù)的預(yù)測誤差看起來不是相關(guān)，而且服從零均值、方差不變的正態(tài)分布，那么對于裙子直徑的數(shù)據(jù)，ARIMA(1,2,5)看起來是可以提供非常合適預(yù)測的模型。

常見問題？

1.ARIMA建模的步驟

觀察數(shù)據(jù)是否是時(shí)間序列數(shù)據(jù)，是否有seasonal等因素。
transform：Box－correlation，保證variance是uniform的。如果用box－cor還不能穩(wěn)定，還要繼續(xù)深入挖掘。
ACF／PACF 是為了找到 MA 和 AR 的order。
d＝0－stationarity，1，2－non stationarity
白噪音check：確定這個(gè)模型是optimize的，mean＝0，平方差＝1.
誤差是白噪音的時(shí)候，model就ok了，就可以預(yù)測了