模型選擇方法:AIC和BIC

推薦看一下參考文獻(xiàn)【4】

引入【3】

經(jīng)常地,對(duì)一堆數(shù)據(jù)進(jìn)行建模的時(shí)候,特別是分類和回歸模型,我們有很多的變量可供使用,選擇不同的變量組合可以得到不同的模型,例如我們有5個(gè)變量,2的5次方,我們將有32個(gè)變量組合,可以訓(xùn)練出32個(gè)模型。但是哪個(gè)模型更加的好呢?目前常用有如下方法:

AIC=-2 ln(L) + 2?k??中文名字:赤池信息量 akaike information criterion

BIC=-2 ln(L) +?ln(n)*k 中文名字:貝葉斯信息量 bayesian information criterion

HQ=-2 ln(L) +?ln(ln(n))*k??hannan-quinn criterion

L是在該模型下的最大似然,n是數(shù)據(jù)數(shù)量,k是模型的變量個(gè)數(shù)

三個(gè)模型A, B, C,在通過這些規(guī)則計(jì)算后,我們知道B模型是三個(gè)模型中最好的,但是不能保證B這個(gè)模型就能夠很好地刻畫數(shù)據(jù),因?yàn)楹苡锌赡苓@三個(gè)模型都是非常糟糕的,B只是爛蘋果中的相對(duì)好的蘋果而已。

這些規(guī)則理論上是比較漂亮的,但是實(shí)際在模型選擇中應(yīng)用起來還是有些困難的,我們不可能對(duì)所有這些模型進(jìn)行一一驗(yàn)證AIC, BIC,HQ規(guī)則來選擇模型,工作量太大。


AIC

赤池信息量準(zhǔn)則,即Akaike information criterion、簡(jiǎn)稱AIC,是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),是由日本統(tǒng)計(jì)學(xué)家赤池弘次創(chuàng)立和發(fā)展的。赤池信息量準(zhǔn)則建立在熵的概念基礎(chǔ)上。

AIC越小,模型越好,通常選擇AIC最小的模型

在一般的情況下,AIC可以表示為【2】:


AIC=(2k-2L)/n?

它的假設(shè)條件是模型的誤差服從獨(dú)立正態(tài)分布。

其中:k是所擬合模型中參數(shù)的數(shù)量,L是對(duì)數(shù)似然值,n是觀測(cè)值數(shù)目。k小意味著模型簡(jiǎn)潔,L大意味著模型精確。因此在評(píng)價(jià)模型是兼顧了簡(jiǎn)潔性和精確性。

具體到,L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n為樣本量,sse為殘差平方和,L主要取決于殘差平方和,為負(fù)數(shù)

(所以還可以寫成:AIC = (2k + 2|L|)/n


解釋【1】:

在AIC之前,我們需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。對(duì)于一批數(shù)據(jù),假設(shè)存在一個(gè)真實(shí)的模型f,還有一組可供選擇的模型g1、g2、g3…gi,而K-L 距離就是用模型 gi 去估計(jì)真實(shí)模型 f 過程中損失的信息。可見K-L 距離越小,用模型 gi 估計(jì)真實(shí)模型 f 損失的信息越少,相應(yīng)的模型 gi 越好。

然后,問題來了。怎么計(jì)算每個(gè)模型 gi 和真實(shí)模型 f 的距離呢?因?yàn)槲覀儾恢勒鎸?shí)模型 f,所以沒辦法直接計(jì)算每個(gè)模型的K-L距離,但可以通過信息損失函數(shù)去估計(jì)K-L距離。日本統(tǒng)計(jì)學(xué)家Akaike發(fā)現(xiàn)log似然函數(shù)和K-L距離有一定關(guān)系,并在1974年提出Akaike information criterion,AIC。通常情況下,AIC定義為:AIC=2k-2ln(L),其中k是模型參數(shù)個(gè)數(shù),L是似然函數(shù)。

-2ln(L)反映模型的擬合情況,當(dāng)兩個(gè)模型之間存在較大差異時(shí),差異主要體現(xiàn)在似然函數(shù)項(xiàng)-2ln(L),當(dāng)似然函數(shù)差異不顯著時(shí),模型參數(shù)的懲罰項(xiàng)2k則起作用,隨著模型中參數(shù)個(gè)數(shù)增加,2k增大,AIC增大,從而參數(shù)個(gè)數(shù)少的模型是較好的選擇。AIC不僅要提高模型擬合度,而且引入了懲罰項(xiàng),使模型參數(shù)盡可能少,有助于降低過擬合的可能性。然后,選一個(gè)AIC最小的模型就可以了。

BIC

BIC=-2 ln(L) +?ln(n)*k

BIC的懲罰項(xiàng)比AIC的大,考慮了樣本數(shù)量,樣本數(shù)量過多時(shí),可有效防止模型精度過高造成的模型復(fù)雜度過高。

AIC和BIC的原理是不同的,AIC是從預(yù)測(cè)角度,選擇一個(gè)好的模型用來預(yù)測(cè),BIC是從擬合角度,選擇一個(gè)對(duì)現(xiàn)有數(shù)據(jù)擬合最好的模型,從貝葉斯因子的解釋來講,就是邊際似然最大的那個(gè)模型


參考資料

【1】http://www.360doc.com/content/18/0729/23/58010060_774288493.shtml? ??AIC,一個(gè)越小越好的指標(biāo)

【2】百度百科:赤池信息量準(zhǔn)則 AIC

【3】https://blog.csdn.net/xianlingmao/article/details/7891277? ??模型選擇的幾種方法:AIC,BIC,HQ準(zhǔn)則

【4】https://cosx.org/2015/08/some-basic-ideas-and-methods-of-model-selection? ?模型選擇的一些基本思想和方法

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 在學(xué)習(xí)深度學(xué)習(xí)時(shí),我們經(jīng)常會(huì)聽到AIC, BIC 還有l(wèi)1, lasso 等regularization 的知識(shí)。...
    云時(shí)之間閱讀 2,479評(píng)論 0 5
  • 很多參數(shù)估計(jì)問題均采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)足夠多時(shí),可以不斷提高模型精度,但是以提高模型復(fù)雜度為代價(jià)的...
    城市中迷途小書童閱讀 51,673評(píng)論 0 13
  • 此處模型選擇我們只考慮模型參數(shù)數(shù)量,不涉及模型結(jié)構(gòu)的選擇。 很多參數(shù)估計(jì)問題均采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)...
    井底蛙蛙呱呱呱閱讀 5,038評(píng)論 0 2
  • 一、基本概念 1.隨機(jī)時(shí)序分析的基本概念1)隨機(jī)變量:簡(jiǎn)單的隨機(jī)現(xiàn)象,如某班一天學(xué)生出勤人數(shù),是靜態(tài)的。2)隨機(jī)過...
    apricoter閱讀 6,735評(píng)論 0 10
  • 1 概念 ARIMA模型,全稱為自回歸積分滑動(dòng)平均模型(Autoregressive Integrated ...
    風(fēng)逝流沙閱讀 45,452評(píng)論 1 48

友情鏈接更多精彩內(nèi)容