推薦看一下參考文獻(xiàn)【4】
引入【3】
經(jīng)常地,對(duì)一堆數(shù)據(jù)進(jìn)行建模的時(shí)候,特別是分類和回歸模型,我們有很多的變量可供使用,選擇不同的變量組合可以得到不同的模型,例如我們有5個(gè)變量,2的5次方,我們將有32個(gè)變量組合,可以訓(xùn)練出32個(gè)模型。但是哪個(gè)模型更加的好呢?目前常用有如下方法:
AIC=-2 ln(L) + 2?k??中文名字:赤池信息量 akaike information criterion
BIC=-2 ln(L) +?ln(n)*k 中文名字:貝葉斯信息量 bayesian information criterion
HQ=-2 ln(L) +?ln(ln(n))*k??hannan-quinn criterion
L是在該模型下的最大似然,n是數(shù)據(jù)數(shù)量,k是模型的變量個(gè)數(shù)
三個(gè)模型A, B, C,在通過這些規(guī)則計(jì)算后,我們知道B模型是三個(gè)模型中最好的,但是不能保證B這個(gè)模型就能夠很好地刻畫數(shù)據(jù),因?yàn)楹苡锌赡苓@三個(gè)模型都是非常糟糕的,B只是爛蘋果中的相對(duì)好的蘋果而已。
這些規(guī)則理論上是比較漂亮的,但是實(shí)際在模型選擇中應(yīng)用起來還是有些困難的,我們不可能對(duì)所有這些模型進(jìn)行一一驗(yàn)證AIC, BIC,HQ規(guī)則來選擇模型,工作量太大。
AIC
赤池信息量準(zhǔn)則,即Akaike information criterion、簡(jiǎn)稱AIC,是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),是由日本統(tǒng)計(jì)學(xué)家赤池弘次創(chuàng)立和發(fā)展的。赤池信息量準(zhǔn)則建立在熵的概念基礎(chǔ)上。
AIC越小,模型越好,通常選擇AIC最小的模型
在一般的情況下,AIC可以表示為【2】:
AIC=(2k-2L)/n?
它的假設(shè)條件是模型的誤差服從獨(dú)立正態(tài)分布。
其中:k是所擬合模型中參數(shù)的數(shù)量,L是對(duì)數(shù)似然值,n是觀測(cè)值數(shù)目。k小意味著模型簡(jiǎn)潔,L大意味著模型精確。因此在評(píng)價(jià)模型是兼顧了簡(jiǎn)潔性和精確性。
具體到,L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n為樣本量,sse為殘差平方和,L主要取決于殘差平方和,為負(fù)數(shù)
(所以還可以寫成:AIC = (2k + 2|L|)/n
解釋【1】:
在AIC之前,我們需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。對(duì)于一批數(shù)據(jù),假設(shè)存在一個(gè)真實(shí)的模型f,還有一組可供選擇的模型g1、g2、g3…gi,而K-L 距離就是用模型 gi 去估計(jì)真實(shí)模型 f 過程中損失的信息。可見K-L 距離越小,用模型 gi 估計(jì)真實(shí)模型 f 損失的信息越少,相應(yīng)的模型 gi 越好。
然后,問題來了。怎么計(jì)算每個(gè)模型 gi 和真實(shí)模型 f 的距離呢?因?yàn)槲覀儾恢勒鎸?shí)模型 f,所以沒辦法直接計(jì)算每個(gè)模型的K-L距離,但可以通過信息損失函數(shù)去估計(jì)K-L距離。日本統(tǒng)計(jì)學(xué)家Akaike發(fā)現(xiàn)log似然函數(shù)和K-L距離有一定關(guān)系,并在1974年提出Akaike information criterion,AIC。通常情況下,AIC定義為:AIC=2k-2ln(L),其中k是模型參數(shù)個(gè)數(shù),L是似然函數(shù)。
-2ln(L)反映模型的擬合情況,當(dāng)兩個(gè)模型之間存在較大差異時(shí),差異主要體現(xiàn)在似然函數(shù)項(xiàng)-2ln(L),當(dāng)似然函數(shù)差異不顯著時(shí),模型參數(shù)的懲罰項(xiàng)2k則起作用,隨著模型中參數(shù)個(gè)數(shù)增加,2k增大,AIC增大,從而參數(shù)個(gè)數(shù)少的模型是較好的選擇。AIC不僅要提高模型擬合度,而且引入了懲罰項(xiàng),使模型參數(shù)盡可能少,有助于降低過擬合的可能性。然后,選一個(gè)AIC最小的模型就可以了。

BIC
BIC=-2 ln(L) +?ln(n)*k
BIC的懲罰項(xiàng)比AIC的大,考慮了樣本數(shù)量,樣本數(shù)量過多時(shí),可有效防止模型精度過高造成的模型復(fù)雜度過高。
AIC和BIC的原理是不同的,AIC是從預(yù)測(cè)角度,選擇一個(gè)好的模型用來預(yù)測(cè),BIC是從擬合角度,選擇一個(gè)對(duì)現(xiàn)有數(shù)據(jù)擬合最好的模型,從貝葉斯因子的解釋來講,就是邊際似然最大的那個(gè)模型
參考資料
【1】http://www.360doc.com/content/18/0729/23/58010060_774288493.shtml? ??AIC,一個(gè)越小越好的指標(biāo)
【2】百度百科:赤池信息量準(zhǔn)則 AIC
【3】https://blog.csdn.net/xianlingmao/article/details/7891277? ??模型選擇的幾種方法:AIC,BIC,HQ準(zhǔn)則
【4】https://cosx.org/2015/08/some-basic-ideas-and-methods-of-model-selection? ?模型選擇的一些基本思想和方法