深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò):AIC,BIC,L1,L2

在學(xué)習(xí)深度學(xué)習(xí)時(shí),我們經(jīng)常會(huì)聽(tīng)到AIC, BIC 還有l(wèi)1, lasso 等regularization 的知識(shí)。

但是隨之產(chǎn)生了一些問(wèn)題,其中一個(gè)就是AIC,BIC和l1,l2的應(yīng)用場(chǎng)景是不是相同或者有重疊的地方?

首先先讓我們思考兩個(gè)問(wèn)題

1)實(shí)現(xiàn)參數(shù)的稀疏有什么好處嗎?

一個(gè)好處是可以簡(jiǎn)化模型,避免過(guò)擬合。因?yàn)橐粋€(gè)模型中真正重要的參數(shù)可能并不多,如果考慮所有的參數(shù)起作用,那么可以對(duì)訓(xùn)練數(shù)據(jù)可以預(yù)測(cè)的很好,但是對(duì)測(cè)試數(shù)據(jù)就只能呵呵了。另一個(gè)好處是參數(shù)變少可以使整個(gè)模型獲得更好的可解釋性。

2)參數(shù)值越小代表模型越簡(jiǎn)單嗎?

是的。為什么參數(shù)越小,說(shuō)明模型越簡(jiǎn)單呢,這是因?yàn)樵綇?fù)雜的模型,越是會(huì)嘗試對(duì)所有的樣本進(jìn)行擬合,甚至包括一些異常樣本點(diǎn),這就容易造成在較小的區(qū)間里預(yù)測(cè)值產(chǎn)生較大的波動(dòng),這種較大的波動(dòng)也反映了在這個(gè)區(qū)間里的導(dǎo)數(shù)很大,而只有較大的參數(shù)值才能產(chǎn)生較大的導(dǎo)數(shù)。因此復(fù)雜的模型,其參數(shù)值會(huì)比較大。

接下來(lái)我將對(duì)AIC和BIC以及L系列正規(guī)化進(jìn)行一些介紹:

1:AIC和BIC

AIC和BIC是同一個(gè)指標(biāo),一般用于選擇模型,也就是模型的比較優(yōu)劣

他們的不同之處在于

AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion

BIC=-2 ln(L) + ln(n)*k 中文名字:貝葉斯信息量 bayesian information criterion

HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion

構(gòu)造這些統(tǒng)計(jì)量所遵循的統(tǒng)計(jì)思想是一致的,就是在考慮擬合殘差的同時(shí),依自變量個(gè)數(shù)施加“懲罰”。

但,倘若因此就說(shuō)它們是同一個(gè)指標(biāo),恐怕還是有些不妥,畢竟“懲罰”的力度還是不盡相同的。

此外,這些信息量的用途不僅限于選擇模型,還能用于選取合適的變換等等。而在那些時(shí)候,這些信息量又是另一個(gè)模樣,也就是說(shuō)它們有許多變體。因此,它們也被稱為AIC準(zhǔn)則、BIC準(zhǔn)則等等。它們中的每一個(gè)體現(xiàn)的都是一系列的標(biāo)準(zhǔn),而非單獨(dú)的一個(gè)簡(jiǎn)單式子

[有關(guān)赤池信息量的更多信息可以參照一下的博客BIC AIC HQ - s1491695565的專欄 - 博客頻道 - CSDN.NET]

2:L0,L1,L2正則化的一些介紹:

在機(jī)器學(xué)習(xí)中,我們聽(tīng)到的L0,L1這樣的正則化方法比AIC,BIC要多得多,那么這些正則化的概念是什么呢?

1:正則化概念

L0正則化的值是模型參數(shù)中非零參數(shù)的個(gè)數(shù)。

L1正則化表示各個(gè)參數(shù)絕對(duì)值之和。

L2正則化標(biāo)識(shí)各個(gè)參數(shù)的平方的和的開(kāi)方值。

1:L0正則化

從我們開(kāi)頭的那兩個(gè)問(wèn)題我們可以知道,稀疏的參數(shù)可以有效地解決過(guò)擬合的問(wèn)題,因此我們可以用非零參數(shù)的個(gè)數(shù)去做正則化的運(yùn)算來(lái)去解決過(guò)擬合的問(wèn)題.但是因?yàn)長(zhǎng)0正則化很難求解,是一個(gè)NP,所以我們一般都采用L1正則化.

2:L1正則化

因?yàn)長(zhǎng)1正則化是L0正則化的最優(yōu)凸近似,并且在比L0更好求解的同時(shí),也可以實(shí)現(xiàn)稀疏的效果,因此在實(shí)際過(guò)程中L1常常用來(lái)代替L0,來(lái)防止過(guò)擬合,L1之所以可以解決過(guò)擬合,是因?yàn)長(zhǎng)1的范數(shù)是各個(gè)參數(shù)的絕對(duì)值相加得到的,我們?cè)谥坝懻摿藚?shù)的大小和模型的復(fù)雜度是成正比對(duì)的,因此越是復(fù)雜的模型,其中的L1范數(shù)也就越大,最終導(dǎo)致的損失函數(shù)也就越大,其實(shí)也就說(shuō)明這個(gè)模型不夠優(yōu)秀.

3:L2正則化

L2和L1正則化去解決過(guò)擬合的方法基本一樣,只是形式的表現(xiàn)上有所區(qū)別,L2范數(shù)是各參數(shù)的平方和再求平方根,我們讓L2范數(shù)的正則項(xiàng)

最小,可以使W的每個(gè)元素都很小,都接近于0。但與L1范數(shù)不一樣的是,它不會(huì)是每個(gè)元素為0,而只是接近于0。越小的參數(shù)說(shuō)明模型越簡(jiǎn)單,越簡(jiǎn)單的模型越不容易產(chǎn)生過(guò)擬合現(xiàn)象。

對(duì)著兩種進(jìn)行對(duì)比,L1會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都是0,而L2會(huì)選擇更多的特征,這些特征都會(huì)接近于0。L1在特征選擇時(shí)候非常有用,而L2就只是一種規(guī)則化而已。在所有特征中只有少數(shù)特征起重要作用的情況下,選擇L1比較合適,因?yàn)樗茏詣?dòng)選擇特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用L2也許更合適。

回到我們的文章最先的問(wèn)題中,我們應(yīng)該怎么選擇AIC和BIC以及L系類正則化問(wèn)題中,我想在機(jī)器學(xué)習(xí)領(lǐng)域,大家對(duì) L1和 L2 說(shuō)的很贊,他們就是不同的正則化方式,主要用于參數(shù)學(xué)習(xí)。但是AIC/BIC 雖然也是一種正則化,但他們多用于結(jié)構(gòu)選擇。比如貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)時(shí),單純用似然會(huì)導(dǎo)致極其稠密的網(wǎng)絡(luò),使用這兩種信息準(zhǔn)則替代似然,會(huì)得到比較滿意的解。

l1, l2 是在模型訓(xùn)練的過(guò)程中通過(guò)正則項(xiàng)來(lái)控制feature 個(gè)數(shù),達(dá)到防止模型過(guò)擬合的問(wèn)題。

AIC,BIC是在已經(jīng)訓(xùn)練出來(lái)的模型中選擇更好的那個(gè)模型時(shí)候的判斷準(zhǔn)則。

他們的共性是都是為了找到更好的模型。 區(qū)別是l1,l2在模型訓(xùn)練的過(guò)程中通過(guò)加約束來(lái)達(dá)到生成更好的模型的目的。 而AIC,BIC是在已經(jīng)訓(xùn)練好的不同模型里面篩選出相對(duì)最好的那個(gè)模型,目的不同,最終的結(jié)果也一定有所差距.

好了,這就是這篇文章的所有內(nèi)容,大家如果有更好的建議和觀點(diǎn)也希望和我一起多多討論

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容