正則化、Dropout與交叉驗(yàn)證2018-04-26

1. 正則化

正則化項(xiàng)的作用是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)較小的模型,防止過擬合,提升模型泛化能力(generalization ability)
PS: 泛化能力:學(xué)習(xí)模型對(duì)未知數(shù)據(jù)的預(yù)測能力稱為泛化能力
正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值越大。正則化項(xiàng)可以是模型參數(shù)向量的范數(shù)。
正則化一般形式:

正則化一般形式.png

第1項(xiàng)經(jīng)驗(yàn)風(fēng)險(xiǎn),第2項(xiàng)正則化項(xiàng),λ>=0是調(diào)整兩者之間關(guān)系的系數(shù)。(權(quán)重)
L1(常量權(quán)重)、L2略

L1和L2比較
L1減少一個(gè)常量(η,λ,n根據(jù)輸入都是固定的,sgn(w)為1或-1,故為常量),而L2減少的是權(quán)重的一個(gè)固定的比例;如果權(quán)重本身很大的話,L2減少的比L1減少的多,若權(quán)重小,則L1減少的更多。多以L1傾向于集中在少部分重要的連接上(w?。_@里要注意的是:sgn(w)在w=0時(shí)不可導(dǎo),故要事先令sgn(w)在w=0時(shí)的導(dǎo)數(shù)為0。
來自:神經(jīng)網(wǎng)絡(luò)九:Regularization(正則化)與Dropout

機(jī)器學(xué)習(xí)之正則化(Regularization)

2.Dropout

正則化方法:L1和L2 regularization、數(shù)據(jù)集擴(kuò)增、dropout

3. 交叉驗(yàn)證(Cross validation)

3.1 樣本充足時(shí):

隨機(jī)分為訓(xùn)練集、驗(yàn)證集、測試集。訓(xùn)練集訓(xùn)練模型、驗(yàn)證集選擇模型、測試集評(píng)估模型。
在學(xué)習(xí)不同復(fù)雜的模型時(shí),選擇對(duì)驗(yàn)證集有最小預(yù)測誤差的模型。因?yàn)轵?yàn)證集有足夠多的數(shù)據(jù),用它對(duì)模型進(jìn)行選擇也是有效的。

3.2 樣本不足:

3.2.1. 簡單交叉驗(yàn)證:

隨機(jī)分成兩部分:訓(xùn)練集和測試集(如70%和30%)
訓(xùn)練集各種條件下(如不同參數(shù))訓(xùn)練模型,得到不同模型
在測試集上評(píng)價(jià)各模型的測試誤差,選出測試誤差最小的模型

3.2.2. S折交叉驗(yàn)證(S-fold cross validation):

應(yīng)用最多。
隨機(jī)將數(shù)據(jù)分為S個(gè)等大小、不相交的子集;
利用S-1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測試模型;
重復(fù)這一過程(S種選擇);
最后選出S次測評(píng)中平均測試誤差最小的模型

3.2.3. 留一交叉驗(yàn)證

S折交叉驗(yàn)證的特殊情況:
S = N, N是給定數(shù)據(jù)集的容量。(數(shù)據(jù)缺乏時(shí)使用)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容