1. 正則化
正則化項(xiàng)的作用是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)較小的模型,防止過擬合,提升模型泛化能力(generalization ability)。
PS: 泛化能力:學(xué)習(xí)模型對(duì)未知數(shù)據(jù)的預(yù)測能力稱為泛化能力
正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值越大。正則化項(xiàng)可以是模型參數(shù)向量的范數(shù)。
正則化一般形式:

第1項(xiàng)經(jīng)驗(yàn)風(fēng)險(xiǎn),第2項(xiàng)正則化項(xiàng),λ>=0是調(diào)整兩者之間關(guān)系的系數(shù)。(權(quán)重)
L1(常量權(quán)重)、L2略
L1和L2比較
L1減少一個(gè)常量(η,λ,n根據(jù)輸入都是固定的,sgn(w)為1或-1,故為常量),而L2減少的是權(quán)重的一個(gè)固定的比例;如果權(quán)重本身很大的話,L2減少的比L1減少的多,若權(quán)重小,則L1減少的更多。多以L1傾向于集中在少部分重要的連接上(w?。_@里要注意的是:sgn(w)在w=0時(shí)不可導(dǎo),故要事先令sgn(w)在w=0時(shí)的導(dǎo)數(shù)為0。
來自:神經(jīng)網(wǎng)絡(luò)九:Regularization(正則化)與Dropout
機(jī)器學(xué)習(xí)之正則化(Regularization)
2.Dropout
正則化方法:L1和L2 regularization、數(shù)據(jù)集擴(kuò)增、dropout
3. 交叉驗(yàn)證(Cross validation)
3.1 樣本充足時(shí):
隨機(jī)分為訓(xùn)練集、驗(yàn)證集、測試集。訓(xùn)練集訓(xùn)練模型、驗(yàn)證集選擇模型、測試集評(píng)估模型。
在學(xué)習(xí)不同復(fù)雜的模型時(shí),選擇對(duì)驗(yàn)證集有最小預(yù)測誤差的模型。因?yàn)轵?yàn)證集有足夠多的數(shù)據(jù),用它對(duì)模型進(jìn)行選擇也是有效的。
3.2 樣本不足:
3.2.1. 簡單交叉驗(yàn)證:
隨機(jī)分成兩部分:訓(xùn)練集和測試集(如70%和30%)
訓(xùn)練集各種條件下(如不同參數(shù))訓(xùn)練模型,得到不同模型
在測試集上評(píng)價(jià)各模型的測試誤差,選出測試誤差最小的模型
3.2.2. S折交叉驗(yàn)證(S-fold cross validation):
應(yīng)用最多。
隨機(jī)將數(shù)據(jù)分為S個(gè)等大小、不相交的子集;
利用S-1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測試模型;
重復(fù)這一過程(S種選擇);
最后選出S次測評(píng)中平均測試誤差最小的模型
3.2.3. 留一交叉驗(yàn)證
S折交叉驗(yàn)證的特殊情況:
S = N, N是給定數(shù)據(jù)集的容量。(數(shù)據(jù)缺乏時(shí)使用)