1、正則化定義
在使用神經(jīng)網(wǎng)絡(luò)時(shí),為了增加模型的泛化能力,防止模型只在訓(xùn)練集上有效、在測(cè)試集上不夠有效。正則化是為了防止過(guò)擬合, 進(jìn)而增強(qiáng)泛化能力。用白話(huà)文轉(zhuǎn)義,泛化誤差(generalization error)= 測(cè)試誤差(test error)。也可以說(shuō)是為了使得訓(xùn)練數(shù)據(jù)訓(xùn)練的模型在測(cè)試集上的表現(xiàn)更加優(yōu)異。
為什么泛化能力不行呢?
描述的數(shù)據(jù)內(nèi)容和屬性越豐富詳實(shí)則約束越多,識(shí)別的泛化性就差,代表的事物就少。(注意力不集中)
2、正則化懲罰項(xiàng)
正則化懲罰項(xiàng)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中用于防止模型過(guò)擬合、提高泛化能力的一種重要技術(shù)。通過(guò)在損失函數(shù)中添加額外的懲罰項(xiàng),正則化可以限制模型參數(shù)(和數(shù)據(jù)復(fù)雜度密切相關(guān))的大小,從而簡(jiǎn)化模型,降低其復(fù)雜度。
那么為什么加上了正則化項(xiàng)能在一定程度上避免過(guò)擬合呢?
損失函數(shù)產(chǎn)生的損失在學(xué)術(shù)上稱(chēng)為“經(jīng)驗(yàn)風(fēng)險(xiǎn)”,后半部分正則化懲罰項(xiàng)產(chǎn)生的損失(加入的正則化項(xiàng)的部分)叫做“結(jié)構(gòu)風(fēng)險(xiǎn)”。所謂的“經(jīng)驗(yàn)風(fēng)險(xiǎn)”就是指由于擬合結(jié)果和樣本標(biāo)簽之間的殘差總和所產(chǎn)生的經(jīng)驗(yàn)性差距所帶來(lái)的風(fēng)險(xiǎn)----畢竟差距越大,擬合失效的可能性就越大(數(shù)據(jù)越復(fù)雜模型越容易過(guò)擬合);“結(jié)構(gòu)風(fēng)險(xiǎn)”就是剛才提到的模型不夠“簡(jiǎn)潔”帶來(lái)的風(fēng)險(xiǎn),為使模型簡(jiǎn)潔泛化性能好。
3、正則化的方法
L1正則化:L1正則化通過(guò)添加模型參數(shù)絕對(duì)值的和作為懲罰項(xiàng),使得一些參數(shù)變?yōu)榱?,從而?shí)現(xiàn)特征選擇的效果。
整個(gè)模型中的所有權(quán)重w的絕對(duì)值加起來(lái)除以樣本數(shù)量,其中是一個(gè)懲罰的權(quán)重,可以稱(chēng)為正則化系數(shù)或者懲罰系數(shù),表示對(duì)懲罰的重視程度。如果很重視結(jié)構(gòu)風(fēng)險(xiǎn),即不希望結(jié)構(gòu)風(fēng)險(xiǎn)太大,我們就加大,迫使整個(gè)損失函數(shù)向著權(quán)值w減小的方向移動(dòng),換句話(huà)說(shuō),w的值越多、越大,整個(gè)因子的值就越大,也就是越不簡(jiǎn)潔

公式簡(jiǎn)化:|W|
L2正則化:L2正則化,也稱(chēng)為權(quán)重衰減,通過(guò)添加模型參數(shù)平方的和作為懲罰項(xiàng),使得參數(shù)值更加接近原點(diǎn),但不會(huì)變?yōu)榱?,有助于減小參數(shù)值,避免過(guò)大的權(quán)重導(dǎo)致過(guò)擬合。
做平方求和在除以n

公式簡(jiǎn)化:|w2|
懲罰系數(shù)λ為超參數(shù)