正則化懲罰項(xiàng)

1、正則化定義
在使用神經(jīng)網(wǎng)絡(luò)時(shí),為了增加模型的泛化能力,防止模型只在訓(xùn)練集上有效、在測(cè)試集上不夠有效。正則化是為了防止過(guò)擬合, 進(jìn)而增強(qiáng)泛化能力。用白話(huà)文轉(zhuǎn)義,泛化誤差(generalization error)= 測(cè)試誤差(test error)。也可以說(shuō)是為了使得訓(xùn)練數(shù)據(jù)訓(xùn)練的模型在測(cè)試集上的表現(xiàn)更加優(yōu)異。

為什么泛化能力不行呢?

描述的數(shù)據(jù)內(nèi)容和屬性越豐富詳實(shí)則約束越多,識(shí)別的泛化性就差,代表的事物就少。(注意力不集中)

2、正則化懲罰項(xiàng)

正則化懲罰項(xiàng)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中用于防止模型過(guò)擬合、提高泛化能力的一種重要技術(shù)。通過(guò)在損失函數(shù)中添加額外的懲罰項(xiàng),正則化可以限制模型參數(shù)(和數(shù)據(jù)復(fù)雜度密切相關(guān))的大小,從而簡(jiǎn)化模型,降低其復(fù)雜度。

那么為什么加上了正則化項(xiàng)能在一定程度上避免過(guò)擬合呢?

損失函數(shù)產(chǎn)生的損失在學(xué)術(shù)上稱(chēng)為“經(jīng)驗(yàn)風(fēng)險(xiǎn)”,后半部分正則化懲罰項(xiàng)產(chǎn)生的損失(加入的正則化項(xiàng)的部分)叫做“結(jié)構(gòu)風(fēng)險(xiǎn)”。所謂的“經(jīng)驗(yàn)風(fēng)險(xiǎn)”就是指由于擬合結(jié)果和樣本標(biāo)簽之間的殘差總和所產(chǎn)生的經(jīng)驗(yàn)性差距所帶來(lái)的風(fēng)險(xiǎn)----畢竟差距越大,擬合失效的可能性就越大(數(shù)據(jù)越復(fù)雜模型越容易過(guò)擬合);“結(jié)構(gòu)風(fēng)險(xiǎn)”就是剛才提到的模型不夠“簡(jiǎn)潔”帶來(lái)的風(fēng)險(xiǎn),為使模型簡(jiǎn)潔泛化性能好。

3、正則化的方法

L1正則化:L1正則化通過(guò)添加模型參數(shù)絕對(duì)值的和作為懲罰項(xiàng),使得一些參數(shù)變?yōu)榱?,從而?shí)現(xiàn)特征選擇的效果。

整個(gè)模型中的所有權(quán)重w的絕對(duì)值加起來(lái)除以樣本數(shù)量,其中是一個(gè)懲罰的權(quán)重,可以稱(chēng)為正則化系數(shù)或者懲罰系數(shù),表示對(duì)懲罰的重視程度。如果很重視結(jié)構(gòu)風(fēng)險(xiǎn),即不希望結(jié)構(gòu)風(fēng)險(xiǎn)太大,我們就加大,迫使整個(gè)損失函數(shù)向著權(quán)值w減小的方向移動(dòng),換句話(huà)說(shuō),w的值越多、越大,整個(gè)因子的值就越大,也就是越不簡(jiǎn)潔


公式簡(jiǎn)化:|W|

L2正則化:L2正則化,也稱(chēng)為權(quán)重衰減,通過(guò)添加模型參數(shù)平方的和作為懲罰項(xiàng),使得參數(shù)值更加接近原點(diǎn),但不會(huì)變?yōu)榱?,有助于減小參數(shù)值,避免過(guò)大的權(quán)重導(dǎo)致過(guò)擬合。

做平方求和在除以n


公式簡(jiǎn)化:|w2|

懲罰系數(shù)λ為超參數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容