深度學(xué)習(xí)中的正則化(一)

  • 本文首發(fā)自公眾號:RAIS,點擊直接關(guān)注。

前言

本系列文章為《Deep Learning》讀書筆記,可以參看原書一起閱讀,效果更佳。本文我們聊一聊深度學(xué)習(xí)中的正則化。

深度學(xué)習(xí)中的正則化

一般來說,深度學(xué)習(xí)所要做的事情是用已有的訓(xùn)練集訓(xùn)練一個網(wǎng)絡(luò)模型,然后針對新的數(shù)據(jù)給出預(yù)測,我們期望我們的模型在訓(xùn)練集和測試集上都有良好的表現(xiàn),但是有的時候兩者不可兼得。一種情況是在訓(xùn)練集上表現(xiàn)很好,在測試集上表現(xiàn)不好或表現(xiàn)一般;另一種情況是在訓(xùn)練集上表現(xiàn)不好或表現(xiàn)一般,在測試集上表現(xiàn)很好。相比較而言我們更傾向于后者,因為這是我們訓(xùn)練模型的目的。

為什么會出現(xiàn)這種情況,難道不是應(yīng)該訓(xùn)練集上表現(xiàn)的越好在測試集上表現(xiàn)越好嗎?不是的,我們在前面的文章中分析過,過度的擬合一個訓(xùn)練集往往會放大哪些沒有那么重要的向量或因素,過擬合會導(dǎo)致泛化能力的下降,正則化就是為了減小測試誤差的,雖然有的時候可能會以增大訓(xùn)練誤差為代價,但是這是值得的,這些策略統(tǒng)稱為正則化。下面給出一個簡單的非嚴(yán)謹(jǐn)?shù)恼齽t化定義:

正則化:減小泛化誤差而不是訓(xùn)練誤差所做的對算法的修改

我們經(jīng)常會對估計進(jìn)行正則化,估計的正則化采取的方式是以偏差的增大來換取方差的減小,尤其是顯著的減小方差而較小的增大偏差往往是我們追求的目標(biāo)。接下來我們就分別分析介紹一下正則化的策略。

正則化的策略

參數(shù)范數(shù)懲罰

\widetilde{J}(θ; X, y) = J(θ; X, y) + αΩ(θ), α∈[0, ∞)

α 是懲罰參數(shù),當(dāng) α 為 0 時代表沒有懲罰;Ω 是范數(shù)懲罰項;J 為目標(biāo)。神經(jīng)網(wǎng)絡(luò)中,參數(shù)包括每一層的仿射變換的權(quán)重和偏置,我們只對權(quán)重做懲罰。

L2 正則化(權(quán)重衰減)

感知有較高方差輸入,與輸出目標(biāo)協(xié)方差較小的特征的權(quán)重會收縮。

目標(biāo)函數(shù):\widetilde{J}(θ; X, y) = J(θ; X, y) + \frac{α}{2}w^Tw,Ω(θ)=\frac{1}{2}||w||^2_2 \\ 梯度:\nabla_w\widetilde{J}(θ;X,y)=αw+\nabla_wJ(θ;X,y) \\ 單步梯度下降更新權(quán)重:w\leftarrow w-\epsilon(αw+\nabla_wJ(θ;X,y))

L1 正則化

目標(biāo)函數(shù):\widetilde{J}(θ; X, y) = J(θ; X, y) + α||w||_1 \\ 梯度:\nabla_w\widetilde{J}(θ;X,y)=αsign(w)+\nabla_wJ(θ;X,y)

總結(jié)

本文描述了正則化策略中最常見的一種,參數(shù)范數(shù)懲罰,并介紹了 L2 和 L1 兩種最常見的范數(shù)懲罰策略。

  • 本文首發(fā)自公眾號:RAIS,點擊直接關(guān)注。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容