L1正則化和L2正則化

在這里我們首先需要明白結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理:

在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(訓(xùn)練誤差最小化)的基礎(chǔ)上,盡可能采用簡(jiǎn)單的模型,以提高模型泛化預(yù)測(cè)精度

我們所謂的正則化,就是在原來(lái) Loss Function 的基礎(chǔ)上,加了一些正則化項(xiàng),或者叫做模型復(fù)雜度懲罰項(xiàng)。以我們的線性回歸為例子。

優(yōu)化目標(biāo)(損失函數(shù)):
\min \frac{1}{2m}\sum_{i=1}^{m}(f(x)-y^{(i)})^2

加上L1正則項(xiàng)(lasso回歸):
\min \frac{1}{2m}\sum_{i=1}^{m}(f(x)-y^{(i)})^2+C||\omega||_1
加上L2正則項(xiàng)(Ridge回歸):
\min \frac{1}{2m}\sum_{i=1}^{m}(f(x)-y^{(i)})^2+C||\omega||_2^2
下面我們需要理解加了正則化項(xiàng)之后,對(duì)于目標(biāo)函數(shù)求解的時(shí)候,最終解有什么變化。

我們從圖像角度來(lái)理解:

假設(shè)X是一個(gè)二維樣本,那么要求解的參數(shù)也 也是二維的。下圖叫做原函數(shù)曲線等高線圖。目標(biāo)函數(shù)在圖中的等高線(同顏色)每一組 , ? 帶入值都想同,這里代表著多組解。


原函數(shù)等高線圖

下面看L1和L2正則項(xiàng)加入后的函數(shù)圖像:


加入正則化

對(duì)比兩幅圖我們可以看出來(lái):

  • 如果不加L1和L2正則項(xiàng),對(duì)于線性回歸損失函數(shù)這樣的凸函數(shù),我們的最終結(jié)果就是最里面紫色小圈圈等高線上的點(diǎn)。

  • 當(dāng)加入L1正則化的時(shí)候,我們先畫(huà)出 ? 的圖像,就是這個(gè)菱形。此時(shí),我們的目標(biāo)不僅是原來(lái)的曲線值要越?。ń咏行淖仙θΓ€要使得這個(gè)菱形越小越好(F越小越好)。那么如果和原來(lái)的解一樣的話,這個(gè)菱形明顯很大。

L1范數(shù)求解圖

下面看這幾步:

  1. 以同一條原曲線等高線來(lái)說(shuō),現(xiàn)在用最外面的紅色圈圈為例子,對(duì)于這個(gè)圈圈,過(guò)其每個(gè)點(diǎn)都可以做一個(gè)菱形,如上圖易知,當(dāng)這個(gè)菱形與某條等高線相切時(shí)候,這個(gè)菱形最小,對(duì)應(yīng)的L1范數(shù)更小。

    體現(xiàn)在公式上面,在相同的 下,由于相切的時(shí)候小,即 小,所以能夠使得二者加起來(lái)更小,即lasso回歸更小。

  2. 我們可以看到,為了得到 lasso回歸 的解,一定是某個(gè)菱形和某條原函數(shù)等高線的切點(diǎn)。觀察可以得到,幾乎所有的原函數(shù)等高曲線,和某個(gè)菱形相交的時(shí)候容易相交在坐標(biāo)軸上,也就是說(shuō),最終的結(jié)果中,某些維度的解是容易等于0的,比如上圖的是, 這就是我們所說(shuō)的加入L1正則化范數(shù)之后更容易得到稀疏解(解向量中0比較多)的原因。

  3. 當(dāng)然,我們可以通過(guò)理論來(lái)證明。用求導(dǎo)來(lái)證明。考慮一維情況下,其中 是 lasso 回歸的目標(biāo)函數(shù),) 是沒(méi)有正則化之前的損失函數(shù),剩下的是L1正則項(xiàng),那么要使得0點(diǎn)成為最值可能的點(diǎn),雖然目標(biāo)函數(shù)在0點(diǎn)不可導(dǎo),但是我們只需要讓0點(diǎn)左右的導(dǎo)函數(shù)異號(hào)即可,即h^`_左(0)*h^`_右(0)=(f^`(0)+C)(f^`(0)-C)<0即可,也就是說(shuō) 的情況下,0點(diǎn)都是可能的最值點(diǎn)。

L2正則化(嶺回歸)的證明類似。不過(guò)結(jié)論是L1正則化比L2正則化更加容易獲得稀疏解。

我們總結(jié)一下,正則化之所以能夠降低的原因在于,正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一種策略實(shí)現(xiàn)。

給 loss function 加上正則項(xiàng),新得到的目標(biāo)函數(shù) h = f+normal,需要在 f 和 normal 中做一個(gè) trade-off。如果還是像原來(lái)只優(yōu)化 f,那么normal就比較大, h 就不能得到最優(yōu)解。因此可以看出加正則項(xiàng)可以讓解更加簡(jiǎn)單,符合奧卡姆剃刀理論;同時(shí)也符合在偏差和方差(方差表示模型的復(fù)雜度)分析中,通過(guò)降低模型復(fù)雜度,得到更小的泛化誤差,降低過(guò)擬合。

看一下L1正則化和L2正則化的區(qū)別:

L1正則化就是在 loss function 后面加上L1范數(shù),這樣比較容易求到稀疏解。L2 正則化是在 LF 后面加 L2范數(shù) 平方,相比L1正則來(lái)說(shuō),得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近于0(不等0)的維度比較多,降低模型的復(fù)雜度。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容