在這里我們首先需要明白結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理:
在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(訓(xùn)練誤差最小化)的基礎(chǔ)上,盡可能采用簡(jiǎn)單的模型,以提高模型泛化預(yù)測(cè)精度
我們所謂的正則化,就是在原來(lái) Loss Function 的基礎(chǔ)上,加了一些正則化項(xiàng),或者叫做模型復(fù)雜度懲罰項(xiàng)。以我們的線性回歸為例子。
優(yōu)化目標(biāo)(損失函數(shù)):
加上L1正則項(xiàng)(lasso回歸):
加上L2正則項(xiàng)(Ridge回歸):
下面我們需要理解加了正則化項(xiàng)之后,對(duì)于目標(biāo)函數(shù)求解的時(shí)候,最終解有什么變化。
我們從圖像角度來(lái)理解:
假設(shè)X是一個(gè)二維樣本,那么要求解的參數(shù)也 也是二維的。下圖叫做原函數(shù)曲線等高線圖。目標(biāo)函數(shù)在圖中的等高線(同顏色)每一組 , ? 帶入值都想同,這里代表著多組解。

下面看L1和L2正則項(xiàng)加入后的函數(shù)圖像:

對(duì)比兩幅圖我們可以看出來(lái):
如果不加L1和L2正則項(xiàng),對(duì)于線性回歸損失函數(shù)這樣的凸函數(shù),我們的最終結(jié)果就是最里面紫色小圈圈等高線上的點(diǎn)。
當(dāng)加入L1正則化的時(shí)候,我們先畫(huà)出 ? 的圖像,就是這個(gè)菱形。此時(shí),我們的目標(biāo)不僅是原來(lái)的曲線值要越?。ń咏行淖仙θΓ€要使得這個(gè)菱形越小越好(F越小越好)。那么如果和原來(lái)的解一樣的話,這個(gè)菱形明顯很大。

下面看這幾步:
-
以同一條原曲線等高線來(lái)說(shuō),現(xiàn)在用最外面的紅色圈圈為例子,對(duì)于這個(gè)圈圈,過(guò)其每個(gè)點(diǎn)都可以做一個(gè)菱形,如上圖易知,當(dāng)這個(gè)菱形與某條等高線相切時(shí)候,這個(gè)菱形最小,對(duì)應(yīng)的L1范數(shù)更小。
體現(xiàn)在公式上面,在相同的 下,由于相切的時(shí)候小,即 小,所以能夠使得二者加起來(lái)更小,即lasso回歸更小。
我們可以看到,為了得到 lasso回歸 的解,一定是某個(gè)菱形和某條原函數(shù)等高線的切點(diǎn)。觀察可以得到,幾乎所有的原函數(shù)等高曲線,和某個(gè)菱形相交的時(shí)候容易相交在坐標(biāo)軸上,也就是說(shuō),最終的結(jié)果中,某些維度的解是容易等于0的,比如上圖的是, 這就是我們所說(shuō)的加入L1正則化范數(shù)之后更容易得到稀疏解(解向量中0比較多)的原因。
當(dāng)然,我們可以通過(guò)理論來(lái)證明。用求導(dǎo)來(lái)證明。考慮一維情況下,其中 是 lasso 回歸的目標(biāo)函數(shù),) 是沒(méi)有正則化之前的損失函數(shù),剩下的是L1正則項(xiàng),那么要使得0點(diǎn)成為最值可能的點(diǎn),雖然目標(biāo)函數(shù)在0點(diǎn)不可導(dǎo),但是我們只需要讓0點(diǎn)左右的導(dǎo)函數(shù)異號(hào)即可,即
即可,也就是說(shuō) 的情況下,0點(diǎn)都是可能的最值點(diǎn)。
L2正則化(嶺回歸)的證明類似。不過(guò)結(jié)論是L1正則化比L2正則化更加容易獲得稀疏解。
我們總結(jié)一下,正則化之所以能夠降低的原因在于,正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一種策略實(shí)現(xiàn)。
給 loss function 加上正則項(xiàng),新得到的目標(biāo)函數(shù) h = f+normal,需要在 f 和 normal 中做一個(gè) trade-off。如果還是像原來(lái)只優(yōu)化 f,那么normal就比較大, h 就不能得到最優(yōu)解。因此可以看出加正則項(xiàng)可以讓解更加簡(jiǎn)單,符合奧卡姆剃刀理論;同時(shí)也符合在偏差和方差(方差表示模型的復(fù)雜度)分析中,通過(guò)降低模型復(fù)雜度,得到更小的泛化誤差,降低過(guò)擬合。
看一下L1正則化和L2正則化的區(qū)別:
L1正則化就是在 loss function 后面加上L1范數(shù),這樣比較容易求到稀疏解。L2 正則化是在 LF 后面加 L2范數(shù) 平方,相比L1正則來(lái)說(shuō),得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近于0(不等0)的維度比較多,降低模型的復(fù)雜度。