正則化處理

過擬合

過擬合本質(zhì)上是模型太過復(fù)雜,復(fù)雜到消弱了模型的泛化能力。由于訓(xùn)練數(shù)據(jù)時有限的,因此總可以通過增加參數(shù)的的方式來提升模型的復(fù)雜度,降低訓(xùn)練誤差??烧缒銓W(xué)習(xí)的領(lǐng)域越專精,可應(yīng)用的范圍可能越窄,則在模型訓(xùn)練中就是指過擬合。


過擬合

如圖所示的紅色曲線就是過擬合。

正則化

正則化是用于抑制過擬合方法的統(tǒng)稱,通過動態(tài)調(diào)整模型參數(shù)的取值 來降低模型的復(fù)雜度。這是因?yàn)楫?dāng)一些參數(shù)的取值足夠小時,參數(shù)對應(yīng)的屬性對結(jié)果的影響微乎其微,這在實(shí)質(zhì)上去除了非相關(guān)屬性的影響。

線性模型中的正則化

在線性回歸里,最常見的正則化方式就是在損失函數(shù)中添加正則化項(xiàng),而添加的正則化項(xiàng)往往是待估計參數(shù)的 p- 范數(shù)。將均方誤差和參數(shù)的范數(shù)之和作為一個整體來進(jìn)行約束優(yōu)化,相當(dāng)于額外添加了一重關(guān)于參數(shù)的限制條件,避免大量參數(shù)同時出現(xiàn)較大的取值。由于正則化的作用通常是讓參數(shù)估計值的幅度下降,因此在統(tǒng)計學(xué)中它也被稱為系數(shù)收縮方法。

L1正則化

L2正則化

其中的 α是用來平衡均方誤差和參數(shù)約束的超參數(shù)。當(dāng)正則化項(xiàng)為 1- 范數(shù)時,修正結(jié)果就是LASSO;當(dāng)正則化項(xiàng)為 2- 范數(shù)的平方時,修正結(jié)果就是嶺回歸。
本來解空間是全部區(qū)域,但通過正則化添加了一些約束,使得解空間變小了,甚至在個別正則化方式下,解變得稀疏了,如圖所示兩種正則化的區(qū)別:
正則化對線性回歸的改進(jìn)

w1,w2都是模型的參數(shù),要優(yōu)化的目標(biāo)參數(shù)。藍(lán)色的圓圈表示沒有經(jīng)過限制的損失函數(shù)在尋找最小值過程中,w的不斷迭代(隨最小二乘法,最終目的還是使損失函數(shù)最小)變化情況,表示的方法是等高線,z軸的值就是 E(w)。

那個紅色邊框包含的區(qū)域,其實(shí)就是解空間,只能在這個縮小了的空間中,尋找使得目標(biāo)函數(shù)最小的w1,w2。左邊圖是嶺回歸,是由于采用了L2范數(shù)正則化項(xiàng)的緣故,要求兩個參數(shù)的平方和小于某個固定的參數(shù),所以是圓形。右邊的LASSO,是由于采用了L1范數(shù)作為正則化項(xiàng),要求兩個參數(shù)的絕對值之和小于某個固定值,所以解空間是方形。

圖中藍(lán)色和紅色的交點(diǎn)就是最優(yōu)參數(shù)解,交點(diǎn)出現(xiàn)的位子取決于邊界的情況,嶺回歸的邊界是曲線,誤差等值線可以在任意位置和邊界相切。LASSO邊界是直線,因此切點(diǎn)最可能出現(xiàn)在方形的頂點(diǎn)上,這就意味著某個參數(shù)的取值為0。
嶺回歸:衰減不同屬性的權(quán)重,讓所有屬性向圓心收攏。
LASSO:直接將某些屬性的權(quán)重降為0,是對屬性的過濾篩選。

兩種正則化的選擇

當(dāng)屬性的數(shù)目遠(yuǎn)遠(yuǎn)大于樣本的數(shù)目的高緯度統(tǒng)計問題,并且不少屬性間還存在著相關(guān)性時,建議使用LASSO回歸來屬性的數(shù)目。LASSO回歸會讓很多屬性的系數(shù)變成0,保留一些系數(shù)較大的屬性,這個時候系數(shù)的取值會對結(jié)果又較大影響,因此需要對屬性的取值范圍進(jìn)行調(diào)整,比如標(biāo)準(zhǔn)化。

當(dāng)樣本數(shù)遠(yuǎn)大于屬性數(shù)時,嶺回歸更快,嶺回歸不會刪除屬性,會對屬性的取值范圍進(jìn)行壓縮,特征值小的特征向量會被壓縮的很厲害,因此要求屬性的取值范圍差不多,這樣系數(shù)差不多,壓縮更有意義。

參考資料:王天一,機(jī)器學(xué)習(xí)40講。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容