- 為什么要正則化?
- 正則化的本質(zhì)是什么?
- 正則化有哪些方法?
1.為什么要正則化?
正則化可以解決模型過擬合的問題,產(chǎn)生過擬合一般有三個原因:
-
訓練數(shù)據(jù)過少
如果數(shù)據(jù)本身就不夠多,無法覆蓋真實的數(shù)據(jù)分布,那么數(shù)據(jù)訓練會對現(xiàn)有的片面數(shù)據(jù)訓練過度
訓練數(shù)據(jù)過少 - 數(shù)據(jù)特征過多(也屬于模型過于復雜)
大道至簡,雖然影響一件事情的因素有很多,即使是有多元思維模型的人也難以窮盡這些因素,求解模型也一樣,總有幾個或者沒有那么多的特征才值得去重用,其他的權重稍微影響稍微有存在感即可 - 模型過于復雜
人腦善于把復雜的東西,進行歸納和總結,甚至是抽象出“概念”,即是越復雜的東西越難尋根問底,越難的東西不一定越高級、越好,數(shù)學公式向來都是美妙而簡潔(一般來說)。
2.正則化的本質(zhì)是什么?
本質(zhì)是對權重W的約束。某個特征的權重越小,該特征就越不能起決定作用,改無關緊要的特征只能對模型進行微調(diào),擾動較小,可以讓模型專注于有決定性的那些特征。
3.正則化有哪些方法?
在梯度下降推導中,我們希望調(diào)整W,使得損失函數(shù)越來越小,所以可以給損失函數(shù)添加一個關于
的懲罰項,用來約束
,即
常見的懲罰項有L2和L1的罰項
L2:
可以防止模型過擬合(overfitting)
L1:
可以產(chǎn)生稀疏權值矩陣,即產(chǎn)生一個稀疏模型,可以用于特征選擇,一定程度上也可以防止過擬合
- 嶺回歸
嶺回歸可以使得某些不重要的權重w變小 - LASSO回歸
LASSO回歸可以使某些權重在訓練的過程中變?yōu)?
注意:是需要我們自己指定,是懲罰項的懲罰力度 ,L1本身就有很大的懲罰力度,可以使得某些w為0, 可以進行特征選擇。L2常用,模型屬于L2的多。
4.對L1、L2的圖解(以2維權值為例)

無懲罰項的梯度下降過程(三維).png

無懲罰項的梯度下降(二維)

帶L2懲罰項的梯度下降(二維)

帶L1懲罰項的梯度下降(二維)
