fitting:擬合,就是說這個(gè)曲線能不能很好的描述這個(gè)樣本,有比較好的泛化能力
過擬合(OverFititing):太過貼近于訓(xùn)練數(shù)據(jù)的特征了,在訓(xùn)練集上表現(xiàn)非常優(yōu)秀,近乎完美的預(yù)測/區(qū)分了所有的數(shù)據(jù),但是在新的測試集上卻表現(xiàn)平平。
權(quán)重衰減等價(jià)于???2L2?范數(shù)正則化(regularization)。正則化通過為模型損失函數(shù)添加懲罰項(xiàng)使學(xué)出的模型參數(shù)值較小,是應(yīng)對過擬合的常用手段。
L2 范數(shù)正則化(regularization)
??2L2范數(shù)正則化在模型原損失函數(shù)基礎(chǔ)上添加??2L2范數(shù)懲罰項(xiàng),從而得到訓(xùn)練所需要最小化的函數(shù)。??2L2范數(shù)懲罰項(xiàng)指的是模型權(quán)重參數(shù)每個(gè)元素的平方和與一個(gè)正的常數(shù)的乘積。以線性回歸中的線性回歸損失函數(shù)為例
?(??1,??2,??)=1??∑??=1??12(??(??)1??1+??(??)2??2+?????(??))2?(w1,w2,b)=1n∑i=1n12(x1(i)w1+x2(i)w2+b?y(i))2
其中??1,??2w1,w2是權(quán)重參數(shù),??b是偏差參數(shù),樣本??i的輸入為??(??)1,??(??)2x1(i),x2(i),標(biāo)簽為??(??)y(i),樣本數(shù)為??n。將權(quán)重參數(shù)用向量??=[??1,??2]w=[w1,w2]表示,帶有??2L2范數(shù)懲罰項(xiàng)的新?lián)p失函數(shù)為
?(??1,??2,??)+??2??|??|2,?(w1,w2,b)+λ2n|w|2,
其中超參數(shù)??>0λ>0。當(dāng)權(quán)重參數(shù)均為0時(shí),懲罰項(xiàng)最小。當(dāng)??λ較大時(shí),懲罰項(xiàng)在損失函數(shù)中的比重較大,這通常會使學(xué)到的權(quán)重參數(shù)的元素較接近0。當(dāng)??λ設(shè)為0時(shí),懲罰項(xiàng)完全不起作用。上式中??2L2范數(shù)平方|??|2|w|2展開后得到??21+??22w12+w22。 有了??2L2范數(shù)懲罰項(xiàng)后,在小批量隨機(jī)梯度下降中,我們將線性回歸一節(jié)中權(quán)重??1w1和??2w2的迭代方式更改為
??1??2←(1?????||)??1???||∑??∈??(??)1(??(??)1??1+??(??)2??2+?????(??)),←(1?????||)??2???||∑??∈??(??)2(??(??)1??1+??(??)2??2+?????(??)).w1←(1?ηλ|B|)w1?η|B|∑i∈Bx1(i)(x1(i)w1+x2(i)w2+b?y(i)),w2←(1?ηλ|B|)w2?η|B|∑i∈Bx2(i)(x1(i)w1+x2(i)w2+b?y(i)).
可見,??2L2范數(shù)正則化令權(quán)重??1w1和??2w2先自乘小于1的數(shù),再減去不含懲罰項(xiàng)的梯度。因此,??2L2范數(shù)正則化又叫權(quán)重衰減。權(quán)重衰減通過懲罰絕對值較大的模型參數(shù)為需要學(xué)習(xí)的模型增加了限制,這可能對過擬合有效。