《動(dòng)手學(xué)》:過擬合、欠擬合->note

fitting:擬合,就是說這個(gè)曲線能不能很好的描述這個(gè)樣本,有比較好的泛化能力

過擬合(OverFititing):太過貼近于訓(xùn)練數(shù)據(jù)的特征了,在訓(xùn)練集上表現(xiàn)非常優(yōu)秀,近乎完美的預(yù)測/區(qū)分了所有的數(shù)據(jù),但是在新的測試集上卻表現(xiàn)平平。

權(quán)重衰減等價(jià)于???2L2?范數(shù)正則化(regularization)。正則化通過為模型損失函數(shù)添加懲罰項(xiàng)使學(xué)出的模型參數(shù)值較小,是應(yīng)對過擬合的常用手段。

L2 范數(shù)正則化(regularization)

??2L2范數(shù)正則化在模型原損失函數(shù)基礎(chǔ)上添加??2L2范數(shù)懲罰項(xiàng),從而得到訓(xùn)練所需要最小化的函數(shù)。??2L2范數(shù)懲罰項(xiàng)指的是模型權(quán)重參數(shù)每個(gè)元素的平方和與一個(gè)正的常數(shù)的乘積。以線性回歸中的線性回歸損失函數(shù)為例

?(??1,??2,??)=1??∑??=1??12(??(??)1??1+??(??)2??2+?????(??))2?(w1,w2,b)=1n∑i=1n12(x1(i)w1+x2(i)w2+b?y(i))2

其中??1,??2w1,w2是權(quán)重參數(shù),??b是偏差參數(shù),樣本??i的輸入為??(??)1,??(??)2x1(i),x2(i),標(biāo)簽為??(??)y(i),樣本數(shù)為??n。將權(quán)重參數(shù)用向量??=[??1,??2]w=[w1,w2]表示,帶有??2L2范數(shù)懲罰項(xiàng)的新?lián)p失函數(shù)為

?(??1,??2,??)+??2??|??|2,?(w1,w2,b)+λ2n|w|2,

其中超參數(shù)??>0λ>0。當(dāng)權(quán)重參數(shù)均為0時(shí),懲罰項(xiàng)最小。當(dāng)??λ較大時(shí),懲罰項(xiàng)在損失函數(shù)中的比重較大,這通常會使學(xué)到的權(quán)重參數(shù)的元素較接近0。當(dāng)??λ設(shè)為0時(shí),懲罰項(xiàng)完全不起作用。上式中??2L2范數(shù)平方|??|2|w|2展開后得到??21+??22w12+w22。 有了??2L2范數(shù)懲罰項(xiàng)后,在小批量隨機(jī)梯度下降中,我們將線性回歸一節(jié)中權(quán)重??1w1和??2w2的迭代方式更改為

??1??2←(1?????||)??1???||∑??∈??(??)1(??(??)1??1+??(??)2??2+?????(??)),←(1?????||)??2???||∑??∈??(??)2(??(??)1??1+??(??)2??2+?????(??)).w1←(1?ηλ|B|)w1?η|B|∑i∈Bx1(i)(x1(i)w1+x2(i)w2+b?y(i)),w2←(1?ηλ|B|)w2?η|B|∑i∈Bx2(i)(x1(i)w1+x2(i)w2+b?y(i)).

可見,??2L2范數(shù)正則化令權(quán)重??1w1和??2w2先自乘小于1的數(shù),再減去不含懲罰項(xiàng)的梯度。因此,??2L2范數(shù)正則化又叫權(quán)重衰減。權(quán)重衰減通過懲罰絕對值較大的模型參數(shù)為需要學(xué)習(xí)的模型增加了限制,這可能對過擬合有效。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容