【總結(jié)】
權(quán)重衰退通過L2正則項(xiàng)使得模型參數(shù)不會(huì)過大,從而控制模型復(fù)雜度。
正則項(xiàng)權(quán)重是控制模型復(fù)雜度的超參數(shù)。
丟棄法將一些輸出項(xiàng)隨機(jī)置0來控制模型復(fù)雜度。
常作用在多層感知機(jī)的隱藏層輸出上。
丟棄概率是控制模型復(fù)雜度的超參數(shù)。(取0.5、0.9、0.1比較常見)
一、權(quán)重衰退Weight Decay
一種常見的處理過擬合的方法。
(1)如何控制模型容量:把模型變的比較小,控制其中的參數(shù)比較少,或者控制參數(shù)值的選擇范圍。

意味著w的每個(gè)值的都要小于θ開根號(hào)。
通常不會(huì)直接用上面這個(gè)優(yōu)化函數(shù),因?yàn)閮?yōu)化起來相對(duì)麻煩一些。常用下面這個(gè)。

λ不再是硬性的,要求某個(gè)值一定要小于某個(gè)值,而是會(huì)平滑一些的。

假設(shè)l是二次函數(shù),綠色那個(gè)線,那么w~*的最優(yōu)解就是中心點(diǎn)(綠色圈中間那個(gè)綠點(diǎn))。加上正則項(xiàng)(懲罰項(xiàng))后,后面那個(gè)正則項(xiàng)也是二次函數(shù),對(duì)應(yīng)黃色線。所以w*最優(yōu)解會(huì)在黃綠交界點(diǎn)。
Q:為啥要把w往小拉,如果真的最優(yōu)解解釋在綠點(diǎn),會(huì)不會(huì)起反效果?A:假設(shè)綠點(diǎn)是真的最優(yōu)解,但是因?yàn)槔锩嬗性胍?,所以去學(xué)的時(shí)候,學(xué)不到綠色的點(diǎn),所以學(xué)到的可能很大。模型看到的是噪音,就會(huì)去學(xué)習(xí)記住噪音,所以必然過大。所以需要λ去往回拉,并控制往回拉多少。
(2)梯度更新

更新參數(shù)時(shí),后一項(xiàng)是沒有變化的,就是前面那個(gè)w_t多減了個(gè)ηλ。
(3)代碼實(shí)現(xiàn)和簡潔實(shí)現(xiàn)
chapter_multilayer-perceptrons/weight-decay.ipynb
(4)問答
(1)Q:實(shí)踐中權(quán)重衰減的值一般設(shè)置多少為好呢,總覺得權(quán)重衰退的效果并不那么好?
A:一般e-2(0.01)、2-3(0.001)、e-4(0.0001),權(quán)重消退并不會(huì)帶來特別特別好的效果。
(2)Q:范數(shù)的上下標(biāo)
A:其實(shí)這里有個(gè)下標(biāo)的,加了下標(biāo)2就是L2范數(shù),但是他是默認(rèn),所以下標(biāo)2不寫也沒關(guān)系。上標(biāo)2表示的是平方。

二、Dropout
1、Dropout
正則就是使權(quán)重范圍不要過于大,防止過擬合的方法

在數(shù)據(jù)中加入噪音,等價(jià)于正則,這跟之前的噪音不一樣,之前是固定噪音,這個(gè)是隨機(jī)加噪音。丟棄法是在層之間加噪音。
假設(shè)x是一層到下一層的輸出:雖然加了噪音,但是不要改變期望


因?yàn)槊看坞S機(jī)丟,所以也可以理解為,每次隨機(jī)采樣一些子神經(jīng)網(wǎng)絡(luò)來做訓(xùn)練,也就是拿到了一堆小的神經(jīng)網(wǎng)絡(luò)來訓(xùn)練來做平均。但是實(shí)驗(yàn)上跟正則效果很像的,所以現(xiàn)在主流把它當(dāng)做正則。

隱藏層設(shè)大一點(diǎn),然后dropout也大一點(diǎn),可能比沒有dropout但隱藏層小效果要好。
2、問答
(1)Q:dropout隨機(jī)置0對(duì)求梯度和反向傳播的影響是什么
A:置0的地方,梯度也會(huì)置0,對(duì)應(yīng)的權(quán)重這一輪不會(huì)更新;沒有置0的地方,梯度也會(huì)相對(duì)的乘以一個(gè)數(shù)。
(2)Q:dropout隨機(jī)丟棄,如何保證結(jié)果的可重復(fù)性?
A:如果把dropout隨機(jī)種子固定住的話,可以重復(fù)性。但是神經(jīng)網(wǎng)絡(luò)的隨機(jī)性很大,還有初始權(quán)重隨機(jī)、cuda中(因?yàn)樽霾⑿?,一些?shù)加的順序不一樣導(dǎo)致結(jié)果不一樣,要重復(fù)就要禁掉cudnn)。
(3)丟棄法每個(gè)batch都會(huì)丟棄一次
(4)dropout主要對(duì)全連接層用,weight decay對(duì)卷積層、之后的transforma都可以用。
dropout調(diào)起來也很方便。
(5)dropout是有可能使收斂變慢的。