色婷婷综合成人网,色婷婷在线资源,久久久久久伊人

【總結(jié)】

權(quán)重衰退通過L2正則項(xiàng)使得模型參數(shù)不會(huì)過大，從而控制模型復(fù)雜度。

正則項(xiàng)權(quán)重是控制模型復(fù)雜度的超參數(shù)。

丟棄法將一些輸出項(xiàng)隨機(jī)置0來控制模型復(fù)雜度。

常作用在多層感知機(jī)的隱藏層輸出上。

丟棄概率是控制模型復(fù)雜度的超參數(shù)。（取0.5、0.9、0.1比較常見）

一、權(quán)重衰退Weight Decay

一種常見的處理過擬合的方法。

（1）如何控制模型容量：把模型變的比較小，控制其中的參數(shù)比較少，或者控制參數(shù)值的選擇范圍。

意味著w的每個(gè)值的都要小于θ開根號(hào)。

通常不會(huì)直接用上面這個(gè)優(yōu)化函數(shù)，因?yàn)閮?yōu)化起來相對(duì)麻煩一些。常用下面這個(gè)。

λ不再是硬性的，要求某個(gè)值一定要小于某個(gè)值，而是會(huì)平滑一些的。

假設(shè)l是二次函數(shù)，綠色那個(gè)線，那么w~*的最優(yōu)解就是中心點(diǎn)（綠色圈中間那個(gè)綠點(diǎn)）。加上正則項(xiàng)（懲罰項(xiàng)）后，后面那個(gè)正則項(xiàng)也是二次函數(shù)，對(duì)應(yīng)黃色線。所以w*最優(yōu)解會(huì)在黃綠交界點(diǎn)。

Q：為啥要把w往小拉，如果真的最優(yōu)解解釋在綠點(diǎn)，會(huì)不會(huì)起反效果？A：假設(shè)綠點(diǎn)是真的最優(yōu)解，但是因?yàn)槔锩嬗性胍?，所以去學(xué)的時(shí)候，學(xué)不到綠色的點(diǎn)，所以學(xué)到的可能很大。模型看到的是噪音，就會(huì)去學(xué)習(xí)記住噪音，所以必然過大。所以需要λ去往回拉，并控制往回拉多少。

（2）梯度更新

更新參數(shù)時(shí)，后一項(xiàng)是沒有變化的，就是前面那個(gè)w_t多減了個(gè)ηλ。

（3）代碼實(shí)現(xiàn)和簡潔實(shí)現(xiàn)

chapter_multilayer-perceptrons/weight-decay.ipynb

（4）問答

（1）Q：實(shí)踐中權(quán)重衰減的值一般設(shè)置多少為好呢，總覺得權(quán)重衰退的效果并不那么好？

A：一般e-2（0.01）、2-3（0.001）、e-4（0.0001），權(quán)重消退并不會(huì)帶來特別特別好的效果。

（2）Q：范數(shù)的上下標(biāo)

A：其實(shí)這里有個(gè)下標(biāo)的，加了下標(biāo)2就是L2范數(shù)，但是他是默認(rèn)，所以下標(biāo)2不寫也沒關(guān)系。上標(biāo)2表示的是平方。

二、Dropout

1、Dropout

正則就是使權(quán)重范圍不要過于大，防止過擬合的方法

在數(shù)據(jù)中加入噪音，等價(jià)于正則，這跟之前的噪音不一樣，之前是固定噪音，這個(gè)是隨機(jī)加噪音。丟棄法是在層之間加噪音。

假設(shè)x是一層到下一層的輸出：雖然加了噪音，但是不要改變期望

因?yàn)槊看坞S機(jī)丟，所以也可以理解為，每次隨機(jī)采樣一些子神經(jīng)網(wǎng)絡(luò)來做訓(xùn)練，也就是拿到了一堆小的神經(jīng)網(wǎng)絡(luò)來訓(xùn)練來做平均。但是實(shí)驗(yàn)上跟正則效果很像的，所以現(xiàn)在主流把它當(dāng)做正則。

隱藏層設(shè)大一點(diǎn)，然后dropout也大一點(diǎn)，可能比沒有dropout但隱藏層小效果要好。

2、問答

（1）Q：dropout隨機(jī)置0對(duì)求梯度和反向傳播的影響是什么

A：置0的地方，梯度也會(huì)置0，對(duì)應(yīng)的權(quán)重這一輪不會(huì)更新；沒有置0的地方，梯度也會(huì)相對(duì)的乘以一個(gè)數(shù)。

（2）Q：dropout隨機(jī)丟棄，如何保證結(jié)果的可重復(fù)性？

A：如果把dropout隨機(jī)種子固定住的話，可以重復(fù)性。但是神經(jīng)網(wǎng)絡(luò)的隨機(jī)性很大，還有初始權(quán)重隨機(jī)、cuda中（因?yàn)樽霾⑿?，一些?shù)加的順序不一樣導(dǎo)致結(jié)果不一樣，要重復(fù)就要禁掉cudnn）。

（3）丟棄法每個(gè)batch都會(huì)丟棄一次

（4）dropout主要對(duì)全連接層用，weight decay對(duì)卷積層、之后的transforma都可以用。

dropout調(diào)起來也很方便。

（5）dropout是有可能使收斂變慢的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

李沐-動(dòng)手學(xué)深度學(xué)習(xí)（3）權(quán)重衰退和dropout

李沐-動(dòng)手學(xué)深度學(xué)習(xí)（3）權(quán)重衰退和dropout

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

李沐-動(dòng)手學(xué)深度學(xué)習(xí)（3）權(quán)重衰退和dropout

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av