亚洲天堂a,亚洲成人精品视频,爱福利视频久久

文章提出了將批處理作為模型本身的一部分。

批處理的平均損失是對整個(gè)數(shù)據(jù)集的估計(jì)；批處理可以利用數(shù)據(jù)并行提高訓(xùn)練速度。深度學(xué)習(xí)需要謹(jǐn)慎調(diào)整模型參數(shù)，并且網(wǎng)絡(luò)的初始化參數(shù)也很重要。

為什么要用Normalization，文中提到，考慮一個(gè)經(jīng)過sigmoid函數(shù)的網(wǎng)絡(luò)層：

$z=g(Wu+b)$ ,其中 $g(x)=\frac{1}{1+exp(-x)}$ 。當(dāng) $x$ 增大時(shí)， $g{\prime}(x)$ 趨向于0.這會(huì)使得對參數(shù) $W$ 的求導(dǎo)也趨向于0，使得訓(xùn)練速度變慢。

然而，由于 $x$ 受 $W$ ， $b$ 和下面所有層的參數(shù)的影響，在訓(xùn)練期間對這些參數(shù)的改變可能將 $x$ 的許多維度移動(dòng)到非線性的飽和狀態(tài)并且減慢收斂。隨著網(wǎng)絡(luò)深度的增加，這種效應(yīng)會(huì)得到放大（這一塊兒不是很理解）。在實(shí)際操作中，飽和問題和梯度消失問題都用線性修正單元（ReLU）、慎重初始化模型參數(shù)、較小的學(xué)習(xí)率來解決的。

Batch Normalization旨在減少內(nèi)在協(xié)方差位移，可以使用較大的學(xué)習(xí)率，可以提高訓(xùn)練速度。Batch Normalization還可以規(guī)范化模型以及減少Dropout的必要性（？）

作者在ImageNet上使用Batch Normalization訓(xùn)練，只用了7%的訓(xùn)練步驟就完成了效果，并且可以進(jìn)一步提升準(zhǔn)確率。

Internal Covariate Shift 是指在訓(xùn)練過程中由于網(wǎng)絡(luò)參數(shù)的改變導(dǎo)致網(wǎng)絡(luò)激活函數(shù)的分布改變。如果網(wǎng)絡(luò)的輸入是均值為0，單元方差的化（即白化），則網(wǎng)絡(luò)的訓(xùn)練將會(huì)收斂得更快。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《Batch Normalization》閱讀筆記

《Batch Normalization》閱讀筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《Batch Normalization》閱讀筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av