STEP-3:Pytorch-過(guò)擬合、欠擬合、梯度消失、梯度爆炸

感謝伯禹學(xué)習(xí)平臺(tái),本次學(xué)習(xí)將記錄記錄如何使用Pytorch高效實(shí)現(xiàn)網(wǎng)絡(luò),熟練掌握Pytorch的基礎(chǔ)知識(shí),記錄不包含理論知識(shí)的細(xì)節(jié)展開(kāi)。

一:過(guò)擬合與欠擬合

模型訓(xùn)練中經(jīng)常出現(xiàn)的兩類典型問(wèn)題:

  • 一類是模型無(wú)法得到較低的訓(xùn)練誤差,我們將這一現(xiàn)象稱作欠擬合(underfitting);
  • 另一類是模型的訓(xùn)練誤差遠(yuǎn)小于它在測(cè)試數(shù)據(jù)集上的誤差,我們稱該現(xiàn)象為過(guò)擬合(overfitting)。
過(guò)擬合與欠擬合
Pytorch 如何應(yīng)對(duì)過(guò)擬合
  • 權(quán)重衰減:在pytorch 中的optim使用weight_decay可以指定權(quán)重衰減因子,引入正則化
import torch
optimizer_w = torch.optim.SGD(params=[net.weight], lr=lr, weight_decay=wd) 
  • 隨機(jī)丟棄(Dropout)Pytorch中可以直接使用封裝號(hào)的Dropout
import torch.nn as nn
nn.Dropout(drop_p)
Pytorch 如何應(yīng)對(duì)欠擬合
  • 增加模型復(fù)雜度
  • 提高輸入特征

二:梯度消失與梯度爆炸

以下內(nèi)容來(lái)自伯禹學(xué)習(xí)平臺(tái)教學(xué)內(nèi)容

當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)較多時(shí),模型的數(shù)值穩(wěn)定性容易變差。

假設(shè)一個(gè)層數(shù)為L的多層感知機(jī)的第l\boldsymbol{H}^{(l)}的權(quán)重參數(shù)為\boldsymbol{W}^{(l)},輸出層\boldsymbol{H}^{(L)}的權(quán)重參數(shù)為\boldsymbol{W}^{(L)}。為了便于討論,不考慮偏差參數(shù),且設(shè)所有隱藏層的激活函數(shù)為恒等映射(identity mapping)\phi(x) = x。給定輸入\boldsymbol{X},多層感知機(jī)的第l層的輸出\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}。此時(shí),如果層數(shù)l較大,\boldsymbol{H}^{(l)}的計(jì)算可能會(huì)出現(xiàn)衰減或爆炸。舉個(gè)例子,假設(shè)輸入和所有層的權(quán)重參數(shù)都是標(biāo)量,如權(quán)重參數(shù)為0.2和5,多層感知機(jī)的第30層輸出為輸入\boldsymbol{X}分別與0.2^{30} \approx 1 \times 10^{-21}(消失)和5^{30} \approx 9 \times 10^{20}(爆炸)的乘積。當(dāng)層數(shù)較多時(shí),梯度的計(jì)算也容易出現(xiàn)消失或爆炸。

PyTorch的默認(rèn)隨機(jī)初始化

隨機(jī)初始化模型參數(shù)的方法有很多。在線性回歸的簡(jiǎn)潔實(shí)現(xiàn)中,我們使用torch.nn.init.normal_()使模型net的權(quán)重參數(shù)采用正態(tài)分布的隨機(jī)初始化方式。不過(guò),PyTorch中nn.Module的模塊參數(shù)都采取了較為合理的初始化策略(不同類型的layer具體采樣的哪一種初始化方法的可參考源代碼),因此一般不用我們考慮。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容