模型選擇、欠擬合和過擬合
由于無法從訓(xùn)練誤差估計泛化誤差,一味地降低訓(xùn)練誤差并不意味著泛化誤差一定會降低
機(jī)器學(xué)習(xí)模型應(yīng)關(guān)注降低泛化誤差。 可以使用驗證數(shù)據(jù)集來進(jìn)行模型選擇
欠擬合指模型無法得到較低的訓(xùn)練誤差,過擬合指模型的訓(xùn)練誤差遠(yuǎn)小于它在測試數(shù)據(jù)集上的誤差
?應(yīng)選擇復(fù)雜度合適的模型并避免使用過少的訓(xùn)練樣本
權(quán)重衰減
正則化通過為模型損失函數(shù)添加懲罰項使學(xué)出的模型參數(shù)值較小,是應(yīng)對過擬合的常用手段
?權(quán)重衰減等價于L2范數(shù)正則化,通常會使學(xué)到的權(quán)重參數(shù)的元素較接近0
?權(quán)重衰減可以通過優(yōu)化器中的weight_decay超參數(shù)來指定
?可以定義多個優(yōu)化器實例對不同的模型參數(shù)使用不同的迭代方法
丟棄法
我們可以通過使用丟棄法應(yīng)對過擬合
丟棄法只在訓(xùn)練模型時使用