2021-04-10 ch4模型泛化和過擬合

泛化和過擬合

構(gòu)建泛化能力強(qiáng)的模型

  1. 正確的數(shù)據(jù)
  2. 合適的模型(圖像:CNN)
  3. 合適的優(yōu)化算法(梯度下降、adam)
  4. 避免模型過擬合

過擬合:訓(xùn)練集上擬合好,但在測試集上表現(xiàn)差
通常,一個(gè)模型存在過擬合現(xiàn)象的時(shí)候,它的參數(shù)趨向于變大。

L1和L2正則
由于使用L1正則之后,很多參數(shù)變成了0,這自然就起到了特征選擇的目的。讓模型的參數(shù)變稀疏。
L1正則所存在的潛在的問題:
1、計(jì)算上的挑戰(zhàn) 無法很好地融合到梯度下降法,對于||w||, w=0時(shí),0點(diǎn)沒有梯度。
2、特征選擇上的挑戰(zhàn)。 對于相似特征上,是隨機(jī)篩選。解決方法可以是結(jié)合L1+L2 。在成千上萬個(gè)特征選某幾個(gè)時(shí)會(huì)用L1.

關(guān)于L2參數(shù)λ:絕對值變大的時(shí)候,L2范數(shù)的值也會(huì)相應(yīng)地變大,這就跟最小化目標(biāo)函數(shù)是矛盾的。所以加入L2范數(shù)之后,優(yōu)化過程傾向于選擇絕對值小的參數(shù)

image.png


MAP 和 MLP

最大似然估計(jì)(MLE, Maximum Likelihood Estimation)和最大后驗(yàn)估計(jì) MAP之間也有著特殊的關(guān)系:當(dāng)數(shù)據(jù)量無窮多的時(shí)候,最大后驗(yàn)估計(jì)的結(jié)果會(huì)逼近于最大似然估計(jì)的結(jié)果。這就說明,當(dāng)數(shù)據(jù)越來越多的時(shí)候,先驗(yàn)的作用會(huì)逐步減弱。

MLE 尋找θ使得 P(D|θ) 最大
MAP 尋找θ使得 P(θ|D) 最大


image.png

θ_MAP = argmax P(D|θ)·P(θ) 似然概率·先驗(yàn)概率


image.png

當(dāng)樣本量很小的時(shí)候,應(yīng)加入先驗(yàn)概率,否則容易被樣本迷惑,參考癌癥看病的例子 4-4 PART1。同時(shí)也相當(dāng)于一個(gè)正則項(xiàng),不同先驗(yàn)概率分布相當(dāng)于不同正則項(xiàng),比如高斯分布=L2正則。

參數(shù)服從高斯分布=L2正則

參數(shù)服從拉普拉斯分布=L1正則

當(dāng)樣本量無窮大時(shí),MAP趨向于MLP。因?yàn)镸LE部分權(quán)重隨N變大而變大,prior權(quán)重相應(yīng)變小


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. 最小二乘法(Least squares) 最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù),它通過最小化誤差的平方來尋找數(shù)據(jù)的最...
    Deepool閱讀 8,182評論 0 26
  • (1)什么是正則化 1、從結(jié)構(gòu)風(fēng)險(xiǎn)化角度,解釋什么是正則化 經(jīng)驗(yàn)風(fēng)險(xiǎn)其實(shí)就是樣本本身帶來的誤差。結(jié)構(gòu)風(fēng)險(xiǎn)就是學(xué)習(xí)器...
    只為此心無垠閱讀 2,315評論 0 2
  • 一. 數(shù)學(xué)基礎(chǔ) 1. 最大似然估計(jì),最大后驗(yàn)概率、貝葉斯估計(jì) 參考: https://blog.csdn.net/...
    木木xixi1997閱讀 1,871評論 0 1
  • 接觸機(jī)器學(xué)習(xí)時(shí)間也不短了, 趁國慶放假, 做一下深度整理. 1. 大綱 若想在企業(yè)勝任算法相關(guān)崗位知識, 除了掌握...
    婉妃閱讀 3,512評論 2 92
  • 一、標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)與貝葉斯神經(jīng)網(wǎng)絡(luò) 通過優(yōu)化的標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練(從概率的角度來看)等同于權(quán)重的最大似然估計(jì)(MLE)...
    申申申申申申閱讀 11,646評論 0 5

友情鏈接更多精彩內(nèi)容