泛化和過擬合
構(gòu)建泛化能力強(qiáng)的模型
- 正確的數(shù)據(jù)
- 合適的模型(圖像:CNN)
- 合適的優(yōu)化算法(梯度下降、adam)
- 避免模型過擬合
過擬合:訓(xùn)練集上擬合好,但在測試集上表現(xiàn)差
通常,一個(gè)模型存在過擬合現(xiàn)象的時(shí)候,它的參數(shù)趨向于變大。
L1和L2正則
由于使用L1正則之后,很多參數(shù)變成了0,這自然就起到了特征選擇的目的。讓模型的參數(shù)變稀疏。
L1正則所存在的潛在的問題:
1、計(jì)算上的挑戰(zhàn) 無法很好地融合到梯度下降法,對于||w||, w=0時(shí),0點(diǎn)沒有梯度。
2、特征選擇上的挑戰(zhàn)。 對于相似特征上,是隨機(jī)篩選。解決方法可以是結(jié)合L1+L2 。在成千上萬個(gè)特征選某幾個(gè)時(shí)會(huì)用L1.
關(guān)于L2參數(shù)λ:絕對值變大的時(shí)候,L2范數(shù)的值也會(huì)相應(yīng)地變大,這就跟最小化目標(biāo)函數(shù)是矛盾的。所以加入L2范數(shù)之后,優(yōu)化過程傾向于選擇絕對值小的參數(shù)

MAP 和 MLP
最大似然估計(jì)(MLE, Maximum Likelihood Estimation)和最大后驗(yàn)估計(jì) MAP之間也有著特殊的關(guān)系:當(dāng)數(shù)據(jù)量無窮多的時(shí)候,最大后驗(yàn)估計(jì)的結(jié)果會(huì)逼近于最大似然估計(jì)的結(jié)果。這就說明,當(dāng)數(shù)據(jù)越來越多的時(shí)候,先驗(yàn)的作用會(huì)逐步減弱。
MLE 尋找θ使得 P(D|θ) 最大
MAP 尋找θ使得 P(θ|D) 最大

θ_MAP = argmax P(D|θ)·P(θ) 似然概率·先驗(yàn)概率

當(dāng)樣本量很小的時(shí)候,應(yīng)加入先驗(yàn)概率,否則容易被樣本迷惑,參考癌癥看病的例子 4-4 PART1。同時(shí)也相當(dāng)于一個(gè)正則項(xiàng),不同先驗(yàn)概率分布相當(dāng)于不同正則項(xiàng),比如高斯分布=L2正則。


當(dāng)樣本量無窮大時(shí),MAP趨向于MLP。因?yàn)镸LE部分權(quán)重隨N變大而變大,prior權(quán)重相應(yīng)變小
