機(jī)器學(xué)習(xí)-泛化能力

1.泛化能力

在機(jī)器學(xué)習(xí)方法中,泛化能力通俗來(lái)講就是指學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力。在實(shí)際情況中,我們通常通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力。如果在不考慮數(shù)據(jù)量不足的情況下出現(xiàn)模型的泛化能力差,那么其原因基本為對(duì)損失函數(shù)的優(yōu)化沒(méi)有達(dá)到全局最優(yōu)。

2.泛化誤差

根據(jù)PAC理論,泛化誤差可以直觀理解為以e指數(shù)的形式正比于假設(shè)空間的復(fù)雜度,反比于數(shù)據(jù)量的個(gè)數(shù)。
就是數(shù)據(jù)量越多,模型效果越好,模型假設(shè)空間復(fù)雜度越簡(jiǎn)單,模型效果越好。

3.提高泛化能力

提高泛化能力的方式大致有三種:1.增加數(shù)據(jù)量。2.正則化。3.凸優(yōu)化。

4.L1正則化,L2正則化

L1正則化的幾何解釋如圖:


L1正則化

L1正則化給出的最優(yōu)解w?是使解更加靠近某些軸,而其它的軸則為0,所以L1正則化能使得到的參數(shù)稀疏化。
L1正則化的參數(shù)先驗(yàn)是服從拉布拉斯分布的,拉布拉斯的概率密度分布函數(shù)為:


拉布拉斯的概率密度分布函數(shù)

L2正則化的解釋如圖:

L2正則化

L2 正則化給出的最優(yōu)解w?是使解更加靠近原點(diǎn),也就是說(shuō)L2正則化能降低參數(shù)范數(shù)的總和。
L2正則化的參數(shù)先驗(yàn)服從高斯分布,高斯分布的概率密度分布函數(shù)為:


高斯分布的概率密度分布函數(shù)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容