1.泛化能力
在機(jī)器學(xué)習(xí)方法中,泛化能力通俗來(lái)講就是指學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力。在實(shí)際情況中,我們通常通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力。如果在不考慮數(shù)據(jù)量不足的情況下出現(xiàn)模型的泛化能力差,那么其原因基本為對(duì)損失函數(shù)的優(yōu)化沒(méi)有達(dá)到全局最優(yōu)。
2.泛化誤差
根據(jù)PAC理論,泛化誤差可以直觀理解為以e指數(shù)的形式正比于假設(shè)空間的復(fù)雜度,反比于數(shù)據(jù)量的個(gè)數(shù)。
就是數(shù)據(jù)量越多,模型效果越好,模型假設(shè)空間復(fù)雜度越簡(jiǎn)單,模型效果越好。
3.提高泛化能力
提高泛化能力的方式大致有三種:1.增加數(shù)據(jù)量。2.正則化。3.凸優(yōu)化。
4.L1正則化,L2正則化
L1正則化的幾何解釋如圖:

L1正則化
L1正則化給出的最優(yōu)解w?是使解更加靠近某些軸,而其它的軸則為0,所以L1正則化能使得到的參數(shù)稀疏化。
L1正則化的參數(shù)先驗(yàn)是服從拉布拉斯分布的,拉布拉斯的概率密度分布函數(shù)為:

拉布拉斯的概率密度分布函數(shù)
L2正則化的解釋如圖:

L2正則化
L2 正則化給出的最優(yōu)解w?是使解更加靠近原點(diǎn),也就是說(shuō)L2正則化能降低參數(shù)范數(shù)的總和。
L2正則化的參數(shù)先驗(yàn)服從高斯分布,高斯分布的概率密度分布函數(shù)為:

高斯分布的概率密度分布函數(shù)