關(guān)于機(jī)器學(xué)習(xí)中的過(guò)擬合與正則化

在知乎時(shí)間線又看到這個(gè)問(wèn)題:機(jī)器學(xué)習(xí)中使用正則化來(lái)防止過(guò)擬合是什么原理?恰好最近剛精讀完《Deep Learning》正則化一章,于是手癢寫了一下自己對(duì)于過(guò)擬合和正則化的一些理解。這部分內(nèi)容我在問(wèn)題解決與設(shè)計(jì)系列的下一篇文章也會(huì)涉及(標(biāo)題暫定《解的優(yōu)化與復(fù)雜度》),只是這兩年自己對(duì)這部分問(wèn)題的理解不斷刷新,所以文章停留在積累想法的階段。


據(jù)維基百科Regularization (mathematics):In mathematics, statistics, and computer science, particularly in machine learning and inverse problems, regularization is the process of adding information in order to solve an ill-posed problem or to prevent overfitting.

因此正則化本身的定義就是通過(guò)增加某種信息來(lái)防止過(guò)擬合的過(guò)程。

機(jī)器學(xué)習(xí)問(wèn)題基本都是優(yōu)化問(wèn)題,模型/參數(shù)給定解的空間(或者說(shuō)假設(shè)空間),優(yōu)化算法負(fù)責(zé)從空間里找到最優(yōu)或足夠優(yōu)的解,目標(biāo)/損失函數(shù)負(fù)責(zé)提供優(yōu)劣的度量。模型的解空間越大,越有可能包含對(duì)于問(wèn)題本身而言最優(yōu)的解(意味著學(xué)習(xí)到了數(shù)據(jù)的真實(shí)生成過(guò)程或者說(shuō)真實(shí)分布),但是優(yōu)化/搜索的難度越大。

對(duì)于有監(jiān)督問(wèn)題來(lái)說(shuō),解是特征到label的映射,學(xué)習(xí)的過(guò)程只使用訓(xùn)練數(shù)據(jù),而訓(xùn)練數(shù)據(jù)的最優(yōu)往往不是測(cè)試數(shù)據(jù)上的最優(yōu)。這里原因要說(shuō)清楚又要涉及很多東西了(比如獨(dú)立同分布假設(shè)、經(jīng)驗(yàn)風(fēng)險(xiǎn)、泛化誤差,可以參考《統(tǒng)計(jì)學(xué)習(xí)方法》)。但有一個(gè)角度是:假設(shè)我們使用的模型能夠提供足夠大的解空間,而訓(xùn)練數(shù)據(jù)是有限的,那么解空間里存在一些解可以精確地將訓(xùn)練數(shù)據(jù)中所有的點(diǎn)都映射到正確的label上去,但這種映射不一定對(duì)測(cè)試數(shù)據(jù)有效,因?yàn)樗?strong>考慮了訓(xùn)練數(shù)據(jù)的全部信息,而這些信息里有些來(lái)自于要學(xué)習(xí)的真實(shí)分布,還有一些是訓(xùn)練數(shù)據(jù)本身的一些信息,比如采樣不良帶來(lái)的某方向的偏差,或是噪音/隨機(jī)擾動(dòng)/異常點(diǎn)。測(cè)試數(shù)據(jù)其實(shí)也有一樣的問(wèn)題。

舉個(gè)比較極端的例子,特征是人的年齡,label是身高,如果解空間夠大,那么可以找到這樣一種解:對(duì)于每一個(gè)年齡值,我都記下來(lái)對(duì)應(yīng)的身高值,對(duì)于訓(xùn)練集以外的年齡值則做某種簡(jiǎn)單的插值(比如最近鄰回歸),這樣訓(xùn)練集錯(cuò)誤可以到0(不考慮貝葉斯錯(cuò)誤時(shí))。但假設(shè)我們的訓(xùn)練集比較糟糕:恰好里面的所有人都很高,腿長(zhǎng)一米八,或者里面混進(jìn)去一只老鼠的年齡-身高,結(jié)果在測(cè)試集上就會(huì)很糟糕了。這種“記下來(lái)訓(xùn)練集中問(wèn)題真實(shí)分布以外的信息”的現(xiàn)象,就是所謂過(guò)擬合。這種現(xiàn)象越強(qiáng),越可能導(dǎo)致訓(xùn)練集錯(cuò)誤較小,但測(cè)試集錯(cuò)誤遠(yuǎn)大于訓(xùn)練集的結(jié)果。要量化過(guò)擬合的程度,我能想到的可能辦法是度量?jī)蓚€(gè)數(shù)據(jù)集錯(cuò)誤的差異。bias-variance,模型復(fù)雜度(VC維)之類的概念都有助于進(jìn)一步理解過(guò)擬合的問(wèn)題(很多書里都有講)。

Bias/Variance、欠擬合過(guò)擬合、模型復(fù)雜度/解空間

而正則化的做法大致都可以看作是在阻止機(jī)器學(xué)習(xí)算法學(xué)到真實(shí)分布以外的信息,減小搜索空間,砍掉奇葩的解。實(shí)際的操作方法有多種多樣:可以給目標(biāo)函數(shù)增加約束(正則項(xiàng),也有人用增加先驗(yàn)來(lái)解釋這種做法),可以增加給訓(xùn)練數(shù)據(jù)增加隨機(jī)noise,可以使用半監(jiān)督,可以用多任務(wù)參數(shù)共享,可以用集成學(xué)習(xí)等等(可以參考花書《Deep Learning》,該書認(rèn)為正則化和優(yōu)化算法可能是機(jī)器學(xué)習(xí)最重要的兩個(gè)問(wèn)題)

個(gè)人理解。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容