實(shí)用機(jī)器學(xué)習(xí)技巧 - 如何選擇驗(yàn)證集和訓(xùn)練集

這節(jié)課主要解決兩個(gè)問題

- 驗(yàn)證集的大小如何設(shè)定?

- 訓(xùn)練集中有些類別數(shù)據(jù)量太小怎么辦?

驗(yàn)證集的大小如何設(shè)定?

這里有個(gè)簡(jiǎn)單的方法來驗(yàn)證。

首先來理解以下,驗(yàn)證集的定義是需要一個(gè)數(shù)據(jù)集來驗(yàn)證我們的模型精確性,如果驗(yàn)證集太小,不夠做到符合正態(tài)隨機(jī)分布,那我們的驗(yàn)證集結(jié)果就不能用來驗(yàn)證模型的精確性。舉個(gè)例子,如果你的驗(yàn)證集數(shù)據(jù)量太小,每一個(gè)值都能影響最終的模型預(yù)測(cè)的均值及標(biāo)準(zhǔn)差,那么這個(gè)驗(yàn)證集都不可靠。

具體的驗(yàn)證方法:

- 我們對(duì)模型選取一個(gè)驗(yàn)證集;

- 對(duì)模型進(jìn)行 5 次完全相同的訓(xùn)練(hyperparameter相同),由于 boostrapping 的原因,這里的系數(shù)會(huì)細(xì)微不同;

- 5 個(gè)模型分別對(duì)驗(yàn)證集輸出;

- 比較 5 個(gè)模型輸出的標(biāo)準(zhǔn)差,如果標(biāo)準(zhǔn)差很大,則代表你的驗(yàn)證集小了,容易產(chǎn)生偏差。

訓(xùn)練集本身有一個(gè)樣本類別過小,學(xué)習(xí)效果不好怎么辦?

在做訓(xùn)練集分類問題的時(shí)候,我們有時(shí)候會(huì)遇到某個(gè)類別的數(shù)量過少,導(dǎo)致學(xué)習(xí)不充分,畢竟數(shù)據(jù)量不夠是會(huì)造成模型學(xué)習(xí)偏差的。

處理這個(gè)問題的辦法也很簡(jiǎn)單,在訓(xùn)練集中復(fù)制較少的這個(gè)類別的數(shù)據(jù)多次,盡管聽上去沒有什么理論支持的樣子,但是在實(shí)際操作時(shí),這種方法是真實(shí)有效的。在許多 kaggle 競(jìng)賽上都得到了證實(shí)。機(jī)器學(xué)習(xí)的很多理論其實(shí)聽上去很高大上的名字,但是真實(shí)的意義就是非常簡(jiǎn)單,大家都能理解的意思。但是你需要多實(shí)踐和融會(huì)貫通才能真正理解。

模型的目的,永遠(yuǎn)是解決問題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容