驗(yàn)證集——另一個(gè)劃分

將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。借助這種劃分,您可以對(duì)一個(gè)樣本集進(jìn)行訓(xùn)練,然后使用不同的樣本集測(cè)試模型。采用兩種分類之后,工作流程可能如下所示:

在圖中,“調(diào)整模型”指的是調(diào)整您可以想到的關(guān)于模型的任何方面,從更改學(xué)習(xí)速率、添加或移除特征,到從頭開(kāi)始設(shè)計(jì)全新模型。該工作流程結(jié)束時(shí),您可以選擇在測(cè)試集上獲得最佳效果的模型。

將數(shù)據(jù)集劃分為兩個(gè)子集是個(gè)不錯(cuò)的想法,但不是萬(wàn)能良方。通過(guò)將數(shù)據(jù)集劃分為三個(gè)子集(如下圖所示),您可以大幅降低過(guò)擬合的發(fā)生幾率:

使用驗(yàn)證集評(píng)估訓(xùn)練集的效果。然后,在模型“通過(guò)”驗(yàn)證集之后,使用測(cè)試集再次檢查評(píng)估結(jié)果。下圖展示了這一新工作流程:

在這一經(jīng)過(guò)改進(jìn)的工作流程中:

選擇在驗(yàn)證集上獲得最佳效果的模型。
使用測(cè)試集再次檢查該模型。
該工作流程之所以更好,原因在于它暴露給測(cè)試集的信息更少。


在樣本量夠大,模型復(fù)雜,需要判斷過(guò)擬合時(shí)使用驗(yàn)證集的方式不失為好辦法。

來(lái)源: google

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容