將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。借助這種劃分,您可以對(duì)一個(gè)樣本集進(jìn)行訓(xùn)練,然后使用不同的樣本集測(cè)試模型。采用兩種分類之后,工作流程可能如下所示:

在圖中,“調(diào)整模型”指的是調(diào)整您可以想到的關(guān)于模型的任何方面,從更改學(xué)習(xí)速率、添加或移除特征,到從頭開(kāi)始設(shè)計(jì)全新模型。該工作流程結(jié)束時(shí),您可以選擇在測(cè)試集上獲得最佳效果的模型。
將數(shù)據(jù)集劃分為兩個(gè)子集是個(gè)不錯(cuò)的想法,但不是萬(wàn)能良方。通過(guò)將數(shù)據(jù)集劃分為三個(gè)子集(如下圖所示),您可以大幅降低過(guò)擬合的發(fā)生幾率:

使用驗(yàn)證集評(píng)估訓(xùn)練集的效果。然后,在模型“通過(guò)”驗(yàn)證集之后,使用測(cè)試集再次檢查評(píng)估結(jié)果。下圖展示了這一新工作流程:

在這一經(jīng)過(guò)改進(jìn)的工作流程中:
選擇在驗(yàn)證集上獲得最佳效果的模型。
使用測(cè)試集再次檢查該模型。
該工作流程之所以更好,原因在于它暴露給測(cè)試集的信息更少。
在樣本量夠大,模型復(fù)雜,需要判斷過(guò)擬合時(shí)使用驗(yàn)證集的方式不失為好辦法。
來(lái)源: google