面試題:模型評(píng)估與模型選擇全解析——過擬合、欠擬合、交叉驗(yàn)證、正則化、網(wǎng)格搜索、評(píng)估指標(biāo)一文講透

把“為什么會(huì)過擬合、怎么選指標(biāo)、K 折怎么選、測(cè)試集為什么不能亂用”一次講清楚

很多人學(xué) 機(jī)器學(xué)習(xí) 時(shí),模型能跑起來,但一到面試環(huán)節(jié),面對(duì)“什么是過擬合”“為什么要交叉驗(yàn)證”“測(cè)試集和驗(yàn)證集有什么區(qū)別”“網(wǎng)格搜索是做什么的”這些問題,回答就容易碎片化。其實(shí),模型評(píng)估 模型 選擇不是幾條零散概念,而是一整套閉環(huán):先把數(shù)據(jù)分開,再訓(xùn)練模型,再用合適的方法驗(yàn)證,再選對(duì)指標(biāo),最后再?zèng)Q定哪個(gè)模型真正值得上線。

這篇文章會(huì)盡量不用復(fù)雜公式,而是用通俗語言和大量配圖,把這道面試高頻題徹底講透。

先給你一句總答法:

模型評(píng)估是“判斷模型到底好不好”,模型選擇是“在多個(gè)候選方案里選最合適的那個(gè)”。核心目標(biāo)不是把訓(xùn)練集分?jǐn)?shù)刷到最高,而是讓模型在沒見過的新數(shù)據(jù)上依然表現(xiàn)穩(wěn)定,也就是泛化能力強(qiáng)。

1. 面試官為什么總愛問“模型評(píng)估與模型選擇”?

1.1 這道題本質(zhì)上在考什么

表面上,這是一道基礎(chǔ)概念題;本質(zhì)上,它在考你有沒有完整的機(jī)器學(xué)習(xí)建模思維。面試官真正想聽的,不是你背出幾個(gè)術(shù)語,而是你是否知道:

??模型為什么會(huì)在訓(xùn)練集上表現(xiàn)很好,卻在新數(shù)據(jù)上突然失靈;

??為什么不能拿測(cè)試集一遍遍試模型;

??為什么同樣是“分?jǐn)?shù)高”,有時(shí)候并不代表模型真的更好;

??為什么分類任務(wù)、回歸任務(wù)、時(shí)序任務(wù),評(píng)估方式根本不能混著用。

1.2 “模型評(píng)估”和“模型選擇”分別是什么

你可以把它們理解成兩個(gè)連續(xù)動(dòng)作:

??模型評(píng)估:給模型“打分”,看它在某個(gè)任務(wù)上表現(xiàn)如何。

??模型選擇:在多個(gè)模型、多個(gè)參數(shù)、多個(gè)特征方案里,選出最適合當(dāng)前任務(wù)的那個(gè)。

所以,前者更像“體檢”,后者更像“選人”。體檢做得再細(xì),如果比較對(duì)象不對(duì),最后也選不出最合適的模型。

2. 什么是過擬合、欠擬合與泛化能力?

2.1 欠擬合:模型太笨,連 訓(xùn)練數(shù)據(jù) 都學(xué)不好

欠擬合的意思很簡(jiǎn)單:模型太簡(jiǎn)單,抓不住數(shù)據(jù)里的規(guī)律。它不是“背錯(cuò)了”,而是“根本沒學(xué)會(huì)”。這種情況下,訓(xùn)練集表現(xiàn)差,測(cè)試集通常也差。

2.2 過擬合:模型太聰明,把噪聲也記住了

過擬合則相反。模型在訓(xùn)練集上幾乎完美,但到了新樣本上就開始掉鏈子。Google 的機(jī)器學(xué)習(xí)課程把過擬合描述為:模型把訓(xùn)練集記得過于貼合,以至于無法對(duì)新數(shù)據(jù)做出正確預(yù)測(cè)。也就是說,它學(xué)到的不全是規(guī)律,還夾雜了噪聲、偶然性、局部細(xì)節(jié)。

2.3 泛化能力:真正要追求的,不是訓(xùn)練分高,而是新數(shù)據(jù)也穩(wěn)

機(jī)器學(xué)習(xí)不是做“開卷考試”。模型真正的價(jià)值,體現(xiàn)在它面對(duì)未見過的數(shù)據(jù)時(shí)還能否穩(wěn)定輸出。這個(gè)能力就叫泛化能力。一個(gè)好模型,不一定訓(xùn)練集分?jǐn)?shù)最高,但一定是在“沒見過的數(shù)據(jù)”上仍然靠譜。

2.4 過擬合和欠擬合通常由什么引起

??欠擬合常見原因:模型太簡(jiǎn)單、特征太弱、訓(xùn)練不夠、正則過強(qiáng)。

??過擬合常見原因:模型太復(fù)雜、樣本太少、噪聲太多、特征泄漏、測(cè)試集或驗(yàn)證集被反復(fù)使用。

??官方資料還特別強(qiáng)調(diào):如果訓(xùn)練集、驗(yàn)證集、測(cè)試集與真實(shí)業(yè)務(wù)數(shù)據(jù)分布不一致,模型也很難真正泛化。

面試時(shí)一句話解釋:

欠擬合是模型太簡(jiǎn)單,連訓(xùn)練集規(guī)律都沒抓??;過擬合是模型太復(fù)雜,把噪聲也當(dāng)成了規(guī)律;我們真正追求的是泛化能力,也就是模型在新數(shù)據(jù)上依然表現(xiàn)穩(wěn)定。

3. 怎么避免過擬合?這是面試?yán)镒钊菀妆蛔穯柕囊欢?/h2>

3.1 增加數(shù)據(jù)量:最樸素,也最有效

當(dāng)樣本太少時(shí),模型更容易把偶然性當(dāng)規(guī)律。增加數(shù)據(jù)量,本質(zhì)上是在告訴模型:別盯著幾條樣本死記硬背,要看更多真實(shí)情況。

3.2 數(shù)據(jù)增強(qiáng):數(shù)據(jù)不夠時(shí),用合理擾動(dòng)擴(kuò)充樣本

在圖像、語音、文本等任務(wù)里,真實(shí)數(shù)據(jù)貴,增強(qiáng)數(shù)據(jù)就成了實(shí)用手段。比如圖像旋轉(zhuǎn)、裁剪、翻轉(zhuǎn),目的不是“造假”,而是讓模型見到更多合理變化。

3.3 特征選擇與降維:少一些噪聲,往往比多一些花活更有用

有些特征看起來多,其實(shí)只是給模型制造干擾。scikit-learn 的官方文檔專門提醒過:特征選擇是有幫助的,但必須只在訓(xùn)練數(shù)據(jù)上做;如果把測(cè)試集也拿去參與特征選擇,就會(huì)出現(xiàn)數(shù)據(jù)泄漏,得到過于樂觀的分?jǐn)?shù)。

3.4 簡(jiǎn)化模型:別一上來就上最重的武器

不是模型越復(fù)雜越高級(jí)。樣本不多、特征不穩(wěn)、噪聲明顯時(shí),先用簡(jiǎn)單模型打底,反而更容易得到穩(wěn)定結(jié)果。

3.5 正則化、早停、集成學(xué)習(xí)

??正則化:給模型加“約束”,別讓參數(shù)隨便長(zhǎng)大。

??早停:當(dāng)驗(yàn)證集表現(xiàn)不再變好,甚至開始變差時(shí),及時(shí)停止訓(xùn)練。

??集成學(xué)習(xí):多個(gè)模型共同決策,通常比單個(gè)模型更穩(wěn)。

面試加分點(diǎn):

回答“如何避免過擬合”時(shí),最好按層次講:先從數(shù)據(jù)層面說增加樣本和數(shù)據(jù)增強(qiáng),再說特征層面做特征選擇/降維,再說模型層面簡(jiǎn)化復(fù)雜度,最后說訓(xùn)練策略層面用正則化、早停和集成學(xué)習(xí)。這樣會(huì)顯得你不是背概念,而是真的理解建模閉環(huán)。

4. 訓(xùn)練集、驗(yàn)證集、測(cè)試集,到底怎么分工?

4.1 訓(xùn)練集:讓模型學(xué)習(xí)規(guī)律

訓(xùn)練集就是模型真正“上課”的地方。參數(shù)更新、權(quán)重學(xué)習(xí),都是在訓(xùn)練集里完成的。

4.2 驗(yàn)證集:讓我們 調(diào)參 和選模型

驗(yàn)證集不是最終成績(jī)單,它是開發(fā)階段用來比較不同方案的。比如學(xué)習(xí)率怎么設(shè)、特征是否保留、正則強(qiáng)度多大,都應(yīng)該借助驗(yàn)證集來判斷。

4.3 測(cè)試集:只負(fù)責(zé)最后一次“終審”

Google 官方明確建議:數(shù)據(jù)最好分成訓(xùn)練集、驗(yàn)證集、測(cè)試集三部分。驗(yàn)證集用于開發(fā)階段的多輪比較,測(cè)試集用于最終確認(rèn)效果。測(cè)試集如果被反復(fù)拿來調(diào)參,就會(huì)逐漸“磨損”,模型會(huì)不知不覺對(duì)測(cè)試集特征產(chǎn)生適配,最終失去客觀性。

4.4 常見比例怎么分

很多人喜歡死背 7:1.5:1.5 或 8:1:1。其實(shí)官方材料也提醒過:訓(xùn)練集通常會(huì)更大,但不同集合之間沒有硬性百分比要求。中小 數(shù)據(jù)集 里,70/15/15、80/10/10 都很常見;真正要看樣本量、類別分布、業(yè)務(wù)成本。

4.5 為什么測(cè)試集不能反復(fù)調(diào)參

因?yàn)槟阋坏└鶕?jù)測(cè)試結(jié)果反過來改模型,測(cè)試集就不再是“沒見過的新數(shù)據(jù)”,而成了開發(fā)流程的一部分。這樣評(píng)估分?jǐn)?shù)會(huì)越來越好看,但真實(shí)上線效果不一定更好。

4.6 什么叫數(shù)據(jù)泄漏

數(shù)據(jù)泄漏不是數(shù)據(jù)丟了,而是不該提前知道的信息,被模型偷偷看到了。scikit-learn 官方建議非常明確:應(yīng)該先切分訓(xùn)練集和測(cè)試集,再做預(yù)處理。像標(biāo)準(zhǔn)化、缺失值填補(bǔ)、PCA、特征選擇,都必須只在訓(xùn)練集上 fit,再把同樣的 transform 應(yīng)用到驗(yàn)證集和測(cè)試集。

高頻答法模板:

訓(xùn)練集負(fù)責(zé)學(xué)習(xí)參數(shù),驗(yàn)證集負(fù)責(zé)調(diào)參與模型選擇,測(cè)試集只做最終評(píng)估。測(cè)試集不能反復(fù)參與調(diào)參,否則會(huì)造成對(duì)測(cè)試集的隱性過擬合;另外,預(yù)處理必須先切分再 fit,避免數(shù)據(jù)泄漏。

5. 什么是正則化?L1、L2、Early Stopping 到底在干什么?

5.1 正則化的本質(zhì):給模型加上“別太放飛”的約束

Google 的課程把正則化解釋得很直白:訓(xùn)練時(shí),不只是盯著損失,還要把模型復(fù)雜度也納入考慮。你可以把它理解成一根“牽引繩”,防止模型參數(shù)長(zhǎng)得過大,防止模型把訓(xùn)練數(shù)據(jù)記得太死。

5.2 L1 正則化:讓一部分權(quán)重干脆歸零

L1 更像“做減法”。它會(huì)把部分不重要的權(quán)重壓到 0,所以常被理解為一種自帶篩選效果的正則方式。面試?yán)锟梢园阉汀疤卣鬟x擇”聯(lián)系起來。

5.3 L2 正則化:不輕易歸零,但會(huì)抑制權(quán)重過大

L2 更像“收一收”。它不一定把權(quán)重清零,但會(huì)讓權(quán)重分布更平滑。Google 官方資料指出,較高的正則化強(qiáng)度會(huì)降低過擬合風(fēng)險(xiǎn),而正則化強(qiáng)度為 0 時(shí),相當(dāng)于完全取消正則,過擬合風(fēng)險(xiǎn)最高。

5.4 早停:看到驗(yàn)證集開始變差,就別再硬練了

早停也是一種正則化思路。官方課程給出的定義很直白:當(dāng)驗(yàn)證集損失開始上升時(shí),就提前結(jié)束訓(xùn)練。它通常會(huì)讓訓(xùn)練集損失沒有那么低,但測(cè)試集損失反而更好。

面試?yán)镌趺粗v最順:

正則化就是在訓(xùn)練目標(biāo)之外,再加一層對(duì)模型復(fù)雜度的約束。L1 傾向于把部分權(quán)重壓成 0,適合做特征篩選;L2 傾向于抑制過大的權(quán)重,讓模型更平滑;Early Stopping 則是在驗(yàn)證集開始變差時(shí)及時(shí)停止訓(xùn)練,防止繼續(xù)記住噪聲。

6. 什么是交叉驗(yàn)證?為什么它在模型選擇里這么重要?

6.1 為什么不能只切一次訓(xùn)練集/測(cè)試集就完事

如果只隨機(jī)切一次數(shù)據(jù),結(jié)果可能有偶然性。恰好這次切分讓驗(yàn)證集更簡(jiǎn)單,或者類別分布更友好,模型分?jǐn)?shù)就會(huì)顯得虛高。交叉驗(yàn)證的價(jià)值,就是通過多次切分、多輪驗(yàn)證,讓評(píng)估更穩(wěn)定。

6.2 scikit-learn 對(duì)交叉驗(yàn)證的核心提醒

scikit-learn 用戶指南直接指出:拿同一份數(shù)據(jù)既訓(xùn)練又測(cè)試,是一種方法論錯(cuò)誤,因?yàn)槟P图词怪皇前延?xùn)練樣本標(biāo)簽背下來,也能拿到完美分?jǐn)?shù),卻無法預(yù)測(cè)新樣本。為了避免這種情況,應(yīng)該留出一部分?jǐn)?shù)據(jù)做測(cè)試;而在調(diào)參階段,則常用交叉驗(yàn)證來比較候選模型。

6.3 常見交叉驗(yàn)證方法有哪些

??留出法(Hold-out):簡(jiǎn)單、快,但受一次切分影響較大。

??K 折交叉驗(yàn)證:最常見,把訓(xùn)練集分成 K 份,輪流驗(yàn)證,最后取平均結(jié)果。

??分層 K 折:保持各類別比例一致,適合類別不均衡的分類任務(wù)。

??留一法(LOOCV):每次留 1 個(gè)樣本做驗(yàn)證,樣本利用率高,但計(jì)算很慢。

?? 時(shí)間序列 交叉驗(yàn)證:按時(shí)間順序逐步擴(kuò)展訓(xùn)練窗口,不能隨便打亂。

6.4 K 折到底在做什么

它的本質(zhì)不是“把數(shù)據(jù)折來折去”,而是盡量讓每一份數(shù)據(jù)都有機(jī)會(huì)做一次驗(yàn)證集。這樣可以減少“這次切分剛好運(yùn)氣好”的偶然性。

6.5 K 該怎么選?是不是越大越好

不是。K 變大以后,通常評(píng)估更穩(wěn)定,但計(jì)算成本也更高。scikit-learn 的 cross_val_score 文檔寫得很清楚:當(dāng) cv=None 時(shí),默認(rèn)使用 5 折交叉驗(yàn)證;如果是二分類或多分類任務(wù),默認(rèn)會(huì)走 StratifiedKFold,從而盡量保證每折類別比例接近。

實(shí)戰(zhàn)里可以這樣記:

??中小數(shù)據(jù)集:5 折或 10 折是常見選擇。

??類別不均衡分類:優(yōu)先分層 K 折。

??時(shí)間序列:不要亂 shuffle,要按時(shí)間順序驗(yàn)證。

??數(shù)據(jù)特別大:先考慮計(jì)算成本,不要盲目追求更大的 K。

另外,StratifiedKFold 的官方定義也很直接:它會(huì)保持每折中的類別比例與整體盡量一致。這個(gè)點(diǎn)在面試?yán)镎f出來,很加分。

對(duì)于時(shí)間序列任務(wù),scikit-learn 還單獨(dú)提供了 TimeSeriesSplit,因?yàn)槠胀ń徊骝?yàn)證會(huì)造成“用未來預(yù)測(cè)過去”的邏輯錯(cuò)誤。

這段最實(shí)用的面試總結(jié):

交叉驗(yàn)證的作用,是讓模型評(píng)估不依賴單次隨機(jī)切分。普通分類或回歸任務(wù)常用 5 折或 10 折;類別不均衡時(shí)用分層 K 折;時(shí)間序列任務(wù)不能亂序,要按時(shí)間窗口做驗(yàn)證。K 不是越大越好,而是在穩(wěn)定性和計(jì)算成本之間找平衡。

7. 常見評(píng)估指標(biāo)怎么選?分類和回歸根本不是一套語言

7.1 分類任務(wù):別只會(huì)說準(zhǔn)確率

scikit-learn 的指標(biāo)文檔把分類指標(biāo)單獨(dú)列成一大類,說明它們關(guān)注的是不同角度的“好壞”。準(zhǔn)確率、精確率、召回率、F1、AUC,看的是完全不同的事情。

??準(zhǔn)確率(Accuracy):整體預(yù)測(cè)對(duì)了多少。適合類別較均衡、錯(cuò)判成本差不多的場(chǎng)景。

??精確率(Precision):預(yù)測(cè)為正的里面,有多少是真的正。適合誤報(bào)代價(jià)高的場(chǎng)景。

??召回率(Recall):真正為正的樣本里,被找回來多少。適合漏報(bào)代價(jià)高的場(chǎng)景。

??F1:精確率和召回率的折中平衡。

??AUC:更關(guān)注模型排序能力和區(qū)分能力。

7.2 回歸任務(wù):常見的是 MAE 、MSE、RMSE、R2

回歸指標(biāo)則是另一套邏輯。scikit-learn 文檔明確把 mean_squared_error、mean_absolute_error、r2_score 等列為回歸評(píng)估函數(shù)。

??MAE:平均絕對(duì)誤差,更直觀,受極端值影響相對(duì)沒那么夸張。

??MSE:平均平方誤差,會(huì)更強(qiáng)調(diào)大誤差。

??RMSE:把平方誤差再開回原量綱,更容易和業(yè)務(wù)含義對(duì)應(yīng)。

??R2:擬合優(yōu)度,表示模型解釋目標(biāo)波動(dòng)的能力。

7.3 為什么“指標(biāo)選錯(cuò)了”,模型選擇就會(huì)一起錯(cuò)

比如類別極不均衡的二分類任務(wù),如果你只看準(zhǔn)確率,可能模型什么都不做,只是把絕大多數(shù)樣本都預(yù)測(cè)成負(fù)類,也能顯得很高。可一旦業(yè)務(wù)更在意“別漏掉風(fēng)險(xiǎn)用戶”,你真正該盯的是召回率,甚至是 Precision-Recall 曲線。

7.4 一個(gè)實(shí)用 記憶

??關(guān)心漏報(bào):先看召回率。

??關(guān)心誤報(bào):先看精確率。

??既關(guān)心誤報(bào)又關(guān)心漏報(bào):看 F1。

??類別均衡、場(chǎng)景簡(jiǎn)單:準(zhǔn)確率可以先做基礎(chǔ)參考。

??回歸任務(wù):優(yōu)先從 MAE / RMSE / R2 中選合適組合。

面試官最想聽到的點(diǎn):

指標(biāo)不是越多越好,而是要和業(yè)務(wù)目標(biāo)匹配。比如風(fēng)控、醫(yī)療篩查這類場(chǎng)景通常更怕漏掉真正風(fēng)險(xiǎn)樣本,所以更看召回率;而垃圾短信、推薦曝光之類場(chǎng)景如果誤報(bào)成本高,就更要看精確率。

8. 什么是網(wǎng)格搜索?它和模型選擇是什么關(guān)系?

8.1 先理解“超參數(shù)”和“參數(shù)”不是一回事

模型參數(shù),是訓(xùn)練過程中學(xué)出來的,比如權(quán)重。超參數(shù),則是訓(xùn)練前先設(shè)定的,比如樹深度、正則強(qiáng)度、學(xué)習(xí)率、SVM 里的 C 和 gamma。

8.2 網(wǎng)格搜索在做什么

scikit-learn 的 GridSearchCV 官方定義非常直接:它會(huì)在給定參數(shù)網(wǎng)格上做窮舉搜索,并結(jié)合交叉驗(yàn)證,找出得分最好的參數(shù)組合。用戶指南也明確說過:GridSearchCV 會(huì)窮舉所有參數(shù)組合;如果參數(shù)空間太大,也可以考慮 RandomizedSearchCV。

8.3 一個(gè)最容易講清楚的例子

假設(shè)你有兩個(gè)超參數(shù):C 取 {0.1, 1, 10},gamma 取 {0.01, 0.1, 1}。那網(wǎng)格搜索就會(huì)把 3×3 共 9 組組合全部試一遍,每一組都做交叉驗(yàn)證,最后選平均得分最高的那組。

8.4 網(wǎng)格搜索的優(yōu)點(diǎn)和缺點(diǎn)

??優(yōu)點(diǎn):簡(jiǎn)單、直觀、容易實(shí)現(xiàn),面試?yán)镆沧詈弥v清楚。

??缺點(diǎn):參數(shù)一多,組合數(shù)暴漲,計(jì)算代價(jià)會(huì)迅速變大。

8.5 面試?yán)镆灰鲃?dòng)提隨機(jī)搜索

可以提,但不要喧賓奪主。最穩(wěn)妥的說法是:網(wǎng)格搜索適合參數(shù)空間較小、需要窮舉比較的場(chǎng)景;參數(shù)空間太大時(shí),隨機(jī)搜索往往效率更高。這樣既說明你懂?dāng)U展方法,又不會(huì)把主線講亂。

高分表達(dá):

網(wǎng)格搜索就是先定義超參數(shù)候選范圍,再把所有組合列出來,對(duì)每一組都做交叉驗(yàn)證,最后選平均效果最好的組合。它本質(zhì)上是“超參數(shù)層面”的模型選擇方法。

9. 模型評(píng)估與模型選擇里,面試最容易丟分的幾個(gè)坑

9.1 只會(huì)背概念,不會(huì)串成流程

很多回答會(huì)把過擬合、交叉驗(yàn)證、指標(biāo)、網(wǎng)格搜索拆成孤立名詞。真正成熟的回答應(yīng)該是一條鏈:先分?jǐn)?shù)據(jù),再訓(xùn)練,再在驗(yàn)證集或交叉驗(yàn)證上比較,再按合適指標(biāo)選模型,最后再用測(cè)試集做終審。

9.2 把驗(yàn)證集和測(cè)試集混用

這是最常見硬傷。驗(yàn)證集是開發(fā)階段反復(fù)使用的,測(cè)試集是最后一次確認(rèn)的。測(cè)試集一旦反復(fù)參與調(diào)參,結(jié)果就會(huì)變得不客觀。

9.3 忽略數(shù)據(jù)泄漏

scikit-learn 專門把“先切分,再預(yù)處理”寫進(jìn)常見陷阱章節(jié),就是因?yàn)檫@個(gè)問題太常見。標(biāo)準(zhǔn)化、缺失值填補(bǔ)、特征選擇、PCA,如果先對(duì)全量數(shù)據(jù) fit,再切訓(xùn)練測(cè)試,基本就是把答案先偷看了一眼。

9.4 只盯一個(gè)指標(biāo),忽視業(yè)務(wù)目標(biāo)

分類任務(wù)里,如果只會(huì)說準(zhǔn)確率,面試官通常會(huì)繼續(xù)追問:如果類別極不均衡怎么辦?如果醫(yī)療篩查場(chǎng)景更怕漏診怎么辦?你要能順勢(shì)講出精確率、召回率、F1 與業(yè)務(wù)成本的關(guān)系。

9.5 不知道什么時(shí)候該用普通 K 折,什么時(shí)候該用分層 K 折或時(shí)間序列驗(yàn)證

這是區(qū)分“會(huì)做題”和“會(huì)做項(xiàng)目”的關(guān)鍵。類別不均衡分類任務(wù),優(yōu)先分層 K 折;時(shí)序任務(wù),則必須按時(shí)間順序驗(yàn)證,不能隨機(jī)打亂。

10. 一段可以直接背誦的高分回答

可直接復(fù)述版:

模型評(píng)估是判斷模型效果,模型選擇是在多個(gè)候選模型和參數(shù)方案里選最合適的那個(gè)。核心目標(biāo)不是讓訓(xùn)練集分?jǐn)?shù)最高,而是提升模型在新數(shù)據(jù)上的泛化能力。為了避免過擬合,通常會(huì)從增加數(shù)據(jù)量、數(shù)據(jù)增強(qiáng)、特征選擇、簡(jiǎn)化模型、正則化、早停等角度入手。建模時(shí)一般把數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集、測(cè)試集:訓(xùn)練集用來學(xué)習(xí)參數(shù),驗(yàn)證集用來調(diào)參與選模型,測(cè)試集只做最終評(píng)估,不能反復(fù)參與調(diào)參。為了讓評(píng)估更穩(wěn)定,常用 K 折交叉驗(yàn)證;類別不均衡時(shí)用分層 K 折,時(shí)間序列則按時(shí)間順序驗(yàn)證。最后再根據(jù)任務(wù)選擇合適的指標(biāo),分類問題看準(zhǔn)確率、精確率、召回率、F1、AUC,回歸問題看 MAE、MSE、RMSE、R2。若要自動(dòng)找更優(yōu)參數(shù)組合,可以使用網(wǎng)格搜索結(jié)合交叉驗(yàn)證。

11. 總結(jié):模型評(píng)估與模型選擇,真正評(píng)的是“能不能打?qū)崙?zhàn)”

把這一整套內(nèi)容壓縮成一句話,就是:

??不要讓模型只在訓(xùn)練集里看起來厲害;

??要讓它在新數(shù)據(jù)上也穩(wěn)定、可靠、可解釋;

??而這件事,要靠正確的數(shù)據(jù)劃分、合理的驗(yàn)證方法、合適的指標(biāo)體系,以及清晰的模型選擇策略共同完成。

所以,當(dāng)面試官問你“什么是模型評(píng)估與模型選擇”時(shí),你不要只答幾個(gè)定義。最好的回答方式,是講出一條完整主線:過擬合與泛化 → 數(shù)據(jù)劃分 → 交叉驗(yàn)證 → 指標(biāo)選擇 → 超參數(shù)搜索 → 最終選型。你一旦把這條線講順了,這道題基本就穩(wěn)了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容