中日视频一区二区三区,AV在线一二三,亚洲天堂av伊人在线

把“為什么會(huì)過擬合、怎么選指標(biāo)、K 折怎么選、測(cè)試集為什么不能亂用”一次講清楚

很多人學(xué) 機(jī)器學(xué)習(xí) 時(shí)，模型能跑起來，但一到面試環(huán)節(jié)，面對(duì)“什么是過擬合”“為什么要交叉驗(yàn)證”“測(cè)試集和驗(yàn)證集有什么區(qū)別”“網(wǎng)格搜索是做什么的”這些問題，回答就容易碎片化。其實(shí)，模型評(píng)估與模型選擇不是幾條零散概念，而是一整套閉環(huán)：先把數(shù)據(jù)分開，再訓(xùn)練模型，再用合適的方法驗(yàn)證，再選對(duì)指標(biāo)，最后再?zèng)Q定哪個(gè)模型真正值得上線。

這篇文章會(huì)盡量不用復(fù)雜公式，而是用通俗語言和大量配圖，把這道面試高頻題徹底講透。

先給你一句總答法：

模型評(píng)估是“判斷模型到底好不好”，模型選擇是“在多個(gè)候選方案里選最合適的那個(gè)”。核心目標(biāo)不是把訓(xùn)練集分?jǐn)?shù)刷到最高，而是讓模型在沒見過的新數(shù)據(jù)上依然表現(xiàn)穩(wěn)定，也就是泛化能力強(qiáng)。

1. 面試官為什么總愛問“模型評(píng)估與模型選擇”？

1.1 這道題本質(zhì)上在考什么

表面上，這是一道基礎(chǔ)概念題；本質(zhì)上，它在考你有沒有完整的機(jī)器學(xué)習(xí)建模思維。面試官真正想聽的，不是你背出幾個(gè)術(shù)語，而是你是否知道：

??模型為什么會(huì)在訓(xùn)練集上表現(xiàn)很好，卻在新數(shù)據(jù)上突然失靈；

??為什么不能拿測(cè)試集一遍遍試模型；

??為什么同樣是“分?jǐn)?shù)高”，有時(shí)候并不代表模型真的更好；

??為什么分類任務(wù)、回歸任務(wù)、時(shí)序任務(wù)，評(píng)估方式根本不能混著用。

1.2 “模型評(píng)估”和“模型選擇”分別是什么

你可以把它們理解成兩個(gè)連續(xù)動(dòng)作：

??模型評(píng)估：給模型“打分”，看它在某個(gè)任務(wù)上表現(xiàn)如何。

??模型選擇：在多個(gè)模型、多個(gè)參數(shù)、多個(gè)特征方案里，選出最適合當(dāng)前任務(wù)的那個(gè)。

所以，前者更像“體檢”，后者更像“選人”。體檢做得再細(xì)，如果比較對(duì)象不對(duì)，最后也選不出最合適的模型。

2. 什么是過擬合、欠擬合與泛化能力？

2.1 欠擬合：模型太笨，連訓(xùn)練數(shù)據(jù) 都學(xué)不好

欠擬合的意思很簡(jiǎn)單：模型太簡(jiǎn)單，抓不住數(shù)據(jù)里的規(guī)律。它不是“背錯(cuò)了”，而是“根本沒學(xué)會(huì)”。這種情況下，訓(xùn)練集表現(xiàn)差，測(cè)試集通常也差。

2.2 過擬合：模型太聰明，把噪聲也記住了

過擬合則相反。模型在訓(xùn)練集上幾乎完美，但到了新樣本上就開始掉鏈子。Google 的機(jī)器學(xué)習(xí)課程把過擬合描述為：模型把訓(xùn)練集記得過于貼合，以至于無法對(duì)新數(shù)據(jù)做出正確預(yù)測(cè)。也就是說，它學(xué)到的不全是規(guī)律，還夾雜了噪聲、偶然性、局部細(xì)節(jié)。

2.3 泛化能力：真正要追求的，不是訓(xùn)練分高，而是新數(shù)據(jù)也穩(wěn)

機(jī)器學(xué)習(xí)不是做“開卷考試”。模型真正的價(jià)值，體現(xiàn)在它面對(duì)未見過的數(shù)據(jù)時(shí)還能否穩(wěn)定輸出。這個(gè)能力就叫泛化能力。一個(gè)好模型，不一定訓(xùn)練集分?jǐn)?shù)最高，但一定是在“沒見過的數(shù)據(jù)”上仍然靠譜。

2.4 過擬合和欠擬合通常由什么引起

??欠擬合常見原因：模型太簡(jiǎn)單、特征太弱、訓(xùn)練不夠、正則過強(qiáng)。

??過擬合常見原因：模型太復(fù)雜、樣本太少、噪聲太多、特征泄漏、測(cè)試集或驗(yàn)證集被反復(fù)使用。

??官方資料還特別強(qiáng)調(diào)：如果訓(xùn)練集、驗(yàn)證集、測(cè)試集與真實(shí)業(yè)務(wù)數(shù)據(jù)分布不一致，模型也很難真正泛化。

面試時(shí)一句話解釋：

欠擬合是模型太簡(jiǎn)單，連訓(xùn)練集規(guī)律都沒抓??；過擬合是模型太復(fù)雜，把噪聲也當(dāng)成了規(guī)律；我們真正追求的是泛化能力，也就是模型在新數(shù)據(jù)上依然表現(xiàn)穩(wěn)定。

3. 怎么避免過擬合？這是面試?yán)镒钊菀妆蛔穯柕囊欢?/h2>

3.1 增加數(shù)據(jù)量：最樸素，也最有效

當(dāng)樣本太少時(shí)，模型更容易把偶然性當(dāng)規(guī)律。增加數(shù)據(jù)量，本質(zhì)上是在告訴模型：別盯著幾條樣本死記硬背，要看更多真實(shí)情況。

3.2 數(shù)據(jù)增強(qiáng)：數(shù)據(jù)不夠時(shí)，用合理擾動(dòng)擴(kuò)充樣本

在圖像、語音、文本等任務(wù)里，真實(shí)數(shù)據(jù)貴，增強(qiáng)數(shù)據(jù)就成了實(shí)用手段。比如圖像旋轉(zhuǎn)、裁剪、翻轉(zhuǎn)，目的不是“造假”，而是讓模型見到更多合理變化。

3.3 特征選擇與降維：少一些噪聲，往往比多一些花活更有用

有些特征看起來多，其實(shí)只是給模型制造干擾。scikit-learn 的官方文檔專門提醒過：特征選擇是有幫助的，但必須只在訓(xùn)練數(shù)據(jù)上做；如果把測(cè)試集也拿去參與特征選擇，就會(huì)出現(xiàn)數(shù)據(jù)泄漏，得到過于樂觀的分?jǐn)?shù)。

3.4 簡(jiǎn)化模型：別一上來就上最重的武器

不是模型越復(fù)雜越高級(jí)。樣本不多、特征不穩(wěn)、噪聲明顯時(shí)，先用簡(jiǎn)單模型打底，反而更容易得到穩(wěn)定結(jié)果。

3.5 正則化、早停、集成學(xué)習(xí)

??正則化：給模型加“約束”，別讓參數(shù)隨便長(zhǎng)大。

??早停：當(dāng)驗(yàn)證集表現(xiàn)不再變好，甚至開始變差時(shí)，及時(shí)停止訓(xùn)練。

??集成學(xué)習(xí)：多個(gè)模型共同決策，通常比單個(gè)模型更穩(wěn)。

面試加分點(diǎn)：

回答“如何避免過擬合”時(shí)，最好按層次講：先從數(shù)據(jù)層面說增加樣本和數(shù)據(jù)增強(qiáng)，再說特征層面做特征選擇/降維，再說模型層面簡(jiǎn)化復(fù)雜度，最后說訓(xùn)練策略層面用正則化、早停和集成學(xué)習(xí)。這樣會(huì)顯得你不是背概念，而是真的理解建模閉環(huán)。

4. 訓(xùn)練集、驗(yàn)證集、測(cè)試集，到底怎么分工？

4.1 訓(xùn)練集：讓模型學(xué)習(xí)規(guī)律

訓(xùn)練集就是模型真正“上課”的地方。參數(shù)更新、權(quán)重學(xué)習(xí)，都是在訓(xùn)練集里完成的。

4.2 驗(yàn)證集：讓我們調(diào)參和選模型

驗(yàn)證集不是最終成績(jī)單，它是開發(fā)階段用來比較不同方案的。比如學(xué)習(xí)率怎么設(shè)、特征是否保留、正則強(qiáng)度多大，都應(yīng)該借助驗(yàn)證集來判斷。

4.3 測(cè)試集：只負(fù)責(zé)最后一次“終審”

Google 官方明確建議：數(shù)據(jù)最好分成訓(xùn)練集、驗(yàn)證集、測(cè)試集三部分。驗(yàn)證集用于開發(fā)階段的多輪比較，測(cè)試集用于最終確認(rèn)效果。測(cè)試集如果被反復(fù)拿來調(diào)參，就會(huì)逐漸“磨損”，模型會(huì)不知不覺對(duì)測(cè)試集特征產(chǎn)生適配，最終失去客觀性。

4.4 常見比例怎么分

很多人喜歡死背 7:1.5:1.5 或 8:1:1。其實(shí)官方材料也提醒過：訓(xùn)練集通常會(huì)更大，但不同集合之間沒有硬性百分比要求。中小數(shù)據(jù)集里，70/15/15、80/10/10 都很常見；真正要看樣本量、類別分布、業(yè)務(wù)成本。

4.5 為什么測(cè)試集不能反復(fù)調(diào)參

因?yàn)槟阋坏└鶕?jù)測(cè)試結(jié)果反過來改模型，測(cè)試集就不再是“沒見過的新數(shù)據(jù)”，而成了開發(fā)流程的一部分。這樣評(píng)估分?jǐn)?shù)會(huì)越來越好看，但真實(shí)上線效果不一定更好。

4.6 什么叫數(shù)據(jù)泄漏

數(shù)據(jù)泄漏不是數(shù)據(jù)丟了，而是不該提前知道的信息，被模型偷偷看到了。scikit-learn 官方建議非常明確：應(yīng)該先切分訓(xùn)練集和測(cè)試集，再做預(yù)處理。像標(biāo)準(zhǔn)化、缺失值填補(bǔ)、PCA、特征選擇，都必須只在訓(xùn)練集上 fit，再把同樣的 transform 應(yīng)用到驗(yàn)證集和測(cè)試集。

高頻答法模板：

訓(xùn)練集負(fù)責(zé)學(xué)習(xí)參數(shù)，驗(yàn)證集負(fù)責(zé)調(diào)參與模型選擇，測(cè)試集只做最終評(píng)估。測(cè)試集不能反復(fù)參與調(diào)參，否則會(huì)造成對(duì)測(cè)試集的隱性過擬合；另外，預(yù)處理必須先切分再 fit，避免數(shù)據(jù)泄漏。

5. 什么是正則化？L1、L2、Early Stopping 到底在干什么？

5.1 正則化的本質(zhì)：給模型加上“別太放飛”的約束

Google 的課程把正則化解釋得很直白：訓(xùn)練時(shí)，不只是盯著損失，還要把模型復(fù)雜度也納入考慮。你可以把它理解成一根“牽引繩”，防止模型參數(shù)長(zhǎng)得過大，防止模型把訓(xùn)練數(shù)據(jù)記得太死。

5.2 L1 正則化：讓一部分權(quán)重干脆歸零

L1 更像“做減法”。它會(huì)把部分不重要的權(quán)重壓到 0，所以常被理解為一種自帶篩選效果的正則方式。面試?yán)锟梢园阉汀疤卣鬟x擇”聯(lián)系起來。

5.3 L2 正則化：不輕易歸零，但會(huì)抑制權(quán)重過大

L2 更像“收一收”。它不一定把權(quán)重清零，但會(huì)讓權(quán)重分布更平滑。Google 官方資料指出，較高的正則化強(qiáng)度會(huì)降低過擬合風(fēng)險(xiǎn)，而正則化強(qiáng)度為 0 時(shí)，相當(dāng)于完全取消正則，過擬合風(fēng)險(xiǎn)最高。

5.4 早停：看到驗(yàn)證集開始變差，就別再硬練了

早停也是一種正則化思路。官方課程給出的定義很直白：當(dāng)驗(yàn)證集損失開始上升時(shí)，就提前結(jié)束訓(xùn)練。它通常會(huì)讓訓(xùn)練集損失沒有那么低，但測(cè)試集損失反而更好。

面試?yán)镌趺粗v最順：

正則化就是在訓(xùn)練目標(biāo)之外，再加一層對(duì)模型復(fù)雜度的約束。L1 傾向于把部分權(quán)重壓成 0，適合做特征篩選；L2 傾向于抑制過大的權(quán)重，讓模型更平滑；Early Stopping 則是在驗(yàn)證集開始變差時(shí)及時(shí)停止訓(xùn)練，防止繼續(xù)記住噪聲。

6. 什么是交叉驗(yàn)證？為什么它在模型選擇里這么重要？

6.1 為什么不能只切一次訓(xùn)練集/測(cè)試集就完事

如果只隨機(jī)切一次數(shù)據(jù)，結(jié)果可能有偶然性。恰好這次切分讓驗(yàn)證集更簡(jiǎn)單，或者類別分布更友好，模型分?jǐn)?shù)就會(huì)顯得虛高。交叉驗(yàn)證的價(jià)值，就是通過多次切分、多輪驗(yàn)證，讓評(píng)估更穩(wěn)定。

6.2 scikit-learn 對(duì)交叉驗(yàn)證的核心提醒

scikit-learn 用戶指南直接指出：拿同一份數(shù)據(jù)既訓(xùn)練又測(cè)試，是一種方法論錯(cuò)誤，因?yàn)槟Ｐ图词怪皇前延?xùn)練樣本標(biāo)簽背下來，也能拿到完美分?jǐn)?shù)，卻無法預(yù)測(cè)新樣本。為了避免這種情況，應(yīng)該留出一部分?jǐn)?shù)據(jù)做測(cè)試；而在調(diào)參階段，則常用交叉驗(yàn)證來比較候選模型。

6.3 常見交叉驗(yàn)證方法有哪些

??留出法（Hold-out）：簡(jiǎn)單、快，但受一次切分影響較大。

??K 折交叉驗(yàn)證：最常見，把訓(xùn)練集分成 K 份，輪流驗(yàn)證，最后取平均結(jié)果。

??分層 K 折：保持各類別比例一致，適合類別不均衡的分類任務(wù)。

??留一法（LOOCV）：每次留 1 個(gè)樣本做驗(yàn)證，樣本利用率高，但計(jì)算很慢。

?? 時(shí)間序列交叉驗(yàn)證：按時(shí)間順序逐步擴(kuò)展訓(xùn)練窗口，不能隨便打亂。

6.4 K 折到底在做什么

它的本質(zhì)不是“把數(shù)據(jù)折來折去”，而是盡量讓每一份數(shù)據(jù)都有機(jī)會(huì)做一次驗(yàn)證集。這樣可以減少“這次切分剛好運(yùn)氣好”的偶然性。

6.5 K 該怎么選？是不是越大越好

不是。K 變大以后，通常評(píng)估更穩(wěn)定，但計(jì)算成本也更高。scikit-learn 的 cross_val_score 文檔寫得很清楚：當(dāng) cv=None 時(shí)，默認(rèn)使用 5 折交叉驗(yàn)證；如果是二分類或多分類任務(wù)，默認(rèn)會(huì)走 StratifiedKFold，從而盡量保證每折類別比例接近。

實(shí)戰(zhàn)里可以這樣記：

??中小數(shù)據(jù)集：5 折或 10 折是常見選擇。

??類別不均衡分類：優(yōu)先分層 K 折。

??時(shí)間序列：不要亂 shuffle，要按時(shí)間順序驗(yàn)證。

??數(shù)據(jù)特別大：先考慮計(jì)算成本，不要盲目追求更大的 K。

另外，StratifiedKFold 的官方定義也很直接：它會(huì)保持每折中的類別比例與整體盡量一致。這個(gè)點(diǎn)在面試?yán)镎f出來，很加分。

對(duì)于時(shí)間序列任務(wù)，scikit-learn 還單獨(dú)提供了 TimeSeriesSplit，因?yàn)槠胀ń徊骝?yàn)證會(huì)造成“用未來預(yù)測(cè)過去”的邏輯錯(cuò)誤。

這段最實(shí)用的面試總結(jié)：

交叉驗(yàn)證的作用，是讓模型評(píng)估不依賴單次隨機(jī)切分。普通分類或回歸任務(wù)常用 5 折或 10 折；類別不均衡時(shí)用分層 K 折；時(shí)間序列任務(wù)不能亂序，要按時(shí)間窗口做驗(yàn)證。K 不是越大越好，而是在穩(wěn)定性和計(jì)算成本之間找平衡。

7. 常見評(píng)估指標(biāo)怎么選？分類和回歸根本不是一套語言

7.1 分類任務(wù)：別只會(huì)說準(zhǔn)確率

scikit-learn 的指標(biāo)文檔把分類指標(biāo)單獨(dú)列成一大類，說明它們關(guān)注的是不同角度的“好壞”。準(zhǔn)確率、精確率、召回率、F1、AUC，看的是完全不同的事情。

??準(zhǔn)確率（Accuracy）：整體預(yù)測(cè)對(duì)了多少。適合類別較均衡、錯(cuò)判成本差不多的場(chǎng)景。

??精確率（Precision）：預(yù)測(cè)為正的里面，有多少是真的正。適合誤報(bào)代價(jià)高的場(chǎng)景。

??召回率（Recall）：真正為正的樣本里，被找回來多少。適合漏報(bào)代價(jià)高的場(chǎng)景。

??F1：精確率和召回率的折中平衡。

??AUC：更關(guān)注模型排序能力和區(qū)分能力。

7.2 回歸任務(wù)：常見的是 MAE 、MSE、RMSE、R2

回歸指標(biāo)則是另一套邏輯。scikit-learn 文檔明確把 mean_squared_error、mean_absolute_error、r2_score 等列為回歸評(píng)估函數(shù)。

??MAE：平均絕對(duì)誤差，更直觀，受極端值影響相對(duì)沒那么夸張。

??MSE：平均平方誤差，會(huì)更強(qiáng)調(diào)大誤差。

??RMSE：把平方誤差再開回原量綱，更容易和業(yè)務(wù)含義對(duì)應(yīng)。

??R2：擬合優(yōu)度，表示模型解釋目標(biāo)波動(dòng)的能力。

7.3 為什么“指標(biāo)選錯(cuò)了”，模型選擇就會(huì)一起錯(cuò)

比如類別極不均衡的二分類任務(wù)，如果你只看準(zhǔn)確率，可能模型什么都不做，只是把絕大多數(shù)樣本都預(yù)測(cè)成負(fù)類，也能顯得很高。可一旦業(yè)務(wù)更在意“別漏掉風(fēng)險(xiǎn)用戶”，你真正該盯的是召回率，甚至是 Precision-Recall 曲線。

7.4 一個(gè)實(shí)用記憶法

??關(guān)心漏報(bào)：先看召回率。

??關(guān)心誤報(bào)：先看精確率。

??既關(guān)心誤報(bào)又關(guān)心漏報(bào)：看 F1。

??類別均衡、場(chǎng)景簡(jiǎn)單：準(zhǔn)確率可以先做基礎(chǔ)參考。

??回歸任務(wù)：優(yōu)先從 MAE / RMSE / R2 中選合適組合。

面試官最想聽到的點(diǎn)：

指標(biāo)不是越多越好，而是要和業(yè)務(wù)目標(biāo)匹配。比如風(fēng)控、醫(yī)療篩查這類場(chǎng)景通常更怕漏掉真正風(fēng)險(xiǎn)樣本，所以更看召回率；而垃圾短信、推薦曝光之類場(chǎng)景如果誤報(bào)成本高，就更要看精確率。

8. 什么是網(wǎng)格搜索？它和模型選擇是什么關(guān)系？

8.1 先理解“超參數(shù)”和“參數(shù)”不是一回事

模型參數(shù)，是訓(xùn)練過程中學(xué)出來的，比如權(quán)重。超參數(shù)，則是訓(xùn)練前先設(shè)定的，比如樹深度、正則強(qiáng)度、學(xué)習(xí)率、SVM 里的 C 和 gamma。

8.2 網(wǎng)格搜索在做什么

scikit-learn 的 GridSearchCV 官方定義非常直接：它會(huì)在給定參數(shù)網(wǎng)格上做窮舉搜索，并結(jié)合交叉驗(yàn)證，找出得分最好的參數(shù)組合。用戶指南也明確說過：GridSearchCV 會(huì)窮舉所有參數(shù)組合；如果參數(shù)空間太大，也可以考慮 RandomizedSearchCV。

8.3 一個(gè)最容易講清楚的例子

假設(shè)你有兩個(gè)超參數(shù)：C 取 {0.1, 1, 10}，gamma 取 {0.01, 0.1, 1}。那網(wǎng)格搜索就會(huì)把 3×3 共 9 組組合全部試一遍，每一組都做交叉驗(yàn)證，最后選平均得分最高的那組。

8.4 網(wǎng)格搜索的優(yōu)點(diǎn)和缺點(diǎn)

??優(yōu)點(diǎn)：簡(jiǎn)單、直觀、容易實(shí)現(xiàn)，面試?yán)镆沧詈弥v清楚。

??缺點(diǎn)：參數(shù)一多，組合數(shù)暴漲，計(jì)算代價(jià)會(huì)迅速變大。

8.5 面試?yán)镆灰鲃?dòng)提隨機(jī)搜索

可以提，但不要喧賓奪主。最穩(wěn)妥的說法是：網(wǎng)格搜索適合參數(shù)空間較小、需要窮舉比較的場(chǎng)景；參數(shù)空間太大時(shí)，隨機(jī)搜索往往效率更高。這樣既說明你懂?dāng)U展方法，又不會(huì)把主線講亂。

高分表達(dá)：

網(wǎng)格搜索就是先定義超參數(shù)候選范圍，再把所有組合列出來，對(duì)每一組都做交叉驗(yàn)證，最后選平均效果最好的組合。它本質(zhì)上是“超參數(shù)層面”的模型選擇方法。

9. 模型評(píng)估與模型選擇里，面試最容易丟分的幾個(gè)坑

9.1 只會(huì)背概念，不會(huì)串成流程

很多回答會(huì)把過擬合、交叉驗(yàn)證、指標(biāo)、網(wǎng)格搜索拆成孤立名詞。真正成熟的回答應(yīng)該是一條鏈：先分?jǐn)?shù)據(jù)，再訓(xùn)練，再在驗(yàn)證集或交叉驗(yàn)證上比較，再按合適指標(biāo)選模型，最后再用測(cè)試集做終審。

9.2 把驗(yàn)證集和測(cè)試集混用

這是最常見硬傷。驗(yàn)證集是開發(fā)階段反復(fù)使用的，測(cè)試集是最后一次確認(rèn)的。測(cè)試集一旦反復(fù)參與調(diào)參，結(jié)果就會(huì)變得不客觀。

9.3 忽略數(shù)據(jù)泄漏

scikit-learn 專門把“先切分，再預(yù)處理”寫進(jìn)常見陷阱章節(jié)，就是因?yàn)檫@個(gè)問題太常見。標(biāo)準(zhǔn)化、缺失值填補(bǔ)、特征選擇、PCA，如果先對(duì)全量數(shù)據(jù) fit，再切訓(xùn)練測(cè)試，基本就是把答案先偷看了一眼。

9.4 只盯一個(gè)指標(biāo)，忽視業(yè)務(wù)目標(biāo)

分類任務(wù)里，如果只會(huì)說準(zhǔn)確率，面試官通常會(huì)繼續(xù)追問：如果類別極不均衡怎么辦？如果醫(yī)療篩查場(chǎng)景更怕漏診怎么辦？你要能順勢(shì)講出精確率、召回率、F1 與業(yè)務(wù)成本的關(guān)系。

9.5 不知道什么時(shí)候該用普通 K 折，什么時(shí)候該用分層 K 折或時(shí)間序列驗(yàn)證

這是區(qū)分“會(huì)做題”和“會(huì)做項(xiàng)目”的關(guān)鍵。類別不均衡分類任務(wù)，優(yōu)先分層 K 折；時(shí)序任務(wù)，則必須按時(shí)間順序驗(yàn)證，不能隨機(jī)打亂。

10. 一段可以直接背誦的高分回答

可直接復(fù)述版：

模型評(píng)估是判斷模型效果，模型選擇是在多個(gè)候選模型和參數(shù)方案里選最合適的那個(gè)。核心目標(biāo)不是讓訓(xùn)練集分?jǐn)?shù)最高，而是提升模型在新數(shù)據(jù)上的泛化能力。為了避免過擬合，通常會(huì)從增加數(shù)據(jù)量、數(shù)據(jù)增強(qiáng)、特征選擇、簡(jiǎn)化模型、正則化、早停等角度入手。建模時(shí)一般把數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集、測(cè)試集：訓(xùn)練集用來學(xué)習(xí)參數(shù)，驗(yàn)證集用來調(diào)參與選模型，測(cè)試集只做最終評(píng)估，不能反復(fù)參與調(diào)參。為了讓評(píng)估更穩(wěn)定，常用 K 折交叉驗(yàn)證；類別不均衡時(shí)用分層 K 折，時(shí)間序列則按時(shí)間順序驗(yàn)證。最后再根據(jù)任務(wù)選擇合適的指標(biāo)，分類問題看準(zhǔn)確率、精確率、召回率、F1、AUC，回歸問題看 MAE、MSE、RMSE、R2。若要自動(dòng)找更優(yōu)參數(shù)組合，可以使用網(wǎng)格搜索結(jié)合交叉驗(yàn)證。

11. 總結(jié)：模型評(píng)估與模型選擇，真正評(píng)的是“能不能打?qū)崙?zhàn)”

把這一整套內(nèi)容壓縮成一句話，就是：

??不要讓模型只在訓(xùn)練集里看起來厲害；

??要讓它在新數(shù)據(jù)上也穩(wěn)定、可靠、可解釋；

??而這件事，要靠正確的數(shù)據(jù)劃分、合理的驗(yàn)證方法、合適的指標(biāo)體系，以及清晰的模型選擇策略共同完成。

所以，當(dāng)面試官問你“什么是模型評(píng)估與模型選擇”時(shí)，你不要只答幾個(gè)定義。最好的回答方式，是講出一條完整主線：過擬合與泛化 → 數(shù)據(jù)劃分 → 交叉驗(yàn)證 → 指標(biāo)選擇 → 超參數(shù)搜索 → 最終選型。你一旦把這條線講順了，這道題基本就穩(wěn)了。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

面試題：模型評(píng)估與模型選擇全解析——過擬合、欠擬合、交叉驗(yàn)證、正則化、網(wǎng)格搜索、評(píng)估指標(biāo)一文講透

1. 面試官為什么總愛問“模型評(píng)估與模型選擇”？

1.1 這道題本質(zhì)上在考什么

1.2 “模型評(píng)估”和“模型選擇”分別是什么

2. 什么是過擬合、欠擬合與泛化能力？

2.1 欠擬合：模型太笨，連 訓(xùn)練數(shù)據(jù) 都學(xué)不好

2.2 過擬合：模型太聰明，把噪聲也記住了

2.3 泛化能力：真正要追求的，不是訓(xùn)練分高，而是新數(shù)據(jù)也穩(wěn)

2.4 過擬合和欠擬合通常由什么引起

3. 怎么避免過擬合？這是面試?yán)镒钊菀妆蛔穯柕囊欢?/h2>

3.1 增加數(shù)據(jù)量：最樸素，也最有效

3.2 數(shù)據(jù)增強(qiáng)：數(shù)據(jù)不夠時(shí)，用合理擾動(dòng)擴(kuò)充樣本

3.3 特征選擇與降維：少一些噪聲，往往比多一些花活更有用