亚洲视频一区二区,国产美女91视频

Fundamental concepts：generalization（泛化、普遍化、一般化）；fitting （擬合）and overfitting（過(guò)擬合）；complexity control（復(fù)雜度控制）。

Exemplary techniques：cross-validation（交叉驗(yàn)證）；attribute selection（特征/屬性選擇）；tree pruning（樹(shù)剪枝）；regularization（正則化）。

Generalization（泛化）：指一個(gè)模型對(duì)于學(xué)習(xí)集以外的新數(shù)據(jù)的適應(yīng)性。

Overfitting Examined

在討論怎么應(yīng)對(duì)過(guò)擬合之前，我們先要知道如何識(shí)別過(guò)擬合。

Holdout Data（測(cè)試數(shù)據(jù)） and Fitting Graphs（擬合圖形）

Fitting Graph:擬合圖形以一個(gè)復(fù)雜度函數(shù)的形式來(lái)展示模型的精確程度。

為了檢測(cè)過(guò)擬合，需要引入一個(gè)數(shù)據(jù)科學(xué)的概念，holdout data（留出法，留出數(shù)據(jù)）。

直接點(diǎn)說(shuō)就是把學(xué)習(xí)集分一些數(shù)據(jù)出來(lái)當(dāng)做模型驗(yàn)證數(shù)據(jù)，當(dāng)留出法數(shù)據(jù)在這個(gè)場(chǎng)景下被使用時(shí)，通常被叫做“測(cè)試集”（相比學(xué)習(xí)集而言）。

模型結(jié)果函數(shù)越復(fù)雜，對(duì)學(xué)習(xí)集的擬合度則越高，但對(duì)測(cè)試集的貼合度會(huì)降低，這是一個(gè)反向關(guān)系，使用這個(gè)反向關(guān)系來(lái)尋找合適的模型函數(shù)的復(fù)雜度，以避免過(guò)擬合狀況的發(fā)生。（可參考下圖擬合圖進(jìn)行查看）

圖5-1 擬合圖，可以看到隨著復(fù)雜度提高，對(duì)學(xué)習(xí)集更貼合，但對(duì)測(cè)試集更偏離

關(guān)于前面的churn案例的一個(gè)擬合圖，如下圖5-2所示：

圖5-2 關(guān)于churn問(wèn)題的擬合圖

關(guān)于churn的擬合圖中錯(cuò)誤率的判斷，基于churn數(shù)據(jù)表中對(duì)target variable的yes和no的定義，即已知對(duì)于新加入的要素，默認(rèn)不會(huì)churn也就是不會(huì)換運(yùn)營(yíng)商，新元素no churn=right，churn=wrong?；谌繕颖鞠?，會(huì)有一個(gè)每年固定的churn幾率，這個(gè)固定的churn幾率即為y軸上b的值，這個(gè)幾率就叫做基礎(chǔ)概率即base rate，在樸素貝葉斯的概率預(yù)測(cè)方法中，base rate被使用的較為廣泛，后續(xù)章節(jié)會(huì)有相關(guān)介紹。

Overfitting in Tree Induction（決策樹(shù)方法中的過(guò)擬合）

決策樹(shù)的每一個(gè)葉子節(jié)點(diǎn)是否要拆分的依據(jù)是查看當(dāng)前該葉子節(jié)點(diǎn)中的所有元素是否有同樣的target variable值，若都相同，則不用再拆分，當(dāng)做葉子節(jié)點(diǎn)處理。

決策樹(shù)的復(fù)雜程度取決于它的節(jié)點(diǎn)數(shù)量。

圖5-3 一個(gè)典型的決策樹(shù)擬合曲線(xiàn)

決策樹(shù)擬合曲線(xiàn)左側(cè)，樹(shù)小且預(yù)測(cè)精度低，右側(cè)精度高?？梢钥闯鲈趕weet spot右側(cè)，學(xué)習(xí)集適配度隨著節(jié)點(diǎn)增多而增加，但是測(cè)試集準(zhǔn)確度隨著節(jié)點(diǎn)增多而降低，復(fù)雜度多過(guò)sweet spot時(shí)就發(fā)生了過(guò)擬合。

不幸的是，目前還沒(méi)有一個(gè)理論型的方法可以預(yù)測(cè)何時(shí)能達(dá)到這個(gè)sweet spot，只能憑借經(jīng)驗(yàn)主義來(lái)做判斷。

Overfitting in Mathematical Functions（數(shù)學(xué)函數(shù)的過(guò)擬合）

增加函數(shù)復(fù)雜度可能有以下情形：

1.? 增加變量的數(shù)量（即公式中 $x_{i}$ 的數(shù)量，i=1，2，3...）；

2. 增加非線(xiàn)性變量，如新增變量 $x_{4} =x_{1}^2$ ；

3. 增加非線(xiàn)性變量，如新增變量 $x_{5} =x_{2} /x_{3}$ ；

此時(shí)目標(biāo)函數(shù)變?yōu)椋?img class="math-inline" src="https://math.jianshu.com/math?formula=f(x)%3Dw_%7B0%7D%20%2Bw_%7B1%7D%20x_%7B1%7D%20%2Bw_%7B2%7D%20x_%7B2%7D%20%2Bw_%7B3%7D%20x_%7B3%7D%20%2Bw_%7B4%7D%20x_%7B4%7D%20%20%2Bw_%7B5%7D%20x_%7B5%7D%20" alt="f(x)=w_{0} +w_{1} x_{1} +w_{2} x_{2} +w_{3} x_{3} +w_{4} x_{4} +w_{5} x_{5} " mathimg="1">

這個(gè)就是一個(gè)典型的非直線(xiàn)函數(shù)，并且典型來(lái)說(shuō)，更多參數(shù)也就是更高維度，一般帶來(lái)更高的預(yù)測(cè)準(zhǔn)確度。

Example: Overfitting Linear Functions

這里還通過(guò)之前的鳶尾花的花瓣和花萼寬度的例子來(lái)解釋線(xiàn)性函數(shù)的過(guò)擬合。

圖5-6 圖中標(biāo)注了區(qū)分2中鳶尾花的曲線(xiàn)，當(dāng)新增一個(gè)干擾元素（五星處的元素）時(shí)，邏輯回歸得到的曲線(xiàn)由原來(lái)的增函數(shù)變?yōu)榱藴p函數(shù)，可明顯看到產(chǎn)生了過(guò)擬合的現(xiàn)象，而支持向量機(jī)的統(tǒng)計(jì)結(jié)果沒(méi)有太大變化，過(guò)擬合現(xiàn)象不顯著

下面我們將原先的2個(gè)變量引申為3個(gè)變量，即原先的花瓣寬度（petal width）、花萼寬度（sepal width）加上花萼寬度的平方，得到下圖所示的曲線(xiàn)：

圖5-7 可以看到加上平方變量后，兩種模型下的線(xiàn)都變成了曲線(xiàn)，但邏輯回歸的結(jié)果還是由于出現(xiàn)了干擾元素產(chǎn)生了顯著的過(guò)擬合表現(xiàn)

加入平方變量后，分割線(xiàn)均變?yōu)榱藪佄锞€(xiàn)（parabola）。

*Example: Why Is Overfitting Bad?

這個(gè)小節(jié)會(huì)討論過(guò)擬合如何產(chǎn)生和為何產(chǎn)生，這節(jié)不重要，跳過(guò)也不影響學(xué)習(xí)。

模型越復(fù)雜，就越有可能產(chǎn)生有害的假的關(guān)聯(lián)關(guān)系（feature和target variable之間的關(guān)聯(lián)關(guān)系），這種錯(cuò)誤關(guān)聯(lián)關(guān)系的泛化影響了對(duì)學(xué)習(xí)集以外的新元素的target variable的預(yù)測(cè)，從而降低了模型預(yù)測(cè)的準(zhǔn)確度

表5-1 學(xué)習(xí)集數(shù)據(jù)

可以發(fā)現(xiàn)通過(guò)上述學(xué)習(xí)集，得出：

1. x=p時(shí)，75%可能性class是c1，25%可能性class是c2，所以可以通過(guò)x進(jìn)行class預(yù)測(cè)；

2. 當(dāng)已經(jīng)計(jì)入x變量后再添加y變量，則y對(duì)class的預(yù)測(cè)不起作用，即x=p時(shí)y=r則class都是c1，x=p時(shí)y=s則class都是c2，在決策樹(shù)中不具備新的預(yù)測(cè)意義；

3. 但是可以得出結(jié)論x=p并且y=r時(shí)，class必為c1，這個(gè)節(jié)點(diǎn)的增加可以獲得新的information gain，但是卻把整體模型的預(yù)測(cè)錯(cuò)誤率從25%提高到30%，也就是增加的information gain同時(shí)增加了錯(cuò)誤率。

從這個(gè)案例總結(jié)出：

1. 這種過(guò)擬合現(xiàn)象不僅出現(xiàn)在決策樹(shù)模型中，只是決策樹(shù)模型中更明顯能看出來(lái)；

2. 這種現(xiàn)象并不是表5-1的數(shù)據(jù)特殊性導(dǎo)致的，所有數(shù)據(jù)集都會(huì)出現(xiàn)類(lèi)似的問(wèn)題；

3. 沒(méi)有一個(gè)通用的理論方案來(lái)提前知道這個(gè)模型是否已經(jīng)過(guò)擬合了，所以一定要留下一個(gè)holdout set（即測(cè)試集）來(lái)對(duì)過(guò)擬合現(xiàn)象的發(fā)生進(jìn)行判斷。

From Holdout Evaluation to Cross-validation（從“維持?jǐn)?shù)據(jù)”評(píng)估到交叉驗(yàn)證）

交叉驗(yàn)證的步驟如下：

1. 將數(shù)據(jù)集分成k個(gè)部分并且分別進(jìn)行標(biāo)簽標(biāo)記，這些部分命名為folds（子類(lèi)），通常情況下k會(huì)取5或者10；

2. 隨后對(duì)分組好的數(shù)據(jù)進(jìn)行k次模型學(xué)習(xí)和模型驗(yàn)證的迭代，在每一次迭代中，一個(gè)不同的子類(lèi)被選做測(cè)試集，此時(shí)其他幾個(gè)子類(lèi)共同組成學(xué)習(xí)集，所以每一個(gè)迭代都會(huì)有（k-1）/k的數(shù)據(jù)當(dāng)做學(xué)習(xí)集，有1/k的數(shù)據(jù)當(dāng)做測(cè)試集。

交叉驗(yàn)證的過(guò)程直觀展現(xiàn)如下圖：

圖5-9 如圖所示通過(guò)交叉驗(yàn)證過(guò)程，得到了5個(gè)不同準(zhǔn)確度的結(jié)果，后續(xù)可通過(guò)這些結(jié)果來(lái)計(jì)算平均準(zhǔn)確率和方差

3. 通過(guò)k次迭代后，可以得到k個(gè)不同的模型結(jié)果，可通過(guò)這k個(gè)結(jié)果計(jì)算出平均值和標(biāo)準(zhǔn)差。

（得到平均值就是數(shù)字化的預(yù)測(cè)結(jié)果，而標(biāo)準(zhǔn)差則是浮動(dòng)范圍）

The Churn Dataset Revisited（churn數(shù)據(jù)集再臨）

圖5-10 圖示為churn數(shù)據(jù)集的各子類(lèi)準(zhǔn)確度，上方是邏輯回歸模型，下方是決策樹(shù)模型

通過(guò)這個(gè)數(shù)據(jù)實(shí)踐可以發(fā)現(xiàn)如下幾個(gè)點(diǎn)：

1. 各子類(lèi)平均準(zhǔn)確度為68.6%，而之前章節(jié)全量數(shù)據(jù)當(dāng)學(xué)習(xí)集時(shí)的預(yù)測(cè)準(zhǔn)確度為73%，可見(jiàn)全量數(shù)據(jù)做學(xué)習(xí)集時(shí)出現(xiàn)了顯著的過(guò)擬合現(xiàn)象；

2. 不同子類(lèi)的預(yù)測(cè)準(zhǔn)確度有差異，所以取平均值是一個(gè)好主意，同時(shí)也可以使用這些數(shù)據(jù)產(chǎn)生的方差；

3. 對(duì)比邏輯回歸和決策樹(shù)的結(jié)果，發(fā)現(xiàn)兩種模型在分組3精確度都不高，在分組10精確度都較高，但兩種模式是不同的，并且邏輯回歸展示了較低的整體準(zhǔn)確度64.1%和較高的標(biāo)準(zhǔn)差1.3，所以在這個(gè)數(shù)據(jù)集上面，決策樹(shù)更適用，因?yàn)闇?zhǔn)確度高并且預(yù)測(cè)結(jié)果更穩(wěn)定（方差較?。?，但這個(gè)不是絕對(duì)的，換到其他數(shù)據(jù)集，結(jié)果就完全不一樣了。

Learning Curves（學(xué)習(xí)曲線(xiàn)）

模型的泛化表現(xiàn)和學(xué)習(xí)集數(shù)據(jù)數(shù)量的關(guān)系被叫做學(xué)習(xí)曲線(xiàn)（learning curve）。

學(xué)習(xí)曲線(xiàn)（learning curve）展示的是基于測(cè)試集的泛化表現(xiàn)，針對(duì)訓(xùn)練集的數(shù)據(jù)數(shù)量來(lái)統(tǒng)計(jì)，和訓(xùn)練集數(shù)據(jù)量相對(duì)應(yīng)（x軸）。

擬合圖（fitting graph）展示泛化表現(xiàn)同時(shí)也展示模型在學(xué)習(xí)集的表現(xiàn)，但是和模型的復(fù)雜度相對(duì)應(yīng)（x軸），擬合圖中訓(xùn)練集數(shù)據(jù)量通常不會(huì)變化。

圖5-11 針對(duì)churn問(wèn)題的決策樹(shù)方法&邏輯回歸方法的學(xué)習(xí)曲線(xiàn)。當(dāng)學(xué)習(xí)集（x軸）擴(kuò)張時(shí)，泛化表現(xiàn)（y軸）增長(zhǎng)。但兩種模型下泛化水平的增長(zhǎng)速度不同。邏輯回歸方法彈性較小，使它在小樣本量的時(shí)候過(guò)擬合現(xiàn)象較弱，但也降低了全量數(shù)據(jù)時(shí)復(fù)雜建模的準(zhǔn)確度。決策樹(shù)的方法彈性更好，所以在小學(xué)習(xí)集時(shí)過(guò)擬合現(xiàn)象顯著，但學(xué)習(xí)集擴(kuò)張時(shí)可以適應(yīng)更好的復(fù)雜規(guī)律。

Overfitting Avoidance and Complexity Control

先從決策樹(shù)模型開(kāi)始，逐漸得到一個(gè)可適用于多種模型的廣泛的避免過(guò)擬合的機(jī)制（mechanism）。

Avoiding Overfitting with Tree Induction

決策樹(shù)中一般使用的避免過(guò)擬合方法有以下兩種：

1. 在決策樹(shù)過(guò)于龐大前停止擴(kuò)張；

2. 持續(xù)擴(kuò)張決策樹(shù)，然后回刪“prune”決策樹(shù)，減小它的規(guī)模。

關(guān)于控制決策樹(shù)的復(fù)雜度的方法包括：

1. 限制每個(gè)葉子節(jié)點(diǎn)的最小元素個(gè)數(shù)。那么這個(gè)最小個(gè)數(shù)怎么定呢？

統(tǒng)計(jì)學(xué)家使用了一種假設(shè)測(cè)試“hypothesis test”。在停止擴(kuò)張決策樹(shù)時(shí)，先判定增加節(jié)點(diǎn)獲得的information gain是否是通過(guò)運(yùn)氣（chance）獲得的，如果不是通過(guò)運(yùn)氣獲得的，那么就繼續(xù)擴(kuò)張決策樹(shù)。這個(gè)判斷基于一個(gè)顯著性（p-value），通過(guò)p-value來(lái)定義分叉后的差異是否是由運(yùn)氣產(chǎn)生的，通常這個(gè)幾率使用5%。

2. 對(duì)一個(gè)大的決策樹(shù)進(jìn)行刪節(jié)點(diǎn)“prune”，表示使用葉子節(jié)點(diǎn)來(lái)替換其他的葉子節(jié)點(diǎn)或分叉節(jié)點(diǎn)。

這個(gè)方法取決于替換后，模型的準(zhǔn)確度是否會(huì)降低，這個(gè)過(guò)程可以持續(xù)迭代直到任何一次替換都會(huì)降低模型準(zhǔn)確度為止。

那么接下來(lái)思考下，如果我們使用所有類(lèi)型的復(fù)雜度來(lái)制作決策樹(shù)會(huì)怎樣？例如，搭一個(gè)節(jié)點(diǎn)就停止，然后再搭一個(gè)2節(jié)點(diǎn)的樹(shù)，再另外搭一個(gè)三節(jié)點(diǎn)的樹(shù)，然后得到了一堆不同復(fù)雜度的決策樹(shù)，然后只要有一個(gè)方法能證明模型的泛化表現(xiàn)，那么我們就可以選擇到泛化表現(xiàn)最好的這個(gè)模型。（應(yīng)該是拿來(lái)承上啟下的一段）

A General Method for Avoiding Overfitting（避免過(guò)擬合的通用方法）

嵌套留出測(cè)試（nested holdout testing）：將原有的學(xué)習(xí)集進(jìn)行再次拆分，拆為子學(xué)習(xí)集（訓(xùn)練集）和子確認(rèn)集（validation set for clarity），然后通過(guò)子學(xué)習(xí)集來(lái)訓(xùn)練模型，然后用子確認(rèn)集來(lái)驗(yàn)證。

嵌套交叉驗(yàn)證（nested cross-validation）：假如我們要對(duì)一組數(shù)據(jù)進(jìn)行建模，這組數(shù)據(jù)有一個(gè)未知的復(fù)雜度變量C，此時(shí)首先對(duì)交叉驗(yàn)證中的每個(gè)場(chǎng)景（即n個(gè)fold（組）為訓(xùn)練集，1個(gè)fold為測(cè)試集）進(jìn)行一次僅針對(duì)訓(xùn)練集數(shù)據(jù)的交叉驗(yàn)證，得到此時(shí)的最優(yōu)C值，找到這個(gè)場(chǎng)景下的最優(yōu)復(fù)雜度情況，然后再使用這個(gè)C值來(lái)進(jìn)行真正的全場(chǎng)景全fold的交叉驗(yàn)證。（與一般的交叉驗(yàn)證的區(qū)別在于，先只用訓(xùn)練集數(shù)據(jù)找到最優(yōu)復(fù)雜度參數(shù)C，再執(zhí)行全數(shù)據(jù)的交叉驗(yàn)證）

來(lái)使用決策樹(shù)方法簡(jiǎn)單解釋下嵌套交叉驗(yàn)證，根據(jù)圖5-3所示，最優(yōu)準(zhǔn)確率的決策樹(shù)節(jié)點(diǎn)數(shù)是122個(gè)，那么就先用子訓(xùn)練集和確認(rèn)集來(lái)得到122節(jié)點(diǎn)的這個(gè)數(shù)值，然后再使用122這個(gè)節(jié)點(diǎn)數(shù)，來(lái)對(duì)全訓(xùn)練集數(shù)據(jù)進(jìn)行建模，此處的122個(gè)節(jié)點(diǎn)數(shù)就可以當(dāng)做復(fù)雜度參數(shù)C。

若使用嵌套交叉驗(yàn)證對(duì)5個(gè)fold的數(shù)據(jù)集進(jìn)行分析，那么需要進(jìn)行30次建模，即對(duì)每個(gè)折疊情況下的訓(xùn)練集進(jìn)行子訓(xùn)練集和確認(rèn)集的拆分的時(shí)候，將4個(gè)原訓(xùn)練集的fold再拆成5份進(jìn)行參數(shù)C的確認(rèn)，此時(shí)每個(gè)outerloop的inner loop包含5個(gè)模型（共6個(gè)），故一共需要30次建模，可參考下圖及鏈接：

https://baijiahao.baidu.com/s?id=1669711016391829371&wfr=spider&for=pc

序列向前選擇（sequential forward selection - SFS）：仍然是測(cè)試集（拆分為子測(cè)試集和確認(rèn)集）、驗(yàn)證集，當(dāng)有n多個(gè)特征時(shí)，先使用一個(gè)feature建模，然后加上第二個(gè)，選擇其中最好的，然后加上第三個(gè)在三個(gè)feature的模型中選最好的，以此類(lèi)推，逐個(gè)增加，直到增加feature不能讓確認(rèn)集數(shù)據(jù)預(yù)測(cè)更準(zhǔn)確為止，此時(shí)使用的feature就是建立整個(gè)數(shù)據(jù)集模型要使用的feature。（同樣也可以先用全量feature建模，然后一個(gè)一個(gè)減少，方法類(lèi)似，名稱(chēng)為sequential backward elimination）

* Avoiding Overfitting for Parameter Optimization（參數(shù)最優(yōu)化中的過(guò)擬合預(yù)防）

正則化（regularization）：將數(shù)字化的回歸函數(shù)結(jié)果簡(jiǎn)單化的過(guò)程，模型擬合度越高越好，同時(shí)越簡(jiǎn)單也越好。

邏輯回歸的正則化表達(dá)式如下：

$arg\cdot max[g_{likelihood}(x,w)-\lambda \times penalty(w) ]$

其中， $g_{likelihood}(x,w)$ 是針對(duì)這個(gè)回歸的最佳模型結(jié)果， $\lambda$ 是懲罰系數(shù)， $penalty(w)$ 是懲罰函數(shù)。

通過(guò)給原有的最佳模型增加懲罰函數(shù)來(lái)調(diào)整最終結(jié)果，得到正則化后的數(shù)學(xué)表達(dá)式。

最常用到的懲罰是各系數(shù)（各w值）的平方和，通常叫做w的L2范數(shù)（L2-norm of w），當(dāng)系數(shù)很大時(shí)，w值的平方和會(huì)是一個(gè)很大的懲罰值（較大的正值或負(fù)值w會(huì)使模型更貼合學(xué)習(xí)集數(shù)據(jù)，同時(shí)也會(huì)使L2范數(shù)變大即懲罰增大，以此來(lái)應(yīng)對(duì)過(guò)擬合）。

嶺回歸（ridge? regression）：是一種專(zhuān)用于共線(xiàn)性數(shù)據(jù)分析的有偏估計(jì)回歸方法，實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法，通過(guò)放棄最小二乘法的無(wú)偏性，以損失部分信息、降低精度為代價(jià)獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法，對(duì)病態(tài)數(shù)據(jù)的擬合要強(qiáng)于最小二乘法（least-squares linear regression）（將L2-norm懲罰應(yīng)用在最小二乘法上之后得到的模型結(jié)果）。

最小二乘法（ordinary least squares）：最小二乘法是解決曲線(xiàn)擬合問(wèn)題最常用的方法。其基本思路是：令

$f(x)=a_{1} \varphi _{1}(x)+a_{2} \varphi _{2}(x)+\cdot \cdot \cdot +a_{m} \varphi _{m}(x)$

其中， $\varphi _{k}(x)$ 是事先選定的一組線(xiàn)性無(wú)關(guān)的函數(shù)， $a_{k}$ （k=1、2...m，m<n）是待定系數(shù)，擬合準(zhǔn)則是使 $y_{i}$ （y=1，2...n）與 $f（x_{i} ）$ 的距離 $\delta _{i}$ 的平方和最小，稱(chēng)為最小二乘準(zhǔn)則。

如果不使用系數(shù)平方和，而使用系數(shù)的絕對(duì)值來(lái)當(dāng)做懲罰函數(shù)，此時(shí)叫做L1范數(shù)（L1-norm），加上懲罰后的模型稱(chēng)為lasso（LASSO回歸）或者L1正則化（L1-regularization）。

L1正則化會(huì)使很多系數(shù)歸零，并且可以通過(guò)系數(shù)歸零來(lái)進(jìn)行feature的選擇。

支持向量機(jī)的正則化表達(dá)式如下：

$arg\cdot max[-g_{hinge}(x,w)-\lambda \times penalty(w) ]$

相比于邏輯回歸，支持向量機(jī)中把最佳函數(shù)更換為hinge loss（鉸鏈損失）判定函數(shù)的擬合度，鉸鏈損失越低擬合度越好，所以函數(shù)前面加了負(fù)號(hào)。

grid search（網(wǎng)格搜索）：在所有候選的參數(shù)選擇中，通過(guò)循環(huán)遍歷，嘗試每一種可能性，表現(xiàn)最好的參數(shù)就是最終的結(jié)果。其原理就像是在數(shù)組里找最大值。（為什么叫網(wǎng)格搜索？以有兩個(gè)參數(shù)的模型為例，參數(shù)a有3種可能，參數(shù)b有4種可能，把所有可能性列出來(lái)，可以表示成一個(gè)3*4的表格，其中每個(gè)cell就是一個(gè)網(wǎng)格，循環(huán)過(guò)程就像是在每個(gè)網(wǎng)格里遍歷、搜索，所以叫g(shù)rid search），本書(shū)中所提到的嵌套交叉驗(yàn)證尋找最優(yōu)解的過(guò)程也被叫做網(wǎng)格搜索。

Sidebar：Beware of “multiple comparisons”（注意多重比較）

場(chǎng)景簡(jiǎn)介：你的投資公司要成立一個(gè)投資基金，將資金投入到1000個(gè)基金中，每個(gè)基金包含了若干隨機(jī)挑選的股票，5年后，這些基金有些漲了有些跌了，你可以清算掉跌的，留下漲的，然后宣稱(chēng)你的公司投資回報(bào)率很好。

更直觀比喻，拿1000個(gè)硬幣扔很多次，肯定會(huì)有某個(gè)硬幣正面朝上的概率高于50%很多，那么找到這個(gè)硬幣當(dāng)成最好的硬幣，其實(shí)是很傻逼的一種決策。這種問(wèn)題就叫做多重比較問(wèn)題。

也就是說(shuō)通過(guò)學(xué)習(xí)集來(lái)得到的多個(gè)不同復(fù)雜度的模型，就像這多個(gè)硬幣一樣，從這里挑選出來(lái)的最優(yōu)模型，在進(jìn)行預(yù)測(cè)時(shí)，可能也會(huì)遇到“最好硬幣”相同的問(wèn)題，即多重比較誤區(qū)。

Summary

總結(jié)就是順了一遍前面講的知識(shí)點(diǎn)，沒(méi)啥新內(nèi)容。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

5. 過(guò)擬合及其避免

5. 過(guò)擬合及其避免

Overfitting Examined

Holdout Data（測(cè)試數(shù)據(jù)） and Fitting Graphs（擬合圖形）

Overfitting in Tree Induction（決策樹(shù)方法中的過(guò)擬合）

Overfitting in Mathematical Functions（數(shù)學(xué)函數(shù)的過(guò)擬合）

Example: Overfitting Linear Functions

*Example: Why Is Overfitting Bad?

From Holdout Evaluation to Cross-validation（從“維持?jǐn)?shù)據(jù)”評(píng)估到交叉驗(yàn)證）

The Churn Dataset Revisited（churn數(shù)據(jù)集再臨）

Learning Curves（學(xué)習(xí)曲線(xiàn)）

Overfitting Avoidance and Complexity Control

Avoiding Overfitting with Tree Induction

A General Method for Avoiding Overfitting（避免過(guò)擬合的通用方法）

* Avoiding Overfitting for Parameter Optimization（參數(shù)最優(yōu)化中的過(guò)擬合預(yù)防）

Sidebar：Beware of “multiple comparisons”（注意多重比較）

Summary

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

5. 過(guò)擬合及其避免

Overfitting Examined

Holdout Data（測(cè)試數(shù)據(jù)） and Fitting Graphs（擬合圖形）

Overfitting in Tree Induction（決策樹(shù)方法中的過(guò)擬合）

Overfitting in Mathematical Functions（數(shù)學(xué)函數(shù)的過(guò)擬合）

Example: Overfitting Linear Functions

*Example: Why Is Overfitting Bad?

From Holdout Evaluation to Cross-validation（從“維持?jǐn)?shù)據(jù)”評(píng)估到交叉驗(yàn)證）

The Churn Dataset Revisited（churn數(shù)據(jù)集再臨）

Learning Curves（學(xué)習(xí)曲線(xiàn)）

Overfitting Avoidance and Complexity Control

Avoiding Overfitting with Tree Induction

A General Method for Avoiding Overfitting（避免過(guò)擬合的通用方法）

* Avoiding Overfitting for Parameter Optimization（參數(shù)最優(yōu)化中的過(guò)擬合預(yù)防）

Sidebar：Beware of “multiple comparisons”（注意多重比較）

Summary

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av