1. 經(jīng)驗(yàn)誤差與過擬合

錯(cuò)誤率：分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例

例如：m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤，則錯(cuò)誤率為 E=a/m

精度：分類正確的樣本數(shù)占樣本總數(shù)的比例。即：精度=1-錯(cuò)誤率

例如：m個(gè)樣本中有m-a個(gè)樣本分類正確，則精度 A=(m-a)/m=1-E

誤差：學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異

例如：10000個(gè)西瓜中，好瓜有6000個(gè)，但學(xué)習(xí)器預(yù)測(cè)有6500個(gè)，這之間的差異就是誤差

訓(xùn)練誤差、經(jīng)驗(yàn)誤差：學(xué)習(xí)器在訓(xùn)練集上的誤差

測(cè)試誤差：學(xué)習(xí)器在測(cè)試集上的誤差

泛化誤差：學(xué)習(xí)器在新樣本上的誤差

我們希望得到泛化誤差最小的學(xué)習(xí)器，然而實(shí)際能做的是努力使經(jīng)驗(yàn)誤差最小化。

在很多情況下，我們可以學(xué)的一個(gè)經(jīng)誤差很小、在訓(xùn)練集上表現(xiàn)很好的學(xué)習(xí)器，但是在新樣本中很有可能表現(xiàn)卻并不好。

例如：甚至對(duì)所有訓(xùn)練樣本都分類正確，即分類錯(cuò)誤率為0，分類精度為100%，但是在新樣本中的分類全錯(cuò)誤。

過擬合：學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好，將訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)成了所有潛在樣本都會(huì)具有的一般性質(zhì)，從而導(dǎo)致泛化性能下降。

最常見的情況是由于學(xué)習(xí)能力過于強(qiáng)大，以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了

過擬合是機(jī)器學(xué)習(xí)面臨的關(guān)鍵障礙，各類學(xué)習(xí)算法都必然帶有一些針對(duì)過擬合的措施，但過擬合是無(wú)法徹底避免的，我們所能做的只是“緩解”，或者減小其風(fēng)險(xiǎn)。

例如：過擬合導(dǎo)致誤以為樹葉必須有鋸齒，如下圖。

欠擬合：相對(duì)于“過擬合”，對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。

最常見的情況是由于學(xué)習(xí)能力低下造成的。

欠擬合比較容易克服，例如在決策樹學(xué)習(xí)中擴(kuò)展分支、在神經(jīng)網(wǎng)路學(xué)習(xí)中增加訓(xùn)練輪數(shù)等

例如：欠擬合誤以為綠色的都是樹葉，如下圖。

過擬合、欠擬合的直觀類比

2. 評(píng)估方法

使用測(cè)試集來(lái)測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力，然后以測(cè)試誤差作為泛化誤差的近似。

通常我們假設(shè)測(cè)試樣本也是從樣本真實(shí)分布中獨(dú)立同分布采樣得到，需要注意的是測(cè)試集應(yīng)該盡可能與訓(xùn)練集互斥。

例如：老師出了10道練習(xí)題供同學(xué)們練習(xí)，考試又用這10道題作為考題，可能有的同學(xué)只會(huì)做這10道題卻能得高分，并不能體現(xiàn)同學(xué)們對(duì)所學(xué)知識(shí)舉一反三的能力，也就是泛化能力。

2.1 留出法

留出法(hold-out)：通過分層采樣直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合，其中一個(gè)集合作為訓(xùn)練集S，另一個(gè)作為測(cè)試集T，即D=S∪T，S ∩T=?，在S上訓(xùn)練處模型后，用T來(lái)評(píng)估其測(cè)試誤差，作為泛化誤差的估計(jì)。

例如：假定D包含1000個(gè)樣本，將其劃分為S包含700個(gè)樣本，T包含300個(gè)樣本，用S進(jìn)行訓(xùn)練后，如果模型在T上有90個(gè)樣本錯(cuò)誤，則錯(cuò)誤率為 (90/300) * 100% = 30%，精度為 1 - 30% = 70%。

注意：訓(xùn)練集/測(cè)試集的劃分要盡可能的保持?jǐn)?shù)據(jù)分布的一致性，要避免因數(shù)據(jù)劃分過程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響

分層采樣：保留類別比例的采樣方式

例如：通過對(duì)D進(jìn)行分層采樣而獲得含70%樣本的訓(xùn)練集S和含30%樣本的測(cè)試集T，若D含500個(gè)正例、500個(gè)反例，則分層采樣得到的S應(yīng)該包含350個(gè)正例、350個(gè)反例，而T則包含150個(gè)正例和150個(gè)反例。

注意：單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠，在使用留出法時(shí)，一般要采用若干次隨機(jī)劃分，重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。

例如：進(jìn)行100次隨機(jī)劃分，每次產(chǎn)生一個(gè)訓(xùn)練/測(cè)試集用于式樣評(píng)估，100次后就得到100個(gè)結(jié)果，留出法使用的是這100個(gè)結(jié)果的平均

存在的問題：訓(xùn)練集/測(cè)試集大小的選擇對(duì)評(píng)估結(jié)果的影響，常見的做法是將大約2/3~4/5的樣本用于訓(xùn)練，剩下樣本用于測(cè)試。

1. 若訓(xùn)練集S包含絕大多數(shù)樣本，則訓(xùn)練集S與D比較接近，訓(xùn)練出的模型可能更加接近于用D訓(xùn)練出的模型，但由于T比較小，評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確

2. 若令測(cè)試集T多包含一些樣本，則訓(xùn)練集S與D的差別較大，訓(xùn)練出的模型與用D訓(xùn)練出的模型可能有較大的差別，從而降低了評(píng)估結(jié)果的保真性。

2.2 交叉驗(yàn)證法（k折交叉驗(yàn)證）

交叉驗(yàn)證法：通過分層采樣先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集，每次用k-1個(gè)子集的并集作為訓(xùn)練集，剩下的那個(gè)子集做測(cè)試集。可以獲得k組訓(xùn)練/測(cè)試集，從而進(jìn)行k次訓(xùn)練和測(cè)試，最終返回的是這k個(gè)測(cè)試結(jié)果的均值。

k常用的值為5、10、20等

例如：10折交叉驗(yàn)證

10折交叉驗(yàn)證示意圖

注意：與留出法類似，為減少因樣本劃分不同引入的差別，k折交叉驗(yàn)證通常需要隨機(jī)使用不同的劃分重復(fù)p次，最終的評(píng)估結(jié)果是這p次k折交叉驗(yàn)證結(jié)果的均值。

例如：10次10折交叉驗(yàn)證

留一法：假定數(shù)據(jù)集中包含m個(gè)樣本，若令k=m，則得到交叉驗(yàn)證的一個(gè)特例

留一法不受隨機(jī)樣本劃分方式的影響，因?yàn)閙個(gè)樣本只有唯一的方式劃分m個(gè)子集。

優(yōu)點(diǎn)：由于訓(xùn)練集比初始數(shù)據(jù)集只少了一個(gè)樣本，所以在絕大多數(shù)情況下，留一法中被實(shí)際評(píng)估的模型與期望評(píng)估的用D訓(xùn)練出的模型很相似，因此留一法的評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確。

缺點(diǎn)：在數(shù)據(jù)集比較大時(shí)，訓(xùn)練m個(gè)模型的計(jì)算開銷可能是難以忍受的，而且這還是在未考慮算法調(diào)參的情況下

例如：數(shù)據(jù)集包含1百萬(wàn)個(gè)樣本，則需要訓(xùn)練1百萬(wàn)個(gè)模型。

2.3 自助法

留出法和交叉驗(yàn)證法存在的問題：在留出法和交叉驗(yàn)證法中，由于保留了一部分樣本用于測(cè)試，實(shí)際評(píng)估的模型使用的訓(xùn)練集比D小，會(huì)引入一些因?yàn)?b>訓(xùn)練樣本規(guī)模不同而導(dǎo)致的估計(jì)誤差。留一法受樣本規(guī)模變化的影響比較小，但是計(jì)算復(fù)雜度太高了。

自助法：給定包含m個(gè)樣本的數(shù)據(jù)集D，按如下方式采樣產(chǎn)生包含m個(gè)樣本的數(shù)據(jù)集D'：每次隨機(jī)從D中挑選一個(gè)樣本將其拷貝放入D'，然后再將該樣本放回D中，重復(fù)執(zhí)行m次。D'我們用作訓(xùn)練集，未出現(xiàn)的樣本D-D'我們用作測(cè)試集。

D中有一部分樣本會(huì)在D'中重復(fù)出現(xiàn)，而另一部分樣本不會(huì)出現(xiàn)。樣本在m次采樣中始終不會(huì)被采到的概率是：(1-1/m)^m，取極限得到

(1-1/m)^m的極限

優(yōu)點(diǎn)：自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集和測(cè)試集時(shí)效果顯著；能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集

缺點(diǎn)：自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布，引入了估計(jì)偏差，因此在初始數(shù)據(jù)量足夠時(shí)，留出法和交叉驗(yàn)證法更常用一些。

2.4 調(diào)參與最終模型

參數(shù)調(diào)節(jié)、調(diào)參：對(duì)算法參數(shù)進(jìn)行設(shè)定

調(diào)參和算法選擇本質(zhì)上是一致的，對(duì)每種參數(shù)配置都訓(xùn)練出模型，然后把對(duì)應(yīng)最好的模型的參數(shù)作為結(jié)果。

學(xué)習(xí)算法的很多參數(shù)是在實(shí)數(shù)范圍內(nèi)取值的，因此對(duì)每種參數(shù)配置都訓(xùn)練出模型是不可行的。通常的做法是對(duì)每個(gè)參數(shù)選定一個(gè)范圍和變化步長(zhǎng)，顯然這樣選定的參數(shù)值往往不是最佳值，但這是在計(jì)算開銷和性能估計(jì)之間做的折中，只有這樣學(xué)習(xí)過程才變得可行。

例如：在[0,0.2]范圍內(nèi)以0.05為步長(zhǎng)，則實(shí)際要評(píng)估的候選參數(shù)值有5個(gè)，最終從這5個(gè)候選值中產(chǎn)生選定值。

即便在進(jìn)行這樣的折中后，調(diào)參往往仍然很困難。很多強(qiáng)大的學(xué)習(xí)算法有大量的參數(shù)需要設(shè)定，這將導(dǎo)致極大的調(diào)參工程量，以至于在不少應(yīng)用任務(wù)中，參數(shù)調(diào)得好不好往往對(duì)最終模型性能有關(guān)鍵性影響。

例如：算法有3個(gè)參數(shù)，每個(gè)參數(shù)僅考慮5個(gè)候選值，這樣對(duì)每一組訓(xùn)練/測(cè)試集就有5^3=125個(gè)模型需要考察。

在模型選擇完成后，學(xué)習(xí)算法和參數(shù)配置已選定，此時(shí)應(yīng)該用數(shù)據(jù)集D重新訓(xùn)練模型。

通常把學(xué)得模型在實(shí)際使用中遇到的數(shù)據(jù)稱為測(cè)試數(shù)據(jù)，模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集通常稱為驗(yàn)證集

3. 性能度量

監(jiān)督學(xué)習(xí)的性能度量

性能度量：衡量泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)

性能度量反映了任務(wù)需求，在對(duì)比不同模型的能力時(shí)，使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果。模型的“好壞”是相對(duì)的，什么樣的模型是好的，不僅取決于算法和數(shù)據(jù)，還決定于任務(wù)需求。

在預(yù)測(cè)任務(wù)中，給定樣例集D = {(x1, y1), (x2, y2),......, (xm, ym)}, 其中 yi是示例xi的真實(shí)標(biāo)記，要評(píng)估學(xué)習(xí)器?f?的性能，需要將學(xué)習(xí)器的預(yù)測(cè)結(jié)果?f(x)?同真實(shí)標(biāo)記y進(jìn)行比較

回歸任務(wù)的性能度量

均方誤差：

離散樣本的均方誤差

更一般的，對(duì)于數(shù)據(jù)分布?和概率密度p(·)，均方誤差的可描述為：

連續(xù)樣本的均方誤差

3.1 錯(cuò)誤率與精度

錯(cuò)誤率：分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例

例如：m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤，則錯(cuò)誤率為 E=a/m

精度：分類正確的樣本數(shù)占樣本總數(shù)的比例。即：精度=1-錯(cuò)誤率

例如：m個(gè)樣本中有m-a個(gè)樣本分類正確，則精度 A=(m-a)/m=1-E

對(duì)樣例集D，錯(cuò)誤率定義為

離散樣例的錯(cuò)誤率

精度定義為

離散樣例的精度

更一般的，對(duì)于數(shù)據(jù)分布?和概率密度p(·)，錯(cuò)誤率與精度可分別描述為：

連續(xù)樣例的錯(cuò)誤率

連續(xù)樣例的精度

3.2 查準(zhǔn)率、查全率與F1

對(duì)于二分類問題，可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例（TP）、假正例（FP）、真反例（TN）、假反例（FN）四種情形。

TP + FP +TN + FN = 樣例總數(shù)

分類結(jié)果混淆矩陣

查準(zhǔn)率P：真正例樣本數(shù)/預(yù)測(cè)結(jié)果是正例的樣本數(shù)

查準(zhǔn)率P

例如：瓜農(nóng)拉來(lái)一車西瓜，挑出來(lái)的西瓜有多少比例是好瓜

查全率：真正例樣本數(shù)/真實(shí)情況是正例的樣本數(shù)

查全率R

例如：瓜農(nóng)拉來(lái)一車西瓜，所有好瓜中有多少比例被挑了出來(lái)

查準(zhǔn)率和查全率是一對(duì)矛盾的度量。一般來(lái)說(shuō)，查準(zhǔn)率高時(shí)，查全率往往偏低；而查全率高時(shí)，查準(zhǔn)率往往偏低。通常只有在一些簡(jiǎn)單的任務(wù)中，才有可能是查全率和查準(zhǔn)率都很高。

例如：若希望將好瓜盡可能多的選出來(lái)，則可通過增加選瓜的數(shù)量，如果將所有西瓜都選上，那么所有的好瓜也必然選上，但是這時(shí)查準(zhǔn)率就會(huì)比較低。若希望選出的瓜中好瓜比例盡可能高，則可只挑選最有把握的瓜，但是這樣就會(huì)漏掉不少好瓜，使得查全率較低。

我們可以根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序，排在前面的是學(xué)習(xí)器認(rèn)為“最可能”是正例的樣本，排在最后的是學(xué)習(xí)器認(rèn)為“最不可能”是正例的樣本。按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)，則每次可以計(jì)算出當(dāng)前的查全率、查準(zhǔn)率。以查準(zhǔn)率做縱軸、查全率做橫軸作圖，就得到了查準(zhǔn)率-查全率曲線，簡(jiǎn)稱“P-R曲線”。

P-R曲線與平衡點(diǎn)示意圖

基于P-R曲線的學(xué)習(xí)器性能評(píng)價(jià)規(guī)則

1. 當(dāng)曲線沒有交叉的時(shí)候：外側(cè)曲線的學(xué)習(xí)器性能優(yōu)于內(nèi)側(cè)；

例如：學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C

2. 當(dāng)曲線有交叉的時(shí)候：

1)、比較P-R曲線下面積，它在一定程度上表征了查全率和查準(zhǔn)率取得相對(duì)“雙高”的比例，但這個(gè)值不太容易估算；

2)、比較兩條曲線的平衡點(diǎn)(Break-Event Point, 簡(jiǎn)稱BEP)，平衡點(diǎn)是“查準(zhǔn)率=查全率”時(shí)的取值，BEP越大，性能越優(yōu)。

例如：基于BEP的比較，可以認(rèn)為學(xué)習(xí)器A優(yōu)于學(xué)習(xí)器B

3)、BEP過于簡(jiǎn)化，更常用的F1度量和Fβ度量。

F1是基于查準(zhǔn)率與查全率的調(diào)和平均定義的，F(xiàn)β則是加權(quán)調(diào)和平均

查準(zhǔn)率與查全率的調(diào)和平均

F1度量的一般形式Fβ

查準(zhǔn)率與查全率的加權(quán)調(diào)和平均

β > 0 度量了查全率對(duì)查準(zhǔn)率的相對(duì)重要性。

β = 1 時(shí)退化為標(biāo)準(zhǔn)的F1；β > 1 時(shí)查全率有更大影響；β < 1 時(shí)查準(zhǔn)率有更大影響。

很多時(shí)候我們有多個(gè)二分類混淆矩陣，我們希望在n個(gè)二分類混淆矩陣上綜合考慮查準(zhǔn)率和查全率。

例如：進(jìn)行多次訓(xùn)練/測(cè)試，每次得到一個(gè)混淆矩陣；或是在多個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練/測(cè)試，需希望估計(jì)算法的“全局性能”；甚或是執(zhí)行多分類任務(wù)，每?jī)蓛深悇e的組合都對(duì)應(yīng)一個(gè)混合矩陣。

1）、先在各個(gè)混淆矩陣中分別計(jì)算出查準(zhǔn)率查全率，再計(jì)算平均值，這樣就得到“宏查準(zhǔn)率”(macro-P)、“宏查全率”(macro-R)以及“宏F1”(macro-F1)。

macro-P、macro-R以及macro-F1

2）、先將各個(gè)混淆矩陣的對(duì)應(yīng)元素進(jìn)行平均，得到TP、FP、TN、FN 的平均值，再基于這些平均值計(jì)算“微查準(zhǔn)率”(micro-P)、“微查全率”(micro-R)和“微F1”(micro-F1)。

(micro-P)

micro-R和micro-F1

3.3 ROC與AUC

根據(jù)實(shí)值或概率預(yù)測(cè)結(jié)果，我們可以將測(cè)試樣本進(jìn)行排序，“最可能”是正例的排在前面，“最不可能”是正例的排在最后面。分類過程相當(dāng)于在這個(gè)排序中以某個(gè)“截?cái)帱c(diǎn)”將樣本分為兩個(gè)部分，前一部分判做正例，后一部分則判作反例。

在不同的應(yīng)用任務(wù)中，我們可根據(jù)任務(wù)需求來(lái)采用不同的截?cái)帱c(diǎn)。

例如：若我們更重視查準(zhǔn)率。則可選擇排序靠前的位置進(jìn)行截?cái)?；若更重視查全率，則可選擇靠后的位置進(jìn)行截?cái)唷?/p>

排序本身質(zhì)量的好壞，體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下的“期望泛化性能”的好壞，或者說(shuō)“一般情況下”泛化性能的好壞。ROC曲線則是從排序本身質(zhì)量的好壞的角度來(lái)研究學(xué)習(xí)器泛化性能。

ROC全名“受試者工作特征”曲線，以“真正例率”為縱軸，以“假正例率”為橫軸。

真正例率TPR：真正例樣本數(shù)/真實(shí)情況是正例的樣本數(shù)（查全率）

TPR

假正例率FPR：假正例樣本數(shù)/真實(shí)情況是是反例的樣本數(shù)

FPR

ROC曲線的繪制過程：給定m+個(gè)正例和m-個(gè)反例，根據(jù)學(xué)習(xí)器預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序，然后把分類閾值設(shè)為最大，即把所有樣例均預(yù)測(cè)為反例，此時(shí)真正例率和反正例率均為0，在坐標(biāo)(0,0)處標(biāo)記一個(gè)點(diǎn)。然后將分類閾值依次設(shè)為每個(gè)樣例的預(yù)測(cè)值，即依次將每個(gè)樣例劃分為正例。設(shè)前一個(gè)標(biāo)記點(diǎn)坐標(biāo)為(x,y)，當(dāng)前若為真正例，則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x,y+1/m+)；當(dāng)前若為假正例，則對(duì)應(yīng)標(biāo)記的坐標(biāo)為(x+1/m-,y)，然后用線段連接相鄰點(diǎn)即得。

ROC曲線與AUC示意圖

現(xiàn)實(shí)任務(wù)中通常利用有限個(gè)測(cè)試樣例來(lái)繪制ROC圖，此時(shí)僅能獲得有限個(gè)坐標(biāo)，無(wú)法產(chǎn)生(a)中的ROC曲線，只能產(chǎn)生(b)中的ROC曲線。

基于ROC曲線的學(xué)習(xí)器性能評(píng)價(jià)規(guī)則

1. 當(dāng)曲線沒有交叉的時(shí)候：外側(cè)曲線的學(xué)習(xí)器性能優(yōu)于內(nèi)側(cè)；

2. 當(dāng)曲線有交叉的時(shí)候：比較ROC曲線下的面積即 AUC (Area Under ROC Curve)

AUC可估算為

AUC估算公式

形式化的看，AUC考慮的是樣本預(yù)測(cè)的排序質(zhì)量，因此它與排序誤差有緊密聯(lián)系。

給定m+個(gè)正例和m-個(gè)反例，令D+和D-分別表示正、反例集合，則排序的損失定義為

排序的損失定義

即考慮每一對(duì)正、反例，若正例的預(yù)測(cè)值小于反例，則記一個(gè)“罰分”，若相等，則記0.5個(gè)“罰分”。容易看出，對(duì)應(yīng)的是ROC曲線之上的面積：若一個(gè)正例在ROC曲線上對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x,y)，則x恰是排序在其之前的反例所占的比例，即假正例率。因此有

AUC

3.4 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線

前面介紹的性能度量，大都隱式地假設(shè)了不同類型的錯(cuò)誤造成的后果相同，但是在現(xiàn)實(shí)任務(wù)中經(jīng)常遇到不同類型的錯(cuò)誤造成的后果不同的情況。

例如：在醫(yī)療診斷中，錯(cuò)誤地把患者診斷為健康人與錯(cuò)誤的把健康人診斷為患者，前者的后果可能是錯(cuò)失醫(yī)治的最佳時(shí)機(jī)，而后者只是增加了進(jìn)一步檢查的麻煩。

為權(quán)衡不同類型的錯(cuò)誤所造成的不同損失，可為錯(cuò)誤賦予“非均等代價(jià)”。

以二分類代價(jià)矩陣為例，我們可根據(jù)任務(wù)領(lǐng)域知識(shí)設(shè)定一個(gè)“代價(jià)矩陣”。

二分類代價(jià)矩陣

“代價(jià)敏感錯(cuò)誤率”為

代價(jià)敏感錯(cuò)誤率

類似的，可給出基于分布定義的代價(jià)敏感錯(cuò)誤率，以及其他一些性能度量，如精度代價(jià)敏感版本。對(duì)于多分類任務(wù)同樣也可以定義出代價(jià)敏感性能度量。

在非均等代價(jià)下，ROC曲線不能直接反映出學(xué)習(xí)器的期望總體代價(jià)，而“代價(jià)曲線”則可以達(dá)到目的。代價(jià)曲線的橫軸是正例概率代價(jià)P(+)cost，縱軸是歸一化代價(jià)cost_norm

P(+)cost

其中，p是樣例為正例的概率

cost_norm

其中，F(xiàn)PR是假正例率，F(xiàn)NR = 1 - TPR

代價(jià)曲線的繪制過程：ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線段，設(shè)ROC曲線上點(diǎn)的坐標(biāo)為(TPR,FPR)，則可相應(yīng)計(jì)算出FNR，然后在代價(jià)平面上繪制一條從(0,FPR)到(1,FNR)的線段，線段下的面積即表示了該條件下的期望總體代價(jià)。如此將ROC上的每個(gè)點(diǎn)轉(zhuǎn)化為代價(jià)平面上的一個(gè)線段，然后取所有線段的下界，圍成的面積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

代價(jià)曲線與期望總體代價(jià)

4. 比較檢驗(yàn)

性能比較的復(fù)雜的原因：

1）、通過實(shí)驗(yàn)評(píng)估方法獲得的是測(cè)試集上的性能與泛化性能可能存在差異

2）、測(cè)試集上的性能與測(cè)試集本身的選擇有很大關(guān)系

3）、很多學(xué)習(xí)算法本身有一定的隨機(jī)性，即便使用相同的參數(shù)設(shè)置在同一個(gè)測(cè)試集上多次運(yùn)行，其結(jié)果也會(huì)不同。

4.1 假設(shè)檢驗(yàn)

4.2 交叉驗(yàn)證t檢驗(yàn)

4.3 McNemar 檢驗(yàn)

4.4 Friedman 檢驗(yàn)與 Nemenyi 后續(xù)檢驗(yàn)

5. 偏差與方差

“偏差-方差分解”用來(lái)解釋學(xué)習(xí)算法泛化性能的一種重要工具

“偏差-方差分解”試圖對(duì)學(xué)習(xí)算法的期望泛化錯(cuò)誤率進(jìn)行拆解。

以回歸任務(wù)為例，學(xué)習(xí)算法的期望預(yù)測(cè)為

期望預(yù)測(cè)

其中，f?(x;D)為訓(xùn)練集D上學(xué)得的模型?f?在x上的預(yù)測(cè)輸出

使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差為

方差

噪聲為

噪聲

期望輸出與真實(shí)標(biāo)記的差別稱為偏差，即

偏差

為了討論方便，假定噪聲期望為0，通過簡(jiǎn)單的多項(xiàng)式展開合并，可對(duì)算法的期望泛化誤差進(jìn)行分解。

噪聲期望為0

期望泛化誤差分解過程

于是得到，

期望泛化誤差

泛化誤差可分解為偏差、方差與噪聲之和

偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度，即刻畫了學(xué)習(xí)算法本身的擬合能力；方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響；噪聲度量了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界，即刻畫了學(xué)習(xí)問題本身的難度。

泛化性能時(shí)由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定。

一般來(lái)說(shuō)，偏差與方差是有沖突的，稱為偏差-方差窘境。

給定學(xué)習(xí)任務(wù)，假定我們能夠控制學(xué)習(xí)算法的訓(xùn)練程度。

1）、在訓(xùn)練不足時(shí)，學(xué)習(xí)器的擬合能力不夠強(qiáng)，訓(xùn)練數(shù)據(jù)的擾動(dòng)不足以是數(shù)據(jù)集產(chǎn)生顯著變化，此時(shí)偏差主導(dǎo)了泛化錯(cuò)誤率；

2)、隨著訓(xùn)練程度的加深，學(xué)習(xí)器的擬合能力逐漸增強(qiáng)，訓(xùn)練數(shù)據(jù)發(fā)生的擾動(dòng)逐漸能被學(xué)習(xí)器學(xué)到，此時(shí)方差主導(dǎo)了泛化錯(cuò)誤率；

3）、在訓(xùn)練程度充足后，學(xué)習(xí)器的擬合能力非常強(qiáng)，數(shù)據(jù)的輕微擾動(dòng)都會(huì)導(dǎo)致學(xué)習(xí)器發(fā)生顯著的變化，若訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到，則會(huì)發(fā)生過擬合。

泛化誤差與偏差、方差的關(guān)系示例圖

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《機(jī)器學(xué)習(xí)》— 第2章模型評(píng)估與選擇

《機(jī)器學(xué)習(xí)》— 第2章模型評(píng)估與選擇

1. 經(jīng)驗(yàn)誤差與過擬合

2. 評(píng)估方法

2.1 留出法

2.2 交叉驗(yàn)證法（k折交叉驗(yàn)證）

2.3 自助法

2.4 調(diào)參與最終模型

3. 性能度量

3.1 錯(cuò)誤率與精度

3.2 查準(zhǔn)率、查全率與F1

3.3 ROC與AUC

4. 比較檢驗(yàn)

5. 偏差與方差

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《機(jī)器學(xué)習(xí)》— 第2章 模型評(píng)估與選擇

1. 經(jīng)驗(yàn)誤差與過擬合

2. 評(píng)估方法

2.1 留出法

2.2 交叉驗(yàn)證法（k折交叉驗(yàn)證）

2.3 自助法

2.4 調(diào)參與最終模型

3. 性能度量

3.1 錯(cuò)誤率與精度

3.2 查準(zhǔn)率、查全率與F1

3.3 ROC與AUC

4. 比較檢驗(yàn)

5. 偏差與方差

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《機(jī)器學(xué)習(xí)》— 第2章模型評(píng)估與選擇