1. 經(jīng)驗(yàn)誤差與過擬合
錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例
例如:m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤,則錯(cuò)誤率為 E=a/m
精度:分類正確的樣本數(shù)占樣本總數(shù)的比例。即:精度=1-錯(cuò)誤率
例如:m個(gè)樣本中有m-a個(gè)樣本分類正確,則精度 A=(m-a)/m=1-E
誤差:學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異
例如:10000個(gè)西瓜中,好瓜有6000個(gè),但學(xué)習(xí)器預(yù)測(cè)有6500個(gè),這之間的差異就是誤差
訓(xùn)練誤差、經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差
測(cè)試誤差:學(xué)習(xí)器在測(cè)試集上的誤差
泛化誤差:學(xué)習(xí)器在新樣本上的誤差
我們希望得到泛化誤差最小的學(xué)習(xí)器,然而實(shí)際能做的是努力使經(jīng)驗(yàn)誤差最小化。
在很多情況下,我們可以學(xué)的一個(gè)經(jīng)誤差很小、在訓(xùn)練集上表現(xiàn)很好的學(xué)習(xí)器,但是在新樣本中很有可能表現(xiàn)卻并不好。
例如:甚至對(duì)所有訓(xùn)練樣本都分類正確,即分類錯(cuò)誤率為0,分類精度為100%,但是在新樣本中的分類全錯(cuò)誤。
過擬合:學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好,將訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)成了所有潛在樣本都會(huì)具有的一般性質(zhì),從而導(dǎo)致泛化性能下降。
最常見的情況是由于學(xué)習(xí)能力過于強(qiáng)大,以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了
過擬合是機(jī)器學(xué)習(xí)面臨的關(guān)鍵障礙,各類學(xué)習(xí)算法都必然帶有一些針對(duì)過擬合的措施,但過擬合是無(wú)法徹底避免的,我們所能做的只是“緩解”,或者減小其風(fēng)險(xiǎn)。
例如:過擬合導(dǎo)致誤以為樹葉必須有鋸齒,如下圖。
欠擬合:相對(duì)于“過擬合”,對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。
最常見的情況是由于學(xué)習(xí)能力低下造成的。
欠擬合比較容易克服,例如在決策樹學(xué)習(xí)中擴(kuò)展分支、在神經(jīng)網(wǎng)路學(xué)習(xí)中增加訓(xùn)練輪數(shù)等
例如:欠擬合誤以為綠色的都是樹葉,如下圖。

2. 評(píng)估方法
使用測(cè)試集來(lái)測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力,然后以測(cè)試誤差作為泛化誤差的近似。
通常我們假設(shè)測(cè)試樣本也是從樣本真實(shí)分布中獨(dú)立同分布采樣得到,需要注意的是測(cè)試集應(yīng)該盡可能與訓(xùn)練集互斥。
例如:老師出了10道練習(xí)題供同學(xué)們練習(xí),考試又用這10道題作為考題,可能有的同學(xué)只會(huì)做這10道題卻能得高分,并不能體現(xiàn)同學(xué)們對(duì)所學(xué)知識(shí)舉一反三的能力,也就是泛化能力。
2.1 留出法
留出法(hold-out):通過分層采樣直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S,另一個(gè)作為測(cè)試集T,即D=S∪T,S ∩T=?,在S上訓(xùn)練處模型后,用T來(lái)評(píng)估其測(cè)試誤差,作為泛化誤差的估計(jì)。
例如:假定D包含1000個(gè)樣本,將其劃分為S包含700個(gè)樣本,T包含300個(gè)樣本,用S進(jìn)行訓(xùn)練后,如果模型在T上有90個(gè)樣本錯(cuò)誤,則錯(cuò)誤率為 (90/300) * 100% = 30%,精度為 1 - 30% = 70%。
注意:訓(xùn)練集/測(cè)試集的劃分要盡可能的保持?jǐn)?shù)據(jù)分布的一致性,要避免因數(shù)據(jù)劃分過程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響
分層采樣:保留類別比例的采樣方式
例如:通過對(duì)D進(jìn)行分層采樣而獲得含70%樣本的訓(xùn)練集S和含30%樣本的測(cè)試集T,若D含500個(gè)正例、500個(gè)反例,則分層采樣得到的S應(yīng)該包含350個(gè)正例、350個(gè)反例,而T則包含150個(gè)正例和150個(gè)反例。
注意:單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠,在使用留出法時(shí),一般要采用若干次隨機(jī)劃分,重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。
例如:進(jìn)行100次隨機(jī)劃分,每次產(chǎn)生一個(gè)訓(xùn)練/測(cè)試集用于式樣評(píng)估,100次后就得到100個(gè)結(jié)果,留出法使用的是這100個(gè)結(jié)果的平均
存在的問題:訓(xùn)練集/測(cè)試集大小的選擇對(duì)評(píng)估結(jié)果的影響,常見的做法是將大約2/3~4/5的樣本用于訓(xùn)練,剩下樣本用于測(cè)試。
1. 若訓(xùn)練集S包含絕大多數(shù)樣本,則訓(xùn)練集S與D比較接近,訓(xùn)練出的模型可能更加接近于用D訓(xùn)練出的模型,但由于T比較小,評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確
2. 若令測(cè)試集T多包含一些樣本,則訓(xùn)練集S與D的差別較大,訓(xùn)練出的模型與用D訓(xùn)練出的模型可能有較大的差別,從而降低了評(píng)估結(jié)果的保真性。
2.2 交叉驗(yàn)證法(k折交叉驗(yàn)證)
交叉驗(yàn)證法:通過分層采樣先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集,每次用k-1個(gè)子集的并集作為訓(xùn)練集,剩下的那個(gè)子集做測(cè)試集。可以獲得k組訓(xùn)練/測(cè)試集,從而進(jìn)行k次訓(xùn)練和測(cè)試,最終返回的是這k個(gè)測(cè)試結(jié)果的均值。
k常用的值為5、10、20等
例如:10折交叉驗(yàn)證

注意:與留出法類似,為減少因樣本劃分不同引入的差別,k折交叉驗(yàn)證通常需要隨機(jī)使用不同的劃分重復(fù)p次,最終的評(píng)估結(jié)果是這p次k折交叉驗(yàn)證結(jié)果的均值。
例如:10次10折交叉驗(yàn)證
留一法:假定數(shù)據(jù)集中包含m個(gè)樣本,若令k=m,則得到交叉驗(yàn)證的一個(gè)特例
留一法不受隨機(jī)樣本劃分方式的影響,因?yàn)閙個(gè)樣本只有唯一的方式劃分m個(gè)子集。
優(yōu)點(diǎn):由于訓(xùn)練集比初始數(shù)據(jù)集只少了一個(gè)樣本,所以在絕大多數(shù)情況下,留一法中被實(shí)際評(píng)估的模型與期望評(píng)估的用D訓(xùn)練出的模型很相似,因此留一法的評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確。
缺點(diǎn):在數(shù)據(jù)集比較大時(shí),訓(xùn)練m個(gè)模型的計(jì)算開銷可能是難以忍受的,而且這還是在未考慮算法調(diào)參的情況下
例如:數(shù)據(jù)集包含1百萬(wàn)個(gè)樣本,則需要訓(xùn)練1百萬(wàn)個(gè)模型。
2.3 自助法
留出法和交叉驗(yàn)證法存在的問題:在留出法和交叉驗(yàn)證法中,由于保留了一部分樣本用于測(cè)試,實(shí)際評(píng)估的模型使用的訓(xùn)練集比D小,會(huì)引入一些因?yàn)?b>訓(xùn)練樣本規(guī)模不同而導(dǎo)致的估計(jì)誤差。留一法受樣本規(guī)模變化的影響比較小,但是計(jì)算復(fù)雜度太高了。
自助法:給定包含m個(gè)樣本的數(shù)據(jù)集D,按如下方式采樣產(chǎn)生包含m個(gè)樣本的數(shù)據(jù)集D':每次隨機(jī)從D中挑選一個(gè)樣本將其拷貝放入D',然后再將該樣本放回D中,重復(fù)執(zhí)行m次。D'我們用作訓(xùn)練集,未出現(xiàn)的樣本D-D'我們用作測(cè)試集。
D中有一部分樣本會(huì)在D'中重復(fù)出現(xiàn),而另一部分樣本不會(huì)出現(xiàn)。樣本在m次采樣中始終不會(huì)被采到的概率是:(1-1/m)^m,取極限得到

優(yōu)點(diǎn):自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集和測(cè)試集時(shí)效果顯著;能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集
缺點(diǎn):自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,引入了估計(jì)偏差,因此在初始數(shù)據(jù)量足夠時(shí),留出法和交叉驗(yàn)證法更常用一些。
2.4 調(diào)參與最終模型
參數(shù)調(diào)節(jié)、調(diào)參:對(duì)算法參數(shù)進(jìn)行設(shè)定
調(diào)參和算法選擇本質(zhì)上是一致的,對(duì)每種參數(shù)配置都訓(xùn)練出模型,然后把對(duì)應(yīng)最好的模型的參數(shù)作為結(jié)果。
學(xué)習(xí)算法的很多參數(shù)是在實(shí)數(shù)范圍內(nèi)取值的,因此對(duì)每種參數(shù)配置都訓(xùn)練出模型是不可行的。通常的做法是對(duì)每個(gè)參數(shù)選定一個(gè)范圍和變化步長(zhǎng),顯然這樣選定的參數(shù)值往往不是最佳值,但這是在計(jì)算開銷和性能估計(jì)之間做的折中,只有這樣學(xué)習(xí)過程才變得可行。
例如:在[0,0.2]范圍內(nèi)以0.05為步長(zhǎng),則實(shí)際要評(píng)估的候選參數(shù)值有5個(gè),最終從這5個(gè)候選值中產(chǎn)生選定值。
即便在進(jìn)行這樣的折中后,調(diào)參往往仍然很困難。很多強(qiáng)大的學(xué)習(xí)算法有大量的參數(shù)需要設(shè)定,這將導(dǎo)致極大的調(diào)參工程量,以至于在不少應(yīng)用任務(wù)中,參數(shù)調(diào)得好不好往往對(duì)最終模型性能有關(guān)鍵性影響。
例如:算法有3個(gè)參數(shù),每個(gè)參數(shù)僅考慮5個(gè)候選值,這樣對(duì)每一組訓(xùn)練/測(cè)試集就有5^3=125個(gè)模型需要考察。
在模型選擇完成后,學(xué)習(xí)算法和參數(shù)配置已選定,此時(shí)應(yīng)該用數(shù)據(jù)集D重新訓(xùn)練模型。
通常把學(xué)得模型在實(shí)際使用中遇到的數(shù)據(jù)稱為測(cè)試數(shù)據(jù),模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集通常稱為驗(yàn)證集
3. 性能度量

性能度量:衡量泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)
性能度量反映了任務(wù)需求,在對(duì)比不同模型的能力時(shí),使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果。模型的“好壞”是相對(duì)的,什么樣的模型是好的,不僅取決于算法和數(shù)據(jù),還決定于任務(wù)需求。
在預(yù)測(cè)任務(wù)中,給定樣例集D = {(x1, y1), (x2, y2),......, (xm, ym)}, 其中 yi是示例xi的真實(shí)標(biāo)記,要評(píng)估學(xué)習(xí)器?f?的性能,需要將學(xué)習(xí)器的預(yù)測(cè)結(jié)果?f(x)?同真實(shí)標(biāo)記y進(jìn)行比較
回歸任務(wù)的性能度量
均方誤差:

更一般的,對(duì)于數(shù)據(jù)分布?和概率密度p(·),均方誤差的可描述為:

3.1 錯(cuò)誤率與精度
錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例
例如:m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤,則錯(cuò)誤率為 E=a/m
精度:分類正確的樣本數(shù)占樣本總數(shù)的比例。即:精度=1-錯(cuò)誤率
例如:m個(gè)樣本中有m-a個(gè)樣本分類正確,則精度 A=(m-a)/m=1-E
對(duì)樣例集D,錯(cuò)誤率定義為

精度定義為

更一般的,對(duì)于數(shù)據(jù)分布?和概率密度p(·),錯(cuò)誤率與精度可分別描述為:


3.2 查準(zhǔn)率、查全率與F1
對(duì)于二分類問題,可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN)四種情形。
TP + FP +TN + FN = 樣例總數(shù)

查準(zhǔn)率P:真正例樣本數(shù)/預(yù)測(cè)結(jié)果是正例的樣本數(shù)

例如:瓜農(nóng)拉來(lái)一車西瓜,挑出來(lái)的西瓜有多少比例是好瓜
查全率:真正例樣本數(shù)/真實(shí)情況是正例的樣本數(shù)

例如:瓜農(nóng)拉來(lái)一車西瓜,所有好瓜中有多少比例被挑了出來(lái)
查準(zhǔn)率和查全率是一對(duì)矛盾的度量。一般來(lái)說(shuō),查準(zhǔn)率高時(shí),查全率往往偏低;而查全率高時(shí),查準(zhǔn)率往往偏低。通常只有在一些簡(jiǎn)單的任務(wù)中,才有可能是查全率和查準(zhǔn)率都很高。
例如:若希望將好瓜盡可能多的選出來(lái),則可通過增加選瓜的數(shù)量,如果將所有西瓜都選上,那么所有的好瓜也必然選上,但是這時(shí)查準(zhǔn)率就會(huì)比較低。若希望選出的瓜中好瓜比例盡可能高,則可只挑選最有把握的瓜,但是這樣就會(huì)漏掉不少好瓜,使得查全率較低。
我們可以根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,排在前面的是學(xué)習(xí)器認(rèn)為“最可能”是正例的樣本,排在最后的是學(xué)習(xí)器認(rèn)為“最不可能”是正例的樣本。按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),則每次可以計(jì)算出當(dāng)前的查全率、查準(zhǔn)率。以查準(zhǔn)率做縱軸、查全率做橫軸作圖,就得到了查準(zhǔn)率-查全率曲線,簡(jiǎn)稱“P-R曲線”。

基于P-R曲線的學(xué)習(xí)器性能評(píng)價(jià)規(guī)則
1. 當(dāng)曲線沒有交叉的時(shí)候:外側(cè)曲線的學(xué)習(xí)器性能優(yōu)于內(nèi)側(cè);
例如:學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C
2. 當(dāng)曲線有交叉的時(shí)候:
1)、比較P-R曲線下面積,它在一定程度上表征了查全率和查準(zhǔn)率取得相對(duì)“雙高”的比例,但這個(gè)值不太容易估算;
2)、比較兩條曲線的平衡點(diǎn)(Break-Event Point, 簡(jiǎn)稱BEP),平衡點(diǎn)是“查準(zhǔn)率=查全率”時(shí)的取值,BEP越大,性能越優(yōu)。
例如:基于BEP的比較,可以認(rèn)為學(xué)習(xí)器A優(yōu)于學(xué)習(xí)器B
3)、BEP過于簡(jiǎn)化,更常用的F1度量和Fβ度量。
F1是基于查準(zhǔn)率與查全率的調(diào)和平均定義的,F(xiàn)β則是加權(quán)調(diào)和平均

F1度量的一般形式Fβ

β > 0 度量了查全率對(duì)查準(zhǔn)率的相對(duì)重要性。
β = 1 時(shí)退化為標(biāo)準(zhǔn)的F1;β > 1 時(shí)查全率有更大影響;β < 1 時(shí)查準(zhǔn)率有更大影響。
很多時(shí)候我們有多個(gè)二分類混淆矩陣,我們希望在n個(gè)二分類混淆矩陣上綜合考慮查準(zhǔn)率和查全率。
例如:進(jìn)行多次訓(xùn)練/測(cè)試,每次得到一個(gè)混淆矩陣;或是在多個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練/測(cè)試,需希望估計(jì)算法的“全局性能”;甚或是執(zhí)行多分類任務(wù),每?jī)蓛深悇e的組合都對(duì)應(yīng)一個(gè)混合矩陣。
1)、先在各個(gè)混淆矩陣中分別計(jì)算出查準(zhǔn)率查全率,再計(jì)算平均值,這樣就得到“宏查準(zhǔn)率”(macro-P)、“宏查全率”(macro-R)以及“宏F1”(macro-F1)。

2)、先將各個(gè)混淆矩陣的對(duì)應(yīng)元素進(jìn)行平均,得到TP、FP、TN、FN 的平均值,再基于這些平均值計(jì)算“微查準(zhǔn)率”(micro-P)、“微查全率”(micro-R)和“微F1”(micro-F1)。


3.3 ROC與AUC
根據(jù)實(shí)值或概率預(yù)測(cè)結(jié)果,我們可以將測(cè)試樣本進(jìn)行排序,“最可能”是正例的排在前面,“最不可能”是正例的排在最后面。分類過程相當(dāng)于在這個(gè)排序中以某個(gè)“截?cái)帱c(diǎn)”將樣本分為兩個(gè)部分,前一部分判做正例,后一部分則判作反例。
在不同的應(yīng)用任務(wù)中,我們可根據(jù)任務(wù)需求來(lái)采用不同的截?cái)帱c(diǎn)。
例如:若我們更重視查準(zhǔn)率。則可選擇排序靠前的位置進(jìn)行截?cái)?;若更重視查全率,則可選擇靠后的位置進(jìn)行截?cái)唷?/p>
排序本身質(zhì)量的好壞,體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下的“期望泛化性能”的好壞,或者說(shuō)“一般情況下”泛化性能的好壞。ROC曲線則是從排序本身質(zhì)量的好壞的角度來(lái)研究學(xué)習(xí)器泛化性能。
ROC全名“受試者工作特征”曲線,以“真正例率”為縱軸,以“假正例率”為橫軸。
真正例率TPR:真正例樣本數(shù)/真實(shí)情況是正例的樣本數(shù)(查全率)

假正例率FPR:假正例樣本數(shù)/真實(shí)情況是是反例的樣本數(shù)

ROC曲線的繪制過程:給定m+個(gè)正例和m-個(gè)反例,根據(jù)學(xué)習(xí)器預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,然后把分類閾值設(shè)為最大,即把所有樣例均預(yù)測(cè)為反例,此時(shí)真正例率和反正例率均為0,在坐標(biāo)(0,0)處標(biāo)記一個(gè)點(diǎn)。然后將分類閾值依次設(shè)為每個(gè)樣例的預(yù)測(cè)值,即依次將每個(gè)樣例劃分為正例。設(shè)前一個(gè)標(biāo)記點(diǎn)坐標(biāo)為(x,y),當(dāng)前若為真正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x,y+1/m+);當(dāng)前若為假正例,則對(duì)應(yīng)標(biāo)記的坐標(biāo)為(x+1/m-,y),然后用線段連接相鄰點(diǎn)即得。

現(xiàn)實(shí)任務(wù)中通常利用有限個(gè)測(cè)試樣例來(lái)繪制ROC圖,此時(shí)僅能獲得有限個(gè)坐標(biāo),無(wú)法產(chǎn)生(a)中的ROC曲線,只能產(chǎn)生(b)中的ROC曲線。
基于ROC曲線的學(xué)習(xí)器性能評(píng)價(jià)規(guī)則
1. 當(dāng)曲線沒有交叉的時(shí)候:外側(cè)曲線的學(xué)習(xí)器性能優(yōu)于內(nèi)側(cè);
2. 當(dāng)曲線有交叉的時(shí)候:比較ROC曲線下的面積即 AUC (Area Under ROC Curve)
AUC可估算為

形式化的看,AUC考慮的是樣本預(yù)測(cè)的排序質(zhì)量,因此它與排序誤差有緊密聯(lián)系。
給定m+個(gè)正例和m-個(gè)反例,令D+和D-分別表示正、反例集合,則排序的損失定義為

即考慮每一對(duì)正、反例,若正例的預(yù)測(cè)值小于反例,則記一個(gè)“罰分”,若相等,則記0.5個(gè)“罰分”。容易看出,對(duì)應(yīng)的是ROC曲線之上的面積:若一個(gè)正例在ROC曲線上對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(x,y),則x恰是排序在其之前的反例所占的比例,即假正例率。因此有

3.4 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線
前面介紹的性能度量,大都隱式地假設(shè)了不同類型的錯(cuò)誤造成的后果相同,但是在現(xiàn)實(shí)任務(wù)中經(jīng)常遇到不同類型的錯(cuò)誤造成的后果不同的情況。
例如:在醫(yī)療診斷中,錯(cuò)誤地把患者診斷為健康人與錯(cuò)誤的把健康人診斷為患者,前者的后果可能是錯(cuò)失醫(yī)治的最佳時(shí)機(jī),而后者只是增加了進(jìn)一步檢查的麻煩。
為權(quán)衡不同類型的錯(cuò)誤所造成的不同損失,可為錯(cuò)誤賦予“非均等代價(jià)”。
以二分類代價(jià)矩陣為例,我們可根據(jù)任務(wù)領(lǐng)域知識(shí)設(shè)定一個(gè)“代價(jià)矩陣”。

“代價(jià)敏感錯(cuò)誤率”為

類似的,可給出基于分布定義的代價(jià)敏感錯(cuò)誤率,以及其他一些性能度量,如精度代價(jià)敏感版本。對(duì)于多分類任務(wù)同樣也可以定義出代價(jià)敏感性能度量。
在非均等代價(jià)下,ROC曲線不能直接反映出學(xué)習(xí)器的期望總體代價(jià),而“代價(jià)曲線”則可以達(dá)到目的。代價(jià)曲線的橫軸是正例概率代價(jià)P(+)cost,縱軸是歸一化代價(jià)cost_norm

其中,p是樣例為正例的概率

其中,F(xiàn)PR是假正例率,F(xiàn)NR = 1 - TPR
代價(jià)曲線的繪制過程:ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線段,設(shè)ROC曲線上點(diǎn)的坐標(biāo)為(TPR,FPR),則可相應(yīng)計(jì)算出FNR,然后在代價(jià)平面上繪制一條從(0,FPR)到(1,FNR)的線段,線段下的面積即表示了該條件下的期望總體代價(jià)。如此將ROC上的每個(gè)點(diǎn)轉(zhuǎn)化為代價(jià)平面上的一個(gè)線段,然后取所有線段的下界,圍成的面積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

4. 比較檢驗(yàn)
性能比較的復(fù)雜的原因:
1)、通過實(shí)驗(yàn)評(píng)估方法獲得的是測(cè)試集上的性能與泛化性能可能存在差異
2)、測(cè)試集上的性能與測(cè)試集本身的選擇有很大關(guān)系
3)、很多學(xué)習(xí)算法本身有一定的隨機(jī)性,即便使用相同的參數(shù)設(shè)置在同一個(gè)測(cè)試集上多次運(yùn)行,其結(jié)果也會(huì)不同。
4.1 假設(shè)檢驗(yàn)
4.2 交叉驗(yàn)證t檢驗(yàn)
4.3 McNemar 檢驗(yàn)
4.4 Friedman 檢驗(yàn)與 Nemenyi 后續(xù)檢驗(yàn)
5. 偏差與方差
“偏差-方差分解”用來(lái)解釋學(xué)習(xí)算法泛化性能的一種重要工具
“偏差-方差分解”試圖對(duì)學(xué)習(xí)算法的期望泛化錯(cuò)誤率進(jìn)行拆解。
以回歸任務(wù)為例,學(xué)習(xí)算法的期望預(yù)測(cè)為

其中,f?(x;D)為訓(xùn)練集D上學(xué)得的模型?f?在x上的預(yù)測(cè)輸出
使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差為

噪聲為

期望輸出與真實(shí)標(biāo)記的差別稱為偏差,即

為了討論方便,假定噪聲期望為0,通過簡(jiǎn)單的多項(xiàng)式展開合并,可對(duì)算法的期望泛化誤差進(jìn)行分解。


于是得到,

泛化誤差可分解為偏差、方差與噪聲之和
偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響;噪聲度量了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問題本身的難度。
泛化性能時(shí)由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定。
一般來(lái)說(shuō),偏差與方差是有沖突的,稱為偏差-方差窘境。
給定學(xué)習(xí)任務(wù),假定我們能夠控制學(xué)習(xí)算法的訓(xùn)練程度。
1)、在訓(xùn)練不足時(shí),學(xué)習(xí)器的擬合能力不夠強(qiáng),訓(xùn)練數(shù)據(jù)的擾動(dòng)不足以是數(shù)據(jù)集產(chǎn)生顯著變化,此時(shí)偏差主導(dǎo)了泛化錯(cuò)誤率;
2)、隨著訓(xùn)練程度的加深,學(xué)習(xí)器的擬合能力逐漸增強(qiáng),訓(xùn)練數(shù)據(jù)發(fā)生的擾動(dòng)逐漸能被學(xué)習(xí)器學(xué)到,此時(shí)方差主導(dǎo)了泛化錯(cuò)誤率;
3)、在訓(xùn)練程度充足后,學(xué)習(xí)器的擬合能力非常強(qiáng),數(shù)據(jù)的輕微擾動(dòng)都會(huì)導(dǎo)致學(xué)習(xí)器發(fā)生顯著的變化,若訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到,則會(huì)發(fā)生過擬合。
