2.1 經(jīng)驗(yàn)誤差和過擬合
錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)n占樣本總數(shù)m的比例。錯(cuò)誤率E=n/m
精度: 1-n/m稱為"精度",即"精度=1-錯(cuò)誤率"
誤差:學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異
訓(xùn)練誤差/經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差
泛化誤差:在新樣本上的誤差
過擬合:學(xué)習(xí)器把訓(xùn)練樣本學(xué)得"太好"了的時(shí)候,很可能巳經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降。無(wú)法徹底避免,只能緩解或者減小其風(fēng)險(xiǎn)。
欠擬合:通常由學(xué)習(xí)能力低下造成,指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。比較容易克服。

如何選用學(xué)習(xí)算法、使用參數(shù)配置:機(jī)器學(xué)習(xí)中的“模型選擇”問題,理想方案是對(duì)候選模型的泛化誤差進(jìn)行評(píng)估,然后選擇泛化誤差最小的那個(gè)模型。
2.2 評(píng)估方法
對(duì)數(shù)據(jù)集D進(jìn)行適當(dāng)?shù)奶幚?,從中產(chǎn)生出訓(xùn)練集S和測(cè)試集T,常見的做法如下:
2.2.1留出法
留出法直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S,另一個(gè)作為測(cè)試集T,即D=S∪T,S∩T=?. 在S上訓(xùn)練出模型后,用T來(lái)評(píng)估其測(cè)試誤差,作為對(duì)泛化誤差的估計(jì)。
注意:
1.訓(xùn)練/測(cè)試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性,避免困數(shù)據(jù)劃分過程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響,保留類別比例的采樣方式為分類采樣。
2.單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠,一般要采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。
3.(缺點(diǎn))測(cè)試集T小時(shí),評(píng)估結(jié)果的方差較大,評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確。訓(xùn)練集S小時(shí),評(píng)估結(jié)果的偏差較大,被評(píng)估的模型與用D訓(xùn)練出的模型相比可能有較大差別,從而降低了評(píng)估結(jié)果的保真性。常見做法是將大約2/3 ~ 4/5的樣本用于訓(xùn)練,剩余樣本用于測(cè)試。
2.2.2 交叉驗(yàn)證法
交叉驗(yàn)證法先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集,每個(gè)子集Di都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從D中通過分層采樣得到。然后,每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集;這樣就可獲得k組訓(xùn)練/測(cè)試集,從而可進(jìn)行k次訓(xùn)練和測(cè)試,最終返回的是這k個(gè)測(cè)試結(jié)果的均值。
注意:
1. 交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保證性在很大程度上取決于k的取值,k通常的取值為10,此時(shí)稱為10折交叉驗(yàn)證法。

2. 為減小因樣本劃分不同而引入的差別,k折交叉驗(yàn)證通常要隨機(jī)使用不同的劃分重復(fù)p次,最終的評(píng)估結(jié)果是這p次k折交叉驗(yàn)證結(jié)果的均值。
3.交叉驗(yàn)證法的特例留一法:數(shù)據(jù)集D中包含m個(gè)樣本,令k=m,則m個(gè)樣本只有唯一的方式劃分為m個(gè)子集,每個(gè)子集包含一個(gè)樣本。(優(yōu)點(diǎn))不受隨機(jī)樣本劃分方式影響;用的訓(xùn)練集與初始數(shù)據(jù)集相比只少了一個(gè)樣本,這就使得在絕大多數(shù)情況下,留一法中被實(shí)際評(píng)估的模型與期望評(píng)估的用D訓(xùn)練出的模型很相似,評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確。(缺點(diǎn))在數(shù)據(jù)集比較大時(shí),訓(xùn)練m個(gè)模型的計(jì)算開銷可能是難以忍受的;留一法的估計(jì)結(jié)果也未必永遠(yuǎn)比其他估計(jì)方法確切;NFL定理適用。
2.2.3 自助法
自助法是在減少訓(xùn)練樣本規(guī)模不同造成的影響,同時(shí)還能比較高效地進(jìn)行實(shí)驗(yàn)估計(jì)的方法。
自助法直接以自助采樣法(放回抽樣)為基礎(chǔ),給定包含m個(gè)樣本的數(shù)據(jù)集D,我們對(duì)它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D' :每次隨機(jī)從D中挑選一個(gè)樣本,將其拷貝放入D',然后再將該樣本放回初始數(shù)據(jù)集D中,使得該樣本在下次采樣時(shí)仍有可能被采到;這個(gè)過程重復(fù)執(zhí)行m次后,我們就得到了包含m個(gè)樣本的數(shù)據(jù)集D',這就是自助采樣的結(jié)果。從中,樣本在m次采樣中始終不被采到的概率是
,取極限得到?≈0.368,即通過自助來(lái)樣,初始數(shù)據(jù)集D中約有36.8 %的樣本未出現(xiàn)在采樣數(shù)據(jù)集D '中。于是我們可將D '用作訓(xùn)練集,D-D'用作測(cè)試集。
注意:
1.(優(yōu)點(diǎn))實(shí)際評(píng)估的模型與期望評(píng)估的模型都使用m個(gè)訓(xùn)練樣本,而我們?nèi)杂袛?shù)據(jù)總量約1 / 3的、沒在訓(xùn)練集中出現(xiàn)的樣本用于測(cè)試;自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測(cè)試集時(shí)很有用;自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對(duì)集成學(xué)習(xí)等方法有很大的好處。
2.(缺點(diǎn))自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,這會(huì)引入估計(jì)偏差。在初始數(shù)據(jù)量足夠時(shí),留出法和交叉驗(yàn)證法更常用一些。
2.2.4 調(diào)參與最終模型
參數(shù)調(diào)節(jié)/調(diào)參:對(duì)算法參數(shù)進(jìn)行設(shè)定。
現(xiàn)實(shí)中常用做法:對(duì)每個(gè)參數(shù)選定一個(gè)范圍和變化步長(zhǎng)。
注意:
1. 在模型選擇完成后,學(xué)習(xí)算法和參數(shù)配置己選定,此時(shí)應(yīng)該用數(shù)據(jù)集D新訓(xùn)練模型。這個(gè)模型在訓(xùn)練過程中使用了所有m個(gè)樣本,這才是我們最終提交給用戶的模型。
2. 通常把學(xué)得模型在實(shí)際使用中遇到的數(shù)據(jù)稱為測(cè)試數(shù)據(jù),為了加以區(qū)分,模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集常稱為"驗(yàn)證"。
2.3? ?性能度量
性能度量:衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)。要評(píng)估學(xué)習(xí)器f的性能,就要把學(xué)習(xí)器預(yù)測(cè)結(jié)果f ( x )與真實(shí)標(biāo)記y進(jìn)行比較。回歸任務(wù)最常用的性能度量是"均方誤差":

2.3.1 錯(cuò)誤率與精度
錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例,如有多少比例的西瓜被判斷錯(cuò)誤

精度:分類正確的樣本數(shù)占樣本總數(shù)的比例

2.3.2 查準(zhǔn)率、查全率與F1
對(duì)于二分類問題,可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例TP、假正例FP、真反例TN、假反例FN四種情形,令TP、FP、TN、FN分別表示其對(duì)應(yīng)的樣例數(shù),則顯然有TP+FP+TN+FN=樣例總數(shù)。

查準(zhǔn)率P:衡量某一檢索系統(tǒng)的信號(hào)噪聲比的一種指標(biāo),即檢出的相關(guān)文獻(xiàn)與檢出的全部文獻(xiàn)的百分比。算法挑出來(lái)的西瓜中有多少比例是好西瓜。
查全率R:指從數(shù)據(jù)庫(kù)內(nèi)檢出的相關(guān)的信息量與總量的比率。如所有的好西瓜中有多少比例被算法跳了出來(lái)。

查準(zhǔn)率與查全率的關(guān)系:
1. 查準(zhǔn)率和查全率是一對(duì)矛盾的度量。一般來(lái)說(shuō),查準(zhǔn)率高時(shí),查全率往往偏低;而查全率高時(shí),查準(zhǔn)率往往偏低。
2. 在實(shí)際的模型評(píng)估中,單用查準(zhǔn)率或者查全率來(lái)評(píng)價(jià)模型是不完整的,評(píng)價(jià)模型時(shí)必須用這兩個(gè)值。這里介紹三種使用方法:平衡點(diǎn)(BEP)、F1度量、F1度量的一般化形式。
BEP是P-R曲線中查準(zhǔn)率=查全率時(shí)的取值。
在進(jìn)行比較時(shí),若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)學(xué)習(xí)器的曲線完全"包住",則可斷言后者的性能優(yōu)于前者。如果兩個(gè)學(xué)習(xí)器的P-R曲線發(fā)生了交叉,則難以一般性地?cái)嘌詢烧呤雰?yōu)孰劣。這時(shí)一個(gè)比較合理的判據(jù)是比較P-R曲線下面積的大小,它在一定程度上表征了學(xué)習(xí)器在查準(zhǔn)率和查全率上取得相對(duì)"雙高"的比例,平衡點(diǎn)則是這樣的度量,如圖,算法效果:A>B>C

F1度量的準(zhǔn)則是:F1值越大算法性能越好。

在一些實(shí)際使用中,可能會(huì)對(duì)查準(zhǔn)率或者查全率有偏重,則有下面F1的一般形式。

其中?>0度量了查全率對(duì)查準(zhǔn)率的相對(duì)重要性。?=1時(shí)退化為標(biāo)準(zhǔn)的F1 ,?>1時(shí)查全率有更大影響,?<1時(shí)查準(zhǔn)率有更大影響。
2.3.3? ROC與AUC
真正例率TPR和假正例率FPR的定義:

ROC曲線:根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),每次計(jì)算出兩個(gè)重要量的值,分別以假正例率為橫坐標(biāo)、以真正例率為縱坐標(biāo)作圖就得到了ROC曲線。
AUC:ROC曲線下的面積。AUC的值越大,說(shuō)明該模型的性能越好。


排序“損失”:給定m+個(gè)正例和m-個(gè)反例,令D+和D-分別表示正、反例集合。排序“損失”對(duì)應(yīng)ROC曲線上的面積。


2.3.4? 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線
為衡量不同類型錯(cuò)誤所造成的不同損失,可為錯(cuò)誤賦予“非均等代價(jià)”。在非均等代價(jià)下,我們希望最小化“總體代價(jià)”。
二分類代價(jià)矩陣:其中c o s t i j表示將第i類樣本預(yù)測(cè)為第j類樣本的代價(jià)。一般來(lái)說(shuō),costii?= 0,若將第0類判別為第1類所造成的損失更大,則c o s t 0 1 > c o s t 10 ,損失程度相差越大,c o s t 0 1與c o s t10值的差別越大。

代價(jià)敏感錯(cuò)誤率:將表2.2中的第0類作為正類、第1類作為反類,令D+與D-分別代表樣例集D的正例子集和反例子集,則代價(jià)敏感錯(cuò)誤率定義為:

取值為[0,1]的正例概率代價(jià):其中p為樣例為正例的概率,

取值為[0,1]的歸一化代價(jià):其中FPR為假正例率,F(xiàn)NR=1-FPR為假反例率,

代價(jià)曲線的繪制:ROC由線上每一點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線段,設(shè)ROC曲線上點(diǎn)的坐標(biāo)為(TPR,F(xiàn)PR),則可相應(yīng)計(jì)算出FNR,然后在代價(jià)平面上繪制一條從( 0,F(xiàn)PR)到( 1,F(xiàn)NR)的線段,線段下的面積即表示了該條件下的期望總體代價(jià),如此將ROC曲線土的每個(gè)點(diǎn)轉(zhuǎn)化為代價(jià)平面上的一條線段,然后取所有線段的下界,圍成的自積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

2.4 比較驗(yàn)證
2.4.1 假設(shè)驗(yàn)證
2.4.2 交叉驗(yàn)證t檢驗(yàn)
2.4.3 McNemar檢驗(yàn)
2.4.4 Friedman檢驗(yàn)與Nemenyi 后續(xù)檢驗(yàn)
2.5? 偏差與方差
偏差:度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力。
方差:度量了閏樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響。
噪聲:表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問題本身的難度。
偏差一方差分解說(shuō)明,泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。給定學(xué)習(xí)任務(wù),為了取得好的泛化性能,則需使偏差較小,即能夠充分?jǐn)M合數(shù)據(jù),并且使方差較小,即使得數(shù)據(jù)擾動(dòng)產(chǎn)生的影響小.。
泛化誤差可分解為偏差、方差與噪音之和:

偏差—方差窘境圖:
