機(jī)器學(xué)習(xí)模型評(píng)估與選擇

基本概念:

錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。即如果在m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤,則錯(cuò)誤率E=a/m

精度:精度=1-錯(cuò)誤率,即1-a/m

誤差:學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異

訓(xùn)練誤差/經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差:在新樣本上的誤差

過擬合:學(xué)習(xí)器由于學(xué)習(xí)能力過于強(qiáng)大,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)。如學(xué)習(xí)器在辨別樹葉的時(shí)候,使用訓(xùn)練集是有鋸齒的樹葉,“過擬合”是學(xué)習(xí)器誤認(rèn)為樹葉必須有鋸齒(鋸齒是訓(xùn)練集自身的特點(diǎn),并非所有樹葉都有的特點(diǎn)),導(dǎo)致學(xué)習(xí)器分辨出錯(cuò)。過擬合是無法徹底避免的,只能“緩解”。

欠擬合:通常是由學(xué)習(xí)能力低下造成的。如認(rèn)為綠色的東西都是樹葉。欠擬合比較容易克服,例如可以在決策樹學(xué)習(xí)中擴(kuò)展分支、在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中增加訓(xùn)練輪數(shù)等。

評(píng)估方法:

1. 留出法

2. 交叉驗(yàn)證法

3. 自助法

方法選擇:

自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/訓(xùn)練集時(shí)很有用;此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對(duì)集成學(xué)習(xí)等方法有很大的好處。然而,自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,這會(huì)引入估計(jì)偏差。因此,在初始數(shù)據(jù)量足夠時(shí),留出法和交叉驗(yàn)證法更常用一些。


在研究對(duì)比不同算法的泛化性能時(shí),我們用測(cè)試集上的判別效果來估計(jì)模型在實(shí)際使用時(shí)的泛化能力,而把訓(xùn)練數(shù)據(jù)另外劃分為訓(xùn)練集和驗(yàn)證集,基于驗(yàn)證集上的性能來進(jìn)行模型選擇和調(diào)參。

回歸任務(wù)最常用的性能度量是“均方誤差”。

查準(zhǔn)率亦稱“準(zhǔn)確率”,查全率亦稱“召回率”。

以查準(zhǔn)率為縱軸、查全率為橫軸作圖,就得到了查準(zhǔn)率-查全率曲線,簡稱“P-R曲線”,顯示該曲線的圖稱為“P-R圖”。

“平衡點(diǎn)”(Break-Event Point,簡稱BEP)可用來在P-R圖上度量不同P-R曲線的性能,是“查準(zhǔn)率=查全率”時(shí)的取值。

進(jìn)行學(xué)習(xí)器的比較時(shí),與P-R圖相似,若一個(gè)學(xué)習(xí)器的ROC曲線北另一個(gè)學(xué)習(xí)器的曲線完全“包住”,則可斷言后者的性能優(yōu)于前者;若兩個(gè)學(xué)習(xí)器的ROC曲線發(fā)生交叉,則難以一般性地?cái)嘌詢烧呤雰?yōu)孰劣。此時(shí)如果一定要進(jìn)行比較,則較為合理的判據(jù)是比較ROC曲線下的面積,即AUC(Area Under ROC Curve)。形式化地看,AUC考慮的是樣本預(yù)測(cè)的排序質(zhì)量,因此它與排序誤差有緊密聯(lián)系。

一般情況下,重要的是代價(jià)比值而非絕對(duì)值,例如5:1與50:10所起效果相當(dāng)。

在非均等代價(jià)下,我們所希望的不再是簡單地最小化錯(cuò)誤次數(shù),而是希望最小化“總體代價(jià)”(total cost)。

“規(guī)范化”(normalization)是將不同變化范圍的值映射到相同的固定范圍中,常見的是[0,1],此時(shí)亦稱“歸一化”。

統(tǒng)計(jì)假設(shè)檢驗(yàn)(hypothesis test)為我們進(jìn)行學(xué)習(xí)器性能比較提供了重要依據(jù)?;诩僭O(shè)檢驗(yàn)結(jié)果我們可推斷出,若在測(cè)試集上觀察到學(xué)習(xí)器A比B好,則A的泛化性能是否在統(tǒng)計(jì)意義上優(yōu)于B,以及這結(jié)論的把握有多大。

交叉驗(yàn)證t檢驗(yàn)的基本思想是若兩個(gè)學(xué)習(xí)器的性能相同,則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同。

欲進(jìn)行有效的假設(shè)檢驗(yàn),一個(gè)重要前提是測(cè)試錯(cuò)誤率均為泛化錯(cuò)誤率的獨(dú)立采樣。然而,通常情況下由于樣本有限,在使用交叉驗(yàn)證等實(shí)驗(yàn)估計(jì)方法時(shí),不同輪次的訓(xùn)練集會(huì)有一定程度的重疊,這就使得測(cè)試錯(cuò)誤率實(shí)際上并不獨(dú)立,會(huì)導(dǎo)致過高估計(jì)假設(shè)成立的概率。為緩解這一問題,可采用5 x 2交叉驗(yàn)證。

若“所有算法的性能相同”這個(gè)假設(shè)被拒絕,則說明算法的性能顯著不同。這時(shí)需進(jìn)行“后續(xù)檢驗(yàn)”(post-hoc test)來進(jìn)一步區(qū)分各算法。常用的有Nemenyi后續(xù)檢驗(yàn)。


也就是說,泛化誤差可分解為偏差、方差與噪聲之和。


回顧偏差、方差、噪聲的含義:

偏差,度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力;

方差,度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響;

噪聲,則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問題本身的難度。

偏差-方差分解說明,泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。給定學(xué)習(xí)任務(wù),為了取得好的泛化性能,則需使偏差較小,即能夠充分?jǐn)M合數(shù)據(jù),并且使方差較小,即使得數(shù)據(jù)擾動(dòng)產(chǎn)生的影響小。一般來說,偏差與方差是有沖突的,這稱為偏差-方差窘境(bias-variance dilemma)。

給定學(xué)習(xí)任務(wù),假定我們能控制學(xué)習(xí)算法的訓(xùn)練程度,則在訓(xùn)練不足時(shí),學(xué)習(xí)器的擬合能力不夠強(qiáng),訓(xùn)練數(shù)據(jù)的擾動(dòng)不足以使學(xué)習(xí)器產(chǎn)生顯著變化,此時(shí)偏差主導(dǎo)了泛化錯(cuò)誤率;

隨著訓(xùn)練程度的加深,學(xué)習(xí)器的擬合能力逐漸增強(qiáng),訓(xùn)練數(shù)據(jù)發(fā)生的擾動(dòng)漸漸能被學(xué)習(xí)器學(xué)到,方差逐漸主導(dǎo)了泛化錯(cuò)誤率;

在訓(xùn)練程度充足后,學(xué)習(xí)器的擬合能力已非常強(qiáng),訓(xùn)練數(shù)據(jù)發(fā)生的輕微擾動(dòng)都會(huì)導(dǎo)致學(xué)習(xí)器發(fā)生顯著變化,若訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到了,則將發(fā)生過擬合。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容