基本概念：

錯(cuò)誤率：分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。即如果在m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤，則錯(cuò)誤率E=a/m

精度：精度=1-錯(cuò)誤率，即1-a/m

誤差：學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異

訓(xùn)練誤差/經(jīng)驗(yàn)誤差：學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差：在新樣本上的誤差

過擬合：學(xué)習(xí)器由于學(xué)習(xí)能力過于強(qiáng)大，很可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)。如學(xué)習(xí)器在辨別樹葉的時(shí)候，使用訓(xùn)練集是有鋸齒的樹葉，“過擬合”是學(xué)習(xí)器誤認(rèn)為樹葉必須有鋸齒（鋸齒是訓(xùn)練集自身的特點(diǎn)，并非所有樹葉都有的特點(diǎn)），導(dǎo)致學(xué)習(xí)器分辨出錯(cuò)。過擬合是無法徹底避免的，只能“緩解”。

欠擬合：通常是由學(xué)習(xí)能力低下造成的。如認(rèn)為綠色的東西都是樹葉。欠擬合比較容易克服，例如可以在決策樹學(xué)習(xí)中擴(kuò)展分支、在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中增加訓(xùn)練輪數(shù)等。

評(píng)估方法：

1. 留出法

2. 交叉驗(yàn)證法

3. 自助法

方法選擇：

自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/訓(xùn)練集時(shí)很有用；此外，自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集，這對(duì)集成學(xué)習(xí)等方法有很大的好處。然而，自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布，這會(huì)引入估計(jì)偏差。因此，在初始數(shù)據(jù)量足夠時(shí)，留出法和交叉驗(yàn)證法更常用一些。

在研究對(duì)比不同算法的泛化性能時(shí)，我們用測(cè)試集上的判別效果來估計(jì)模型在實(shí)際使用時(shí)的泛化能力，而把訓(xùn)練數(shù)據(jù)另外劃分為訓(xùn)練集和驗(yàn)證集，基于驗(yàn)證集上的性能來進(jìn)行模型選擇和調(diào)參。

回歸任務(wù)最常用的性能度量是“均方誤差”。

查準(zhǔn)率亦稱“準(zhǔn)確率”，查全率亦稱“召回率”。

以查準(zhǔn)率為縱軸、查全率為橫軸作圖，就得到了查準(zhǔn)率-查全率曲線，簡稱“P-R曲線”，顯示該曲線的圖稱為“P-R圖”。

“平衡點(diǎn)”（Break-Event Point，簡稱BEP）可用來在P-R圖上度量不同P-R曲線的性能，是“查準(zhǔn)率=查全率”時(shí)的取值。

進(jìn)行學(xué)習(xí)器的比較時(shí)，與P-R圖相似，若一個(gè)學(xué)習(xí)器的ROC曲線北另一個(gè)學(xué)習(xí)器的曲線完全“包住”，則可斷言后者的性能優(yōu)于前者；若兩個(gè)學(xué)習(xí)器的ROC曲線發(fā)生交叉，則難以一般性地?cái)嘌詢烧呤雰?yōu)孰劣。此時(shí)如果一定要進(jìn)行比較，則較為合理的判據(jù)是比較ROC曲線下的面積，即AUC（Area Under ROC Curve）。形式化地看，AUC考慮的是樣本預(yù)測(cè)的排序質(zhì)量，因此它與排序誤差有緊密聯(lián)系。

一般情況下，重要的是代價(jià)比值而非絕對(duì)值，例如5：1與50：10所起效果相當(dāng)。

在非均等代價(jià)下，我們所希望的不再是簡單地最小化錯(cuò)誤次數(shù)，而是希望最小化“總體代價(jià)”（total cost）。

“規(guī)范化”（normalization）是將不同變化范圍的值映射到相同的固定范圍中，常見的是[0,1]，此時(shí)亦稱“歸一化”。

統(tǒng)計(jì)假設(shè)檢驗(yàn)（hypothesis test）為我們進(jìn)行學(xué)習(xí)器性能比較提供了重要依據(jù)?；诩僭O(shè)檢驗(yàn)結(jié)果我們可推斷出，若在測(cè)試集上觀察到學(xué)習(xí)器A比B好，則A的泛化性能是否在統(tǒng)計(jì)意義上優(yōu)于B，以及這結(jié)論的把握有多大。

交叉驗(yàn)證t檢驗(yàn)的基本思想是若兩個(gè)學(xué)習(xí)器的性能相同，則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同。

欲進(jìn)行有效的假設(shè)檢驗(yàn)，一個(gè)重要前提是測(cè)試錯(cuò)誤率均為泛化錯(cuò)誤率的獨(dú)立采樣。然而，通常情況下由于樣本有限，在使用交叉驗(yàn)證等實(shí)驗(yàn)估計(jì)方法時(shí)，不同輪次的訓(xùn)練集會(huì)有一定程度的重疊，這就使得測(cè)試錯(cuò)誤率實(shí)際上并不獨(dú)立，會(huì)導(dǎo)致過高估計(jì)假設(shè)成立的概率。為緩解這一問題，可采用5 x 2交叉驗(yàn)證。

若“所有算法的性能相同”這個(gè)假設(shè)被拒絕，則說明算法的性能顯著不同。這時(shí)需進(jìn)行“后續(xù)檢驗(yàn)”（post-hoc test）來進(jìn)一步區(qū)分各算法。常用的有Nemenyi后續(xù)檢驗(yàn)。

也就是說，泛化誤差可分解為偏差、方差與噪聲之和。

回顧偏差、方差、噪聲的含義：

偏差，度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度，即刻畫了學(xué)習(xí)算法本身的擬合能力；

方差，度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響；

噪聲，則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界，即刻畫了學(xué)習(xí)問題本身的難度。

偏差-方差分解說明，泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。給定學(xué)習(xí)任務(wù)，為了取得好的泛化性能，則需使偏差較小，即能夠充分?jǐn)M合數(shù)據(jù)，并且使方差較小，即使得數(shù)據(jù)擾動(dòng)產(chǎn)生的影響小。一般來說，偏差與方差是有沖突的，這稱為偏差-方差窘境（bias-variance dilemma）。

給定學(xué)習(xí)任務(wù)，假定我們能控制學(xué)習(xí)算法的訓(xùn)練程度，則在訓(xùn)練不足時(shí)，學(xué)習(xí)器的擬合能力不夠強(qiáng)，訓(xùn)練數(shù)據(jù)的擾動(dòng)不足以使學(xué)習(xí)器產(chǎn)生顯著變化，此時(shí)偏差主導(dǎo)了泛化錯(cuò)誤率；

隨著訓(xùn)練程度的加深，學(xué)習(xí)器的擬合能力逐漸增強(qiáng)，訓(xùn)練數(shù)據(jù)發(fā)生的擾動(dòng)漸漸能被學(xué)習(xí)器學(xué)到，方差逐漸主導(dǎo)了泛化錯(cuò)誤率；

在訓(xùn)練程度充足后，學(xué)習(xí)器的擬合能力已非常強(qiáng)，訓(xùn)練數(shù)據(jù)發(fā)生的輕微擾動(dòng)都會(huì)導(dǎo)致學(xué)習(xí)器發(fā)生顯著變化，若訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到了，則將發(fā)生過擬合。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)模型評(píng)估與選擇

機(jī)器學(xué)習(xí)模型評(píng)估與選擇

基本概念：

評(píng)估方法：

方法選擇：

回顧偏差、方差、噪聲的含義：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)模型評(píng)估與選擇

基本概念：

評(píng)估方法：

方法選擇：

回顧偏差、方差、噪聲的含義：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av