jiuse91,好吊日视频,久久丝袜精品人妻AV

2.1 經(jīng)驗(yàn)誤差和過擬合

錯(cuò)誤率：分類錯(cuò)誤的樣本數(shù)n占樣本總數(shù)m的比例。錯(cuò)誤率E=n/m

精度： 1-n/m稱為"精度",即"精度=1-錯(cuò)誤率"

誤差：學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異

訓(xùn)練誤差/經(jīng)驗(yàn)誤差：學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差：在新樣本上的誤差

過擬合：學(xué)習(xí)器把訓(xùn)練樣本學(xué)得"太好"了的時(shí)候，很可能巳經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)，這樣就會(huì)導(dǎo)致泛化性能下降。無(wú)法徹底避免，只能緩解或者減小其風(fēng)險(xiǎn)。

欠擬合：通常由學(xué)習(xí)能力低下造成，指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。比較容易克服。

如何選用學(xué)習(xí)算法、使用參數(shù)配置：機(jī)器學(xué)習(xí)中的“模型選擇”問題，理想方案是對(duì)候選模型的泛化誤差進(jìn)行評(píng)估，然后選擇泛化誤差最小的那個(gè)模型。

2.2 評(píng)估方法

對(duì)數(shù)據(jù)集D進(jìn)行適當(dāng)?shù)奶幚?，從中產(chǎn)生出訓(xùn)練集S和測(cè)試集T，常見的做法如下：

2.2.1留出法

留出法直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合，其中一個(gè)集合作為訓(xùn)練集S，另一個(gè)作為測(cè)試集T，即D=S∪T，S∩T=?. 在S上訓(xùn)練出模型后，用T來(lái)評(píng)估其測(cè)試誤差，作為對(duì)泛化誤差的估計(jì)。

注意：

1.訓(xùn)練/測(cè)試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性，避免困數(shù)據(jù)劃分過程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響，保留類別比例的采樣方式為分類采樣。

2.單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠，一般要采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。

3.（缺點(diǎn)）測(cè)試集T小時(shí)，評(píng)估結(jié)果的方差較大，評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確。訓(xùn)練集S小時(shí)，評(píng)估結(jié)果的偏差較大，被評(píng)估的模型與用D訓(xùn)練出的模型相比可能有較大差別，從而降低了評(píng)估結(jié)果的保真性。常見做法是將大約2/3 ~ 4/5的樣本用于訓(xùn)練，剩余樣本用于測(cè)試。

2.2.2 交叉驗(yàn)證法

交叉驗(yàn)證法先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集，每個(gè)子集Di都盡可能保持?jǐn)?shù)據(jù)分布的一致性，即從D中通過分層采樣得到。然后，每次用k-1個(gè)子集的并集作為訓(xùn)練集，余下的那個(gè)子集作為測(cè)試集；這樣就可獲得k組訓(xùn)練/測(cè)試集，從而可進(jìn)行k次訓(xùn)練和測(cè)試，最終返回的是這k個(gè)測(cè)試結(jié)果的均值。

注意：

1. 交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保證性在很大程度上取決于k的取值，k通常的取值為10，此時(shí)稱為10折交叉驗(yàn)證法。

2. 為減小因樣本劃分不同而引入的差別，k折交叉驗(yàn)證通常要隨機(jī)使用不同的劃分重復(fù)p次，最終的評(píng)估結(jié)果是這p次k折交叉驗(yàn)證結(jié)果的均值。

3．交叉驗(yàn)證法的特例留一法：數(shù)據(jù)集D中包含m個(gè)樣本，令k=m，則m個(gè)樣本只有唯一的方式劃分為m個(gè)子集，每個(gè)子集包含一個(gè)樣本。（優(yōu)點(diǎn)）不受隨機(jī)樣本劃分方式影響；用的訓(xùn)練集與初始數(shù)據(jù)集相比只少了一個(gè)樣本，這就使得在絕大多數(shù)情況下，留一法中被實(shí)際評(píng)估的模型與期望評(píng)估的用D訓(xùn)練出的模型很相似，評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確。（缺點(diǎn)）在數(shù)據(jù)集比較大時(shí)，訓(xùn)練m個(gè)模型的計(jì)算開銷可能是難以忍受的；留一法的估計(jì)結(jié)果也未必永遠(yuǎn)比其他估計(jì)方法確切；NFL定理適用。

2.2.3 自助法

自助法是在減少訓(xùn)練樣本規(guī)模不同造成的影響，同時(shí)還能比較高效地進(jìn)行實(shí)驗(yàn)估計(jì)的方法。

自助法直接以自助采樣法（放回抽樣）為基礎(chǔ)，給定包含m個(gè)樣本的數(shù)據(jù)集D，我們對(duì)它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D' ：每次隨機(jī)從D中挑選一個(gè)樣本，將其拷貝放入D'，然后再將該樣本放回初始數(shù)據(jù)集D中，使得該樣本在下次采樣時(shí)仍有可能被采到；這個(gè)過程重復(fù)執(zhí)行m次后，我們就得到了包含m個(gè)樣本的數(shù)據(jù)集D'，這就是自助采樣的結(jié)果。從中，樣本在m次采樣中始終不被采到的概率是 $（1-\frac{1}{m} ）^m$

，取極限得到 $\frac{1}{e}$ ?≈0.368，即通過自助來(lái)樣，初始數(shù)據(jù)集D中約有36.8 %的樣本未出現(xiàn)在采樣數(shù)據(jù)集D '中。于是我們可將D '用作訓(xùn)練集，D-D'用作測(cè)試集。

注意：

1.（優(yōu)點(diǎn)）實(shí)際評(píng)估的模型與期望評(píng)估的模型都使用m個(gè)訓(xùn)練樣本，而我們?nèi)杂袛?shù)據(jù)總量約1 / 3的、沒在訓(xùn)練集中出現(xiàn)的樣本用于測(cè)試；自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測(cè)試集時(shí)很有用；自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集，這對(duì)集成學(xué)習(xí)等方法有很大的好處。

2.（缺點(diǎn)）自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布，這會(huì)引入估計(jì)偏差。在初始數(shù)據(jù)量足夠時(shí)，留出法和交叉驗(yàn)證法更常用一些。

2.2.4 調(diào)參與最終模型

參數(shù)調(diào)節(jié)/調(diào)參：對(duì)算法參數(shù)進(jìn)行設(shè)定。

現(xiàn)實(shí)中常用做法：對(duì)每個(gè)參數(shù)選定一個(gè)范圍和變化步長(zhǎng)。

注意：

1. 在模型選擇完成后，學(xué)習(xí)算法和參數(shù)配置己選定，此時(shí)應(yīng)該用數(shù)據(jù)集D新訓(xùn)練模型。這個(gè)模型在訓(xùn)練過程中使用了所有m個(gè)樣本，這才是我們最終提交給用戶的模型。

2. 通常把學(xué)得模型在實(shí)際使用中遇到的數(shù)據(jù)稱為測(cè)試數(shù)據(jù)，為了加以區(qū)分，模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集常稱為"驗(yàn)證"。

2.3? ?性能度量

性能度量：衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)。要評(píng)估學(xué)習(xí)器f的性能，就要把學(xué)習(xí)器預(yù)測(cè)結(jié)果f ( x )與真實(shí)標(biāo)記y進(jìn)行比較。回歸任務(wù)最常用的性能度量是"均方誤差"：

2.3.1 錯(cuò)誤率與精度

錯(cuò)誤率：分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例，如有多少比例的西瓜被判斷錯(cuò)誤

精度：分類正確的樣本數(shù)占樣本總數(shù)的比例

2.3.2 查準(zhǔn)率、查全率與F1

對(duì)于二分類問題，可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例TP、假正例FP、真反例TN、假反例FN四種情形，令TP、FP、TN、FN分別表示其對(duì)應(yīng)的樣例數(shù)，則顯然有TP+FP+TN+FN=樣例總數(shù)。

查準(zhǔn)率P：衡量某一檢索系統(tǒng)的信號(hào)噪聲比的一種指標(biāo)，即檢出的相關(guān)文獻(xiàn)與檢出的全部文獻(xiàn)的百分比。算法挑出來(lái)的西瓜中有多少比例是好西瓜。

查全率R：指從數(shù)據(jù)庫(kù)內(nèi)檢出的相關(guān)的信息量與總量的比率。如所有的好西瓜中有多少比例被算法跳了出來(lái)。

查準(zhǔn)率與查全率的關(guān)系：

1. 查準(zhǔn)率和查全率是一對(duì)矛盾的度量。一般來(lái)說(shuō)，查準(zhǔn)率高時(shí)，查全率往往偏低;而查全率高時(shí)，查準(zhǔn)率往往偏低。

2. 在實(shí)際的模型評(píng)估中，單用查準(zhǔn)率或者查全率來(lái)評(píng)價(jià)模型是不完整的，評(píng)價(jià)模型時(shí)必須用這兩個(gè)值。這里介紹三種使用方法：平衡點(diǎn)（BEP）、F1度量、F1度量的一般化形式。

BEP是P-R曲線中查準(zhǔn)率=查全率時(shí)的取值。

在進(jìn)行比較時(shí)，若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)學(xué)習(xí)器的曲線完全"包住"，則可斷言后者的性能優(yōu)于前者。如果兩個(gè)學(xué)習(xí)器的P-R曲線發(fā)生了交叉，則難以一般性地?cái)嘌詢烧呤雰?yōu)孰劣。這時(shí)一個(gè)比較合理的判據(jù)是比較P-R曲線下面積的大小，它在一定程度上表征了學(xué)習(xí)器在查準(zhǔn)率和查全率上取得相對(duì)"雙高"的比例，平衡點(diǎn)則是這樣的度量，如圖，算法效果：A>B>C

F1度量的準(zhǔn)則是：F1值越大算法性能越好。

在一些實(shí)際使用中，可能會(huì)對(duì)查準(zhǔn)率或者查全率有偏重，則有下面F1的一般形式。

其中?>0度量了查全率對(duì)查準(zhǔn)率的相對(duì)重要性。?=1時(shí)退化為標(biāo)準(zhǔn)的F1 ，?>1時(shí)查全率有更大影響，?<1時(shí)查準(zhǔn)率有更大影響。

2.3.3? ROC與AUC

真正例率TPR和假正例率FPR的定義：

ROC曲線：根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序，按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)，每次計(jì)算出兩個(gè)重要量的值，分別以假正例率為橫坐標(biāo)、以真正例率為縱坐標(biāo)作圖就得到了ROC曲線。

AUC：ROC曲線下的面積。AUC的值越大，說(shuō)明該模型的性能越好。

排序“損失”：給定m+個(gè)正例和m-個(gè)反例，令D+和D-分別表示正、反例集合。排序“損失”對(duì)應(yīng)ROC曲線上的面積。

2.3.4? 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線

為衡量不同類型錯(cuò)誤所造成的不同損失，可為錯(cuò)誤賦予“非均等代價(jià)”。在非均等代價(jià)下，我們希望最小化“總體代價(jià)”。

二分類代價(jià)矩陣：其中c o s t i j表示將第i類樣本預(yù)測(cè)為第j類樣本的代價(jià)。一般來(lái)說(shuō)，costii?= 0，若將第0類判別為第1類所造成的損失更大，則c o s t 0 1 > c o s t 10 ，損失程度相差越大，c o s t 0 1與c o s t10值的差別越大。

代價(jià)敏感錯(cuò)誤率：將表2.2中的第0類作為正類、第1類作為反類，令D+與D-分別代表樣例集D的正例子集和反例子集，則代價(jià)敏感錯(cuò)誤率定義為：

取值為[0,1]的正例概率代價(jià)：其中p為樣例為正例的概率，

取值為[0,1]的歸一化代價(jià)：其中FPR為假正例率，F(xiàn)NR=1-FPR為假反例率，

代價(jià)曲線的繪制：ROC由線上每一點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線段，設(shè)ROC曲線上點(diǎn)的坐標(biāo)為(TPR，F(xiàn)PR)，則可相應(yīng)計(jì)算出FNR，然后在代價(jià)平面上繪制一條從( 0，F(xiàn)PR)到( 1，F(xiàn)NR)的線段，線段下的面積即表示了該條件下的期望總體代價(jià)，如此將ROC曲線土的每個(gè)點(diǎn)轉(zhuǎn)化為代價(jià)平面上的一條線段，然后取所有線段的下界，圍成的自積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

2.4 比較驗(yàn)證

2.4.1 假設(shè)驗(yàn)證

2.4.2 交叉驗(yàn)證t檢驗(yàn)

2.4.3 McNemar檢驗(yàn)

2.4.4 Friedman檢驗(yàn)與Nemenyi 后續(xù)檢驗(yàn)

2.5? 偏差與方差

偏差：度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度，即刻畫了學(xué)習(xí)算法本身的擬合能力。

方差：度量了閏樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響。

噪聲：表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界，即刻畫了學(xué)習(xí)問題本身的難度。

偏差一方差分解說(shuō)明，泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。給定學(xué)習(xí)任務(wù)，為了取得好的泛化性能，則需使偏差較小，即能夠充分?jǐn)M合數(shù)據(jù)，并且使方差較小，即使得數(shù)據(jù)擾動(dòng)產(chǎn)生的影響小.。

泛化誤差可分解為偏差、方差與噪音之和：

偏差—方差窘境圖：

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第2章模型評(píng)估和選擇

第2章模型評(píng)估和選擇

2.1 經(jīng)驗(yàn)誤差和過擬合