第一章緒論

1、什么是機(jī)器學(xué)習(xí)

即是從數(shù)據(jù)中產(chǎn)生算法（學(xué)習(xí)算法），并根據(jù)所提供的經(jīng)驗(yàn)數(shù)據(jù)建立適當(dāng)?shù)哪Ｐ?，在面?duì)新情況時(shí)可以為我們做出相應(yīng)的決策，并在不斷累積經(jīng)驗(yàn)的過(guò)程中，可以?xún)?yōu)化自己的性能，做出更加準(zhǔn)確的決策，這就是機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)可以解決什么問(wèn)題：數(shù)據(jù)清洗、模型建立、模型優(yōu)化、結(jié)果預(yù)測(cè)等

2、基本術(shù)語(yǔ)

記錄的集合 == 數(shù)據(jù)集

一個(gè)事件或?qū)ο?== 示例或樣本

表現(xiàn)或特性 == 屬性或特征

屬性的取值 == 屬性值

屬性張成的空間 == 屬性空間、樣本空間、輸入空間（如二維空間中，橫縱軸分別代表某一屬性，內(nèi)部的一點(diǎn)則代表著某一樣本）

每一個(gè)點(diǎn)的坐標(biāo)向量 == 特征向量

預(yù)測(cè)：離散值 == 分類(lèi)? ?連續(xù)值 == 回歸? ? ?涉及兩個(gè)類(lèi)別 == 二分類(lèi)? ? 多個(gè)類(lèi)別 ==多分類(lèi)

聚類(lèi)：訓(xùn)練集中的數(shù)據(jù)分成若干組，每一組稱(chēng)為"簇"，自動(dòng)形成的簇對(duì)應(yīng)潛在的概念劃分

按是否擁有標(biāo)記信息，學(xué)習(xí)任務(wù)分為兩大類(lèi)：監(jiān)督學(xué)習(xí)（分類(lèi)、回歸）和無(wú)監(jiān)督學(xué)習(xí)（聚類(lèi)）

泛化能力：模型適用于新樣本的能力，越強(qiáng)越適用于整個(gè)樣本空間

3、假設(shè)空間

歸納：從樣例中學(xué)習(xí)，學(xué)的數(shù)據(jù)中的概念，即是從已有數(shù)據(jù)中分析數(shù)據(jù)的相同屬性值

演繹：一般到特殊的"特化"過(guò)程，即是用已知的屬性值分析判斷樣本

4、歸納偏好

即是在多種假設(shè)中機(jī)器學(xué)習(xí)對(duì)某種類(lèi)型假設(shè)的偏好

選擇不同的假設(shè)會(huì)影響算法的性能，若算法的歸納偏好（選擇的假設(shè)）更能與問(wèn)題匹配，則算法的性能更好。表現(xiàn)為模型對(duì)訓(xùn)練樣本以外的樣本進(jìn)行預(yù)測(cè)的結(jié)果，與模型對(duì)訓(xùn)練集樣本進(jìn)行預(yù)測(cè)的結(jié)果更一致

第二章模型評(píng)估與選擇

1、經(jīng)驗(yàn)誤差與過(guò)擬合

錯(cuò)誤率：分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例

精度=1-錯(cuò)誤率

訓(xùn)練誤差/經(jīng)驗(yàn)誤差：學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差：在新樣本上的誤差

過(guò)擬合：學(xué)習(xí)得太好，把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)做了所有潛在樣本都會(huì)具有的一般性質(zhì)，使泛化功能下降

欠擬合：訓(xùn)練樣本的一般性質(zhì)未學(xué)好

2、評(píng)估方法

2.1、留出法

概念：留出法直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合，一個(gè)是訓(xùn)練集S，一個(gè)是測(cè)試集T

注意：

1、訓(xùn)練集與測(cè)試集的劃分要盡量保持?jǐn)?shù)據(jù)分布的一致性，避免因數(shù)據(jù)劃分過(guò)程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響

2、在給定訓(xùn)練集與測(cè)試集樣本比例后，應(yīng)采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果，以保證結(jié)果的可靠性與穩(wěn)定性。

缺點(diǎn)：

1、若訓(xùn)練集S包含絕大多數(shù)的樣本，則訓(xùn)練出的模型更接近訓(xùn)練集D訓(xùn)練出來(lái)的模型，但由于測(cè)試集T較小，評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確

2、若要讓T多包含一些樣本，則導(dǎo)致S中的樣本較少，使得訓(xùn)練出來(lái)的模型與D的差異較大，導(dǎo)致結(jié)果的失真

留出法

2.2、交叉驗(yàn)證法

概念：交叉驗(yàn)證法對(duì)數(shù)據(jù)集D進(jìn)行分層采樣得到 k個(gè)大小相似的互斥子集，每次用k-1個(gè)子集的并集作為訓(xùn)練集，余下的作為測(cè)試集，從而進(jìn)行k次訓(xùn)練和測(cè)試，最終返回這k個(gè)測(cè)試結(jié)果的均值。也稱(chēng)為"k折交叉驗(yàn)證法"，下圖為10折交叉驗(yàn)證法的示意圖（即是將D劃分為10個(gè)子集，9個(gè)作為訓(xùn)練集，1個(gè)作為測(cè)試集）：

10折交叉驗(yàn)證示意圖

交叉驗(yàn)證法

2.3、自助法

優(yōu)點(diǎn)：減少訓(xùn)練樣本規(guī)模不同造成的影響，同時(shí)較高效地進(jìn)行試驗(yàn)估計(jì)

概念：對(duì)包含m個(gè)樣本的數(shù)據(jù)集D，每次隨機(jī)從中挑選一個(gè)樣本放入訓(xùn)練集D'中，然后把該樣本放回，重復(fù)進(jìn)行m次，得到訓(xùn)練集D'，而D中沒(méi)有出現(xiàn)在D'中的樣本則作為測(cè)試集

特點(diǎn)：同一樣本可能多次抽中，即D'中同一樣本可能有多個(gè)

適用范圍：數(shù)據(jù)集較小、難以劃分訓(xùn)練/測(cè)試集時(shí)很有用

自助法

3、性能度量

概念：衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)

分類(lèi)結(jié)果混淆矩陣

查準(zhǔn)率P（縱）與查全率R（橫）的定義：

P與R

P-R曲線(xiàn)

以查準(zhǔn)率為縱軸、查全率為橫軸作圖得到“P-R曲線(xiàn)”

P-R曲線(xiàn)與平衡點(diǎn)示意圖

性能比較：

1、若一個(gè)學(xué)習(xí)器的P-R曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)完全包住，則可斷言后者的性能優(yōu)于前者。如上圖中學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C。

2、若兩個(gè)學(xué)習(xí)器的P-R曲線(xiàn)發(fā)生了交叉

比較性能有三種種種辦法：1.比較P-R曲線(xiàn)下面積的大小，它在一定程度下表示學(xué)習(xí)器在查準(zhǔn)率和查全率取得相對(duì)“雙高”的比例，但這個(gè)值不太容易估算。2.平衡點(diǎn)（BEP）是一個(gè)綜合考慮查準(zhǔn)率和查全率的性能度量，它是查準(zhǔn)率=查全率時(shí)的取值。如上圖，基于BEP的比較，認(rèn)為學(xué)習(xí)器A優(yōu)于B。但BEP還是過(guò)于簡(jiǎn)化。3.更常用的是F1度量

F1度量法

ROC曲線(xiàn)

ROC曲線(xiàn)的縱軸和橫軸分別為T(mén)PR（Ture positive rare，真正例率）和FPR（False positive rare，假正例率）

分類(lèi)結(jié)果混淆矩陣

真、假正例率

ROC曲線(xiàn)與AUC示意圖

圖（a）是基于無(wú)限個(gè)坐標(biāo)獲得的ROC曲線(xiàn)，但現(xiàn)實(shí)中我們的樣例是有限個(gè)的，制作出來(lái)的ROC曲線(xiàn)沒(méi)有圖（a）那么圓滑，與圖（b）較為相近。ROC曲線(xiàn)的制作是通過(guò)調(diào)整閾值得到坐標(biāo)然后將相鄰兩個(gè)點(diǎn)連線(xiàn)得到的曲線(xiàn)。

性能比較：若一個(gè)學(xué)習(xí)器的ROC曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)包住，則可斷言后者性能優(yōu)于前者；若兩個(gè)學(xué)習(xí)器的ROC曲線(xiàn)交叉，可以通過(guò)比較ROC曲線(xiàn)下的面積，即AUC來(lái)判斷。

4、比較檢驗(yàn)

4.1 假設(shè)檢驗(yàn)

"假設(shè)"是對(duì)學(xué)習(xí)器泛化錯(cuò)誤率分布的某種判斷或猜想。是根據(jù)測(cè)試錯(cuò)誤率推出泛化錯(cuò)誤率的分布。此方法認(rèn)為測(cè)試錯(cuò)誤率與泛化錯(cuò)誤率接近。

缺點(diǎn)：僅是對(duì)單個(gè)學(xué)習(xí)器泛化性能的假設(shè)進(jìn)行檢驗(yàn)

4.2 交叉驗(yàn)證t檢驗(yàn)

基本思想：若兩個(gè)學(xué)習(xí)器的性能相同則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同

優(yōu)點(diǎn)：對(duì)多個(gè)學(xué)習(xí)器的性能進(jìn)行比較

4.3 其他檢驗(yàn)方法

McNemar檢驗(yàn)、Friedman檢驗(yàn)、Nemenyi后續(xù)檢驗(yàn)

5、偏差與方差

解決問(wèn)題：為什么學(xué)習(xí)算法為什么具有這樣的性能

偏差：期望輸出與真實(shí)標(biāo)記的差別

泛化誤差 = 偏差 + 方差 + 噪聲

結(jié)論：泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《機(jī)器學(xué)習(xí)》第一、二章分享