《機(jī)器學(xué)習(xí)》第一、二章分享

第一章 緒論

1、什么是機(jī)器學(xué)習(xí)

即是從數(shù)據(jù)中產(chǎn)生算法(學(xué)習(xí)算法),并根據(jù)所提供的經(jīng)驗(yàn)數(shù)據(jù)建立適當(dāng)?shù)哪P?,在面?duì)新情況時(shí)可以為我們做出相應(yīng)的決策,并在不斷累積經(jīng)驗(yàn)的過(guò)程中,可以?xún)?yōu)化自己的性能,做出更加準(zhǔn)確的決策,這就是機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)可以解決什么問(wèn)題:數(shù)據(jù)清洗、模型建立、模型優(yōu)化、結(jié)果預(yù)測(cè)等

2、基本術(shù)語(yǔ)

記錄的集合 == 數(shù)據(jù)集

一個(gè)事件或?qū)ο?== 示例 或 樣本

表現(xiàn)或特性 == 屬性 或 特征

屬性的取值 == 屬性值

屬性張成的空間 == 屬性空間、樣本空間、輸入空間(如二維空間中,橫縱軸分別代表某一屬性,內(nèi)部的一點(diǎn)則代表著某一樣本)

每一個(gè)點(diǎn)的坐標(biāo)向量 == 特征向量

預(yù)測(cè):離散值 == 分類(lèi)? ?連續(xù)值 == 回歸? ? ?涉及兩個(gè)類(lèi)別 == 二分類(lèi)? ? 多個(gè)類(lèi)別 ==多分類(lèi)

聚類(lèi):訓(xùn)練集中的數(shù)據(jù)分成若干組,每一組稱(chēng)為"簇",自動(dòng)形成的簇對(duì)應(yīng)潛在的概念劃分

按是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)分為兩大類(lèi):監(jiān)督學(xué)習(xí)(分類(lèi)、回歸)和無(wú)監(jiān)督學(xué)習(xí)(聚類(lèi))

泛化能力:模型適用于新樣本的能力,越強(qiáng)越適用于整個(gè)樣本空間

3、假設(shè)空間

歸納:從樣例中學(xué)習(xí),學(xué)的數(shù)據(jù)中的概念,即是從已有數(shù)據(jù)中分析數(shù)據(jù)的相同屬性值

演繹:一般到特殊的"特化"過(guò)程,即是用已知的屬性值分析判斷樣本

4、歸納偏好

即是在多種假設(shè)中機(jī)器學(xué)習(xí)對(duì)某種類(lèi)型假設(shè)的偏好

選擇不同的假設(shè)會(huì)影響算法的性能,若算法的歸納偏好(選擇的假設(shè))更能與問(wèn)題匹配,則算法的性能更好。表現(xiàn)為模型對(duì)訓(xùn)練樣本以外的樣本進(jìn)行預(yù)測(cè)的結(jié)果,與模型對(duì)訓(xùn)練集樣本進(jìn)行預(yù)測(cè)的結(jié)果更一致

第二章 模型評(píng)估與選擇

1、經(jīng)驗(yàn)誤差與過(guò)擬合

錯(cuò)誤率:分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例

精度=1-錯(cuò)誤率

訓(xùn)練誤差/經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差:在新樣本上的誤差

過(guò)擬合:學(xué)習(xí)得太好,把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)做了所有潛在樣本都會(huì)具有的一般性質(zhì),使泛化功能下降

欠擬合:訓(xùn)練樣本的一般性質(zhì)未學(xué)好

2、評(píng)估方法

2.1、留出法

概念:留出法直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,一個(gè)是訓(xùn)練集S, 一個(gè)是測(cè)試集T

注意:

1、訓(xùn)練集與測(cè)試集的劃分要盡量保持?jǐn)?shù)據(jù)分布的一致性,避免因數(shù)據(jù)劃分過(guò)程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響

2、在給定訓(xùn)練集與測(cè)試集樣本比例后,應(yīng)采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果,以保證結(jié)果的可靠性與穩(wěn)定性。

缺點(diǎn):

1、若訓(xùn)練集S包含絕大多數(shù)的樣本,則訓(xùn)練出的模型更接近訓(xùn)練集D訓(xùn)練出來(lái)的模型,但由于測(cè)試集T較小,評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確

2、若要讓T多包含一些樣本,則導(dǎo)致S中的樣本較少,使得訓(xùn)練出來(lái)的模型與D的差異較大,導(dǎo)致結(jié)果的失真


留出法

2.2、交叉驗(yàn)證法

概念:交叉驗(yàn)證法對(duì)數(shù)據(jù)集D進(jìn)行分層采樣得到 k個(gè)大小相似的互斥子集,每次用k-1個(gè)子 集的并集作為訓(xùn)練集,余下的作為測(cè)試 集,從而進(jìn)行k次訓(xùn)練和測(cè)試,最終返回 這k個(gè)測(cè)試結(jié)果的均值。也稱(chēng)為"k折交叉驗(yàn)證法",下圖為10折交叉驗(yàn)證法的示意圖(即是將D劃分為10個(gè)子集,9個(gè)作為訓(xùn)練集,1個(gè)作為測(cè)試集):

10折交叉驗(yàn)證示意圖


交叉驗(yàn)證法

2.3、自助法

優(yōu)點(diǎn):減少訓(xùn)練樣本規(guī)模不同造成的影響,同時(shí)較高效地進(jìn)行試驗(yàn)估計(jì)

概念:對(duì)包含m個(gè)樣本的數(shù)據(jù)集D,每次隨機(jī)從中挑選一個(gè)樣本放入訓(xùn)練集D'中,然后把該樣本放回,重復(fù)進(jìn)行m次,得到訓(xùn)練集D',而D中沒(méi)有出現(xiàn)在D'中的樣本則作為測(cè)試集

特點(diǎn):同一樣本可能多次抽中,即D'中同一樣本可能有多個(gè)

適用范圍:數(shù)據(jù)集較小、難以劃分訓(xùn)練/測(cè)試集時(shí)很有用


自助法

3、性能度量

概念:衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)

分類(lèi)結(jié)果混淆矩陣

查準(zhǔn)率P(縱)與查全率R(橫)的定義:

P與R

P-R曲線(xiàn)

以查準(zhǔn)率為縱軸、查全率為橫軸作圖得到“P-R曲線(xiàn)”

P-R曲線(xiàn)與平衡點(diǎn)示意圖

性能比較:

1、若一個(gè)學(xué)習(xí)器的P-R曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)完全包住,則可斷言后者的性能優(yōu)于前者。如上圖中學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C。

2、若兩個(gè)學(xué)習(xí)器的P-R曲線(xiàn)發(fā)生了交叉

比較性能有三種種種辦法:1.比較P-R曲線(xiàn)下面積的大小,它在一定程度下表示學(xué)習(xí)器在查準(zhǔn)率和查全率取得相對(duì)“雙高”的比例,但這個(gè)值不太容易估算。2.平衡點(diǎn)(BEP)是一個(gè)綜合考慮查準(zhǔn)率和查全率的性能度量,它是查準(zhǔn)率=查全率時(shí)的取值。如上圖,基于BEP的比較,認(rèn)為學(xué)習(xí)器A優(yōu)于B。但BEP還是過(guò)于簡(jiǎn)化。3.更常用的是F1度量

F1度量法

ROC曲線(xiàn)

ROC曲線(xiàn)的縱軸和橫軸分別為T(mén)PR(Ture positive rare,真正例率)和FPR(False positive rare,假正例率)

分類(lèi)結(jié)果混淆矩陣
真、假正例率


ROC曲線(xiàn)與AUC示意圖

圖(a)是基于無(wú)限個(gè)坐標(biāo)獲得的ROC曲線(xiàn),但現(xiàn)實(shí)中我們的樣例是有限個(gè)的,制作出來(lái)的ROC曲線(xiàn)沒(méi)有圖(a)那么圓滑,與圖(b)較為相近。ROC曲線(xiàn)的制作是通過(guò)調(diào)整閾值得到坐標(biāo)然后將相鄰兩個(gè)點(diǎn)連線(xiàn)得到的曲線(xiàn)。

性能比較:若一個(gè)學(xué)習(xí)器的ROC曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)包住,則可斷言后者性能優(yōu)于前者;若兩個(gè)學(xué)習(xí)器的ROC曲線(xiàn)交叉,可以通過(guò)比較ROC曲線(xiàn)下的面積,即AUC來(lái)判斷。

4、比較檢驗(yàn)

4.1 假設(shè)檢驗(yàn)

"假設(shè)"是對(duì)學(xué)習(xí)器泛化錯(cuò)誤率分布的某種判斷或猜想。是根據(jù)測(cè)試錯(cuò)誤率推出泛化錯(cuò)誤率的分布。此方法認(rèn)為測(cè)試錯(cuò)誤率與泛化錯(cuò)誤率接近。

缺點(diǎn):僅是對(duì)單個(gè)學(xué)習(xí)器泛化性能的假設(shè)進(jìn)行檢驗(yàn)

4.2 交叉驗(yàn)證t檢驗(yàn)

基本思想:若兩個(gè)學(xué)習(xí)器的性能相同則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同

優(yōu)點(diǎn):對(duì)多個(gè)學(xué)習(xí)器的性能進(jìn)行比較

4.3 其他檢驗(yàn)方法

McNemar檢驗(yàn)、Friedman檢驗(yàn)、Nemenyi后續(xù)檢驗(yàn)

5、偏差與方差

解決問(wèn)題:為什么學(xué)習(xí)算法為什么具有這樣的性能

偏差:期望輸出與真實(shí)標(biāo)記的差別

泛化誤差 = 偏差 + 方差 + 噪聲

結(jié)論:泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容