第一章 緒論
1、什么是機(jī)器學(xué)習(xí)
即是從數(shù)據(jù)中產(chǎn)生算法(學(xué)習(xí)算法),并根據(jù)所提供的經(jīng)驗(yàn)數(shù)據(jù)建立適當(dāng)?shù)哪P?,在面?duì)新情況時(shí)可以為我們做出相應(yīng)的決策,并在不斷累積經(jīng)驗(yàn)的過(guò)程中,可以?xún)?yōu)化自己的性能,做出更加準(zhǔn)確的決策,這就是機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)可以解決什么問(wèn)題:數(shù)據(jù)清洗、模型建立、模型優(yōu)化、結(jié)果預(yù)測(cè)等
2、基本術(shù)語(yǔ)
記錄的集合 == 數(shù)據(jù)集
一個(gè)事件或?qū)ο?== 示例 或 樣本
表現(xiàn)或特性 == 屬性 或 特征
屬性的取值 == 屬性值
屬性張成的空間 == 屬性空間、樣本空間、輸入空間(如二維空間中,橫縱軸分別代表某一屬性,內(nèi)部的一點(diǎn)則代表著某一樣本)
每一個(gè)點(diǎn)的坐標(biāo)向量 == 特征向量
預(yù)測(cè):離散值 == 分類(lèi)? ?連續(xù)值 == 回歸? ? ?涉及兩個(gè)類(lèi)別 == 二分類(lèi)? ? 多個(gè)類(lèi)別 ==多分類(lèi)
聚類(lèi):訓(xùn)練集中的數(shù)據(jù)分成若干組,每一組稱(chēng)為"簇",自動(dòng)形成的簇對(duì)應(yīng)潛在的概念劃分
按是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)分為兩大類(lèi):監(jiān)督學(xué)習(xí)(分類(lèi)、回歸)和無(wú)監(jiān)督學(xué)習(xí)(聚類(lèi))
泛化能力:模型適用于新樣本的能力,越強(qiáng)越適用于整個(gè)樣本空間
3、假設(shè)空間
歸納:從樣例中學(xué)習(xí),學(xué)的數(shù)據(jù)中的概念,即是從已有數(shù)據(jù)中分析數(shù)據(jù)的相同屬性值
演繹:一般到特殊的"特化"過(guò)程,即是用已知的屬性值分析判斷樣本
4、歸納偏好
即是在多種假設(shè)中機(jī)器學(xué)習(xí)對(duì)某種類(lèi)型假設(shè)的偏好
選擇不同的假設(shè)會(huì)影響算法的性能,若算法的歸納偏好(選擇的假設(shè))更能與問(wèn)題匹配,則算法的性能更好。表現(xiàn)為模型對(duì)訓(xùn)練樣本以外的樣本進(jìn)行預(yù)測(cè)的結(jié)果,與模型對(duì)訓(xùn)練集樣本進(jìn)行預(yù)測(cè)的結(jié)果更一致
第二章 模型評(píng)估與選擇
1、經(jīng)驗(yàn)誤差與過(guò)擬合
錯(cuò)誤率:分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例
精度=1-錯(cuò)誤率
訓(xùn)練誤差/經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差
泛化誤差:在新樣本上的誤差
過(guò)擬合:學(xué)習(xí)得太好,把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)做了所有潛在樣本都會(huì)具有的一般性質(zhì),使泛化功能下降
欠擬合:訓(xùn)練樣本的一般性質(zhì)未學(xué)好
2、評(píng)估方法
2.1、留出法
概念:留出法直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,一個(gè)是訓(xùn)練集S, 一個(gè)是測(cè)試集T
注意:
1、訓(xùn)練集與測(cè)試集的劃分要盡量保持?jǐn)?shù)據(jù)分布的一致性,避免因數(shù)據(jù)劃分過(guò)程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響
2、在給定訓(xùn)練集與測(cè)試集樣本比例后,應(yīng)采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果,以保證結(jié)果的可靠性與穩(wěn)定性。
缺點(diǎn):
1、若訓(xùn)練集S包含絕大多數(shù)的樣本,則訓(xùn)練出的模型更接近訓(xùn)練集D訓(xùn)練出來(lái)的模型,但由于測(cè)試集T較小,評(píng)估結(jié)果可能不夠穩(wěn)定準(zhǔn)確
2、若要讓T多包含一些樣本,則導(dǎo)致S中的樣本較少,使得訓(xùn)練出來(lái)的模型與D的差異較大,導(dǎo)致結(jié)果的失真

2.2、交叉驗(yàn)證法
概念:交叉驗(yàn)證法對(duì)數(shù)據(jù)集D進(jìn)行分層采樣得到 k個(gè)大小相似的互斥子集,每次用k-1個(gè)子 集的并集作為訓(xùn)練集,余下的作為測(cè)試 集,從而進(jìn)行k次訓(xùn)練和測(cè)試,最終返回 這k個(gè)測(cè)試結(jié)果的均值。也稱(chēng)為"k折交叉驗(yàn)證法",下圖為10折交叉驗(yàn)證法的示意圖(即是將D劃分為10個(gè)子集,9個(gè)作為訓(xùn)練集,1個(gè)作為測(cè)試集):


2.3、自助法
優(yōu)點(diǎn):減少訓(xùn)練樣本規(guī)模不同造成的影響,同時(shí)較高效地進(jìn)行試驗(yàn)估計(jì)
概念:對(duì)包含m個(gè)樣本的數(shù)據(jù)集D,每次隨機(jī)從中挑選一個(gè)樣本放入訓(xùn)練集D'中,然后把該樣本放回,重復(fù)進(jìn)行m次,得到訓(xùn)練集D',而D中沒(méi)有出現(xiàn)在D'中的樣本則作為測(cè)試集
特點(diǎn):同一樣本可能多次抽中,即D'中同一樣本可能有多個(gè)
適用范圍:數(shù)據(jù)集較小、難以劃分訓(xùn)練/測(cè)試集時(shí)很有用

3、性能度量
概念:衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)

查準(zhǔn)率P(縱)與查全率R(橫)的定義:

P-R曲線(xiàn)
以查準(zhǔn)率為縱軸、查全率為橫軸作圖得到“P-R曲線(xiàn)”

性能比較:
1、若一個(gè)學(xué)習(xí)器的P-R曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)完全包住,則可斷言后者的性能優(yōu)于前者。如上圖中學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C。
2、若兩個(gè)學(xué)習(xí)器的P-R曲線(xiàn)發(fā)生了交叉
比較性能有三種種種辦法:1.比較P-R曲線(xiàn)下面積的大小,它在一定程度下表示學(xué)習(xí)器在查準(zhǔn)率和查全率取得相對(duì)“雙高”的比例,但這個(gè)值不太容易估算。2.平衡點(diǎn)(BEP)是一個(gè)綜合考慮查準(zhǔn)率和查全率的性能度量,它是查準(zhǔn)率=查全率時(shí)的取值。如上圖,基于BEP的比較,認(rèn)為學(xué)習(xí)器A優(yōu)于B。但BEP還是過(guò)于簡(jiǎn)化。3.更常用的是F1度量

ROC曲線(xiàn)
ROC曲線(xiàn)的縱軸和橫軸分別為T(mén)PR(Ture positive rare,真正例率)和FPR(False positive rare,假正例率)



圖(a)是基于無(wú)限個(gè)坐標(biāo)獲得的ROC曲線(xiàn),但現(xiàn)實(shí)中我們的樣例是有限個(gè)的,制作出來(lái)的ROC曲線(xiàn)沒(méi)有圖(a)那么圓滑,與圖(b)較為相近。ROC曲線(xiàn)的制作是通過(guò)調(diào)整閾值得到坐標(biāo)然后將相鄰兩個(gè)點(diǎn)連線(xiàn)得到的曲線(xiàn)。
性能比較:若一個(gè)學(xué)習(xí)器的ROC曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)包住,則可斷言后者性能優(yōu)于前者;若兩個(gè)學(xué)習(xí)器的ROC曲線(xiàn)交叉,可以通過(guò)比較ROC曲線(xiàn)下的面積,即AUC來(lái)判斷。
4、比較檢驗(yàn)
4.1 假設(shè)檢驗(yàn)
"假設(shè)"是對(duì)學(xué)習(xí)器泛化錯(cuò)誤率分布的某種判斷或猜想。是根據(jù)測(cè)試錯(cuò)誤率推出泛化錯(cuò)誤率的分布。此方法認(rèn)為測(cè)試錯(cuò)誤率與泛化錯(cuò)誤率接近。
缺點(diǎn):僅是對(duì)單個(gè)學(xué)習(xí)器泛化性能的假設(shè)進(jìn)行檢驗(yàn)
4.2 交叉驗(yàn)證t檢驗(yàn)
基本思想:若兩個(gè)學(xué)習(xí)器的性能相同則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同
優(yōu)點(diǎn):對(duì)多個(gè)學(xué)習(xí)器的性能進(jìn)行比較
4.3 其他檢驗(yàn)方法
McNemar檢驗(yàn)、Friedman檢驗(yàn)、Nemenyi后續(xù)檢驗(yàn)
5、偏差與方差
解決問(wèn)題:為什么學(xué)習(xí)算法為什么具有這樣的性能
偏差:期望輸出與真實(shí)標(biāo)記的差別
泛化誤差 = 偏差 + 方差 + 噪聲
結(jié)論:泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。