《機(jī)器學(xué)習(xí)》周志華第十章

10.1 K近鄰學(xué)習(xí)【KNN】

常用監(jiān)督學(xué)習(xí)方法,基于實(shí)力學(xué)習(xí)模型,"懶惰學(xué)習(xí)"(存樣不訓(xùn),收測樣再處理,與其相對的是"急切"學(xué)習(xí))

工作機(jī)制:

給定測試樣本,基于某種距離度量找出訓(xùn)練集中,與其距離最靠近的K個(gè)訓(xùn)練樣本,并基于這些訓(xùn)練樣本的信息進(jìn)行預(yù)測;分類任務(wù)采取投票法,回歸任務(wù)采取平均法

K值一般通過交叉驗(yàn)證法來獲取

觀察樣本Xu與其他樣本的相似度,選擇最近的K個(gè)樣本,琪屬于ω1


k近鄰分類器示意圖


KNN方法的優(yōu)劣處:

優(yōu)點(diǎn):精度高,對異常值不敏感,無數(shù)值輸入假定缺點(diǎn):計(jì)算復(fù)雜度高,空間復(fù)雜度高

最近鄰分類器出錯(cuò)率的概率:

X為給定測試樣本,z為最近臨近樣本

最近鄰分類器的泛化錯(cuò)誤率不超過葉貝斯最優(yōu)分類器的錯(cuò)誤率的兩倍

KNN分類與回歸Python代碼實(shí)現(xiàn)鏈接
返回結(jié)果“m”-KNN實(shí)例




10.2 低維嵌入

維數(shù):樣本的特征數(shù)

密采樣:

任意測試樣本x附近的一小的δ距離范圍內(nèi),總能找到一個(gè)訓(xùn)練樣本,也就是說訓(xùn)練樣本的采樣力度足夠大。

密采量條件至少需要 【([10]3)∧屬性維數(shù) 】? 個(gè)樣本(參照宇宙間基本微粒總數(shù)10∧80)

"維數(shù)災(zāi)難":高維情形下,數(shù)據(jù)樣本稀疏,距離計(jì)算困難等障礙。

決維數(shù)災(zāi)難的方法有:

①特征選擇【事前】? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ②降維【事中】降維以后的物體,不是原來的物體,但可以作為原來的物體的近似。

"維數(shù)約簡"/降維:通過某種數(shù)學(xué)變換將原始高維屬性空間轉(zhuǎn)化為一個(gè)低維"子空間"

低維嵌入示意圖


多維縮放【MDS】:

經(jīng)典降維方法,保持高維空間中的相似度信息,而相似度通常用"歐式距離"來定義

歐式距離【歐幾里德距離】的定義:

衡量多維空間中兩個(gè)點(diǎn)之間的絕對距離,在二維和三維空間中的歐式,具體就是兩點(diǎn)的實(shí)際距離

歐式距離計(jì)算公式


簡單介紹降維方法:

MDS算法


最簡單的獲得低維子空間的方法是對原始高維空間進(jìn)行線性變換——線性降維方法

基本形式

若wi與wj(i≠j)正交,則新坐標(biāo)系是一個(gè)正交坐標(biāo)系,此時(shí)W為正交變換。可見,新空間中的屬性是原空間中屬性的線性組合。

對降維效果的評估:

通常是比較降維前后學(xué)習(xí)器的性能,若性能提高,則降為起作用;若為樹降至二到三維,則可通過可視化技術(shù)來直觀判斷降維效果

多維縮放-python調(diào)用sklearn庫實(shí)例
MDS降維實(shí)例


降維結(jié)果

當(dāng)樣本點(diǎn)越大的時(shí)候,模型建立用時(shí)更長



10.3 主成分分析【PCA】

最常用的一種無監(jiān)督線性降維方法

對于正交屬性空間中的樣本點(diǎn),如何用一個(gè)超平面(直線的高維推廣)對所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá)?

若存在這樣的超平面,應(yīng)具有如下兩點(diǎn)性質(zhì):? ①最近重構(gòu)性:樣本點(diǎn)到這超平面的距離都足夠近②最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開

工作機(jī)制:

找到一個(gè)歐式空間的線性變換,把原始數(shù)據(jù)從一組舊的標(biāo)準(zhǔn)正交基下的表示轉(zhuǎn)化為另一組新的標(biāo)準(zhǔn)正交基下的表示,降維發(fā)生在新的標(biāo)準(zhǔn)正交基下的表示,直接去掉了,后面幾個(gè)維度的坐標(biāo)值

簡而言之,使正交基盡量里和原始數(shù)據(jù)的分布,降低維度,同時(shí)降低信息損失。

PCA=特征抽取(旋轉(zhuǎn)坐標(biāo)軸)+特征選擇(去掉一些特征)

從重構(gòu)角度來設(shè)置一個(gè)重構(gòu)閾值,從而獲得最小的d'值

PCA方法的優(yōu)缺點(diǎn):

優(yōu)點(diǎn):無參數(shù)限制,提取了主要信息,并且結(jié)果容易理解

缺點(diǎn):方差小的組成分可能含有對樣本差異的重要信息,某些情況下得出的主元可能并不是最優(yōu)的。

需自取t值

當(dāng)使用標(biāo)準(zhǔn)正交基時(shí),向量在新的基底的坐標(biāo)表示,就可以通過這個(gè)向量依次和標(biāo)準(zhǔn)正交基里的每一個(gè)基向量做內(nèi)積,得到的標(biāo)量組成向量,即是向量在新的基地的坐標(biāo)表示。

PCA找到的新坐標(biāo)系的基底,恰好就是標(biāo)準(zhǔn)正交基,那么計(jì)算新坐標(biāo)系下的坐標(biāo),就是計(jì)算原始坐標(biāo),在新坐標(biāo)系下的投影,這個(gè)投影在新坐標(biāo)軸是標(biāo)準(zhǔn)正交基的情況下,就成了內(nèi)積的計(jì)算。


從最大可分性出發(fā)解釋:

在機(jī)器學(xué)習(xí)算法的數(shù)據(jù)特征,往往用數(shù)據(jù)對特征進(jìn)行區(qū)分,并方差作為區(qū)分度?!就x擇方差大的特征,使所有樣本點(diǎn)的投影盡可能分開】

從最近重構(gòu)性的角度解釋:

當(dāng)兩個(gè)特征線性相關(guān)時(shí),形成"多重共線性"現(xiàn)象,此時(shí)便可去掉冗余的特征,而特征的線性相關(guān)是利用協(xié)方差來均衡,盡量保證特征向量線性無關(guān)。

降維舍棄特征向量的必要性:

①增加樣本采樣密度。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ②最小的特征值所對應(yīng)的特征向量往往與噪聲有關(guān),舍棄可起到去噪作用。




10.4 核化線性降維

基于核的非線性降維方法

當(dāng)線性降維導(dǎo)致信息丟失過多時(shí),就可以選擇非線性降維方法。低維空間映射到高維空間后,再次降維到低維空間會(huì)導(dǎo)致原始的低維結(jié)構(gòu)丟失。

三種情況下的空間結(jié)構(gòu)

工作機(jī)制:

基于核技巧對線性降維方法進(jìn)行“核化”(kernelized),該核化方法與前面的主成分分析法的不同之處在于,在主成分分析的基礎(chǔ)上,將高維空間的樣本投射x轉(zhuǎn)化為被核化k(x)來進(jìn)行計(jì)算,并對和函數(shù)對應(yīng)的和矩陣進(jìn)行特征分解來求得投影的d'維特征向量。

以核主成分分析【KPCA】

網(wǎng)上公式解析


10.5 流形學(xué)習(xí)

借鑒了拓?fù)淞餍懈拍畹慕稻S方法

流形的概念:

在局部與歐式空間同胚的空間,其局部具有歐式距離的性質(zhì),能用歐式距離來計(jì)算,因此,若低維流形嵌入到高維空間中,在局部上仍具有歐式空間的性質(zhì),而歐式空間是流行的一種特殊情況

換個(gè)角度理解,一個(gè)流形相當(dāng)于一個(gè)d維空間,在一個(gè)更高維的空間,將其扭曲之后的空間。

書中介紹了兩種著名的流行學(xué)習(xí)方法:


10.5.1 等度量映射【Isomap】

是MDS算法的變種,計(jì)算高維空間距離時(shí)采用測地距離,全局算法【尋找所有樣本,全局的最優(yōu)解】,計(jì)算量可能非常大

書上以蟲子爬行路線舉例,紅線為最短距離(測地線=兩點(diǎn)間本真距離),所以不能直接在高維空間中計(jì)算,原本低維流形的直線距離。

低維流形嵌入高維空間變換

那么可以利用流形在局部上與歐式空間同胚的性質(zhì),對每個(gè)點(diǎn)基于歐式距離找出其相鄰點(diǎn),然后建立一個(gè)近鄰連接圖,且只有僅鄰點(diǎn)之間有連接,那么就可以計(jì)算出兩點(diǎn)之間最短路徑

同胚定義:

在拓?fù)鋵W(xué)中,兩個(gè)流行如果可以通過彎曲延展剪切等操作將其中一個(gè)變?yōu)榱硗庖粋€(gè),則認(rèn)為兩者是同胚的。

具體算法流程:

Isomap解析

當(dāng)數(shù)據(jù)量很大或樣本維度很高,導(dǎo)致計(jì)算量非常大時(shí),則更常用的是局部線性嵌入方法。

Isomap實(shí)例


結(jié)果圖像


10.5.2 局部線性嵌入【LLE】

該法試圖保持領(lǐng)域類樣本之間的關(guān)系不變
高維空間中的樣本重構(gòu)關(guān)系在低維空間中得到保持

也就是說,樣本點(diǎn)xi的坐標(biāo)能通過它的領(lǐng)域樣本xj,xl,xk重構(gòu)出來,且權(quán)值參數(shù)在低維和高維空間保持一致。

LLE計(jì)算式

LLE算法具體流程:

LLE算法流程


LLE實(shí)例


結(jié)果圖像


流形學(xué)習(xí)-Isomap,LLE代碼實(shí)例



10.6 度量學(xué)習(xí)【Metric Learning】

降維是為了尋找合適的低維空間,實(shí)質(zhì)上是尋找一個(gè)合適的距離度量,其實(shí)該度量也可以通過“學(xué)習(xí)”去尋找。

度量學(xué)習(xí)法已應(yīng)用與計(jì)算機(jī)視覺中的圖像檢索和分類人臉識(shí)別,人類活動(dòng)識(shí)別和姿勢估計(jì),文本分析和其他領(lǐng)域,如音樂分析自動(dòng)化的項(xiàng)目調(diào)試

度量學(xué)習(xí)==距離度量學(xué)習(xí)==相似度學(xué)習(xí)

尋找一個(gè)便于學(xué)習(xí)的距離度量表達(dá)形式,要具有可調(diào)節(jié)的參數(shù),可以通過對數(shù)據(jù)樣本的學(xué)習(xí)來改善。

距離度量推廣

屬性的重要性權(quán)重ω,當(dāng)那么大的非對角元素均為零時(shí),該坐標(biāo)軸是正交的,即屬性之間無關(guān),但現(xiàn)實(shí)生活中很多屬性都會(huì)有所關(guān)聯(lián),因此將ω?fù)Q成一個(gè)普通半正定對稱矩陣M【度量矩陣】

馬氏距離

而度量學(xué)習(xí)就是對M進(jìn)行學(xué)習(xí),且必有正交基P使得M=PP∧T。



參考鏈接:

主成分分析

第十章章節(jié)整合參考

核化線性降維算法參考

流形學(xué)習(xí)參考

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容