亚洲人人在线观看,精品女同一区,99人妻少妇人妻少妇

10.1 K近鄰學(xué)習(xí)【KNN】

常用監(jiān)督學(xué)習(xí)方法，基于實(shí)力學(xué)習(xí)模型，"懶惰學(xué)習(xí)"(存樣不訓(xùn)，收測樣再處理，與其相對的是"急切"學(xué)習(xí))

工作機(jī)制:

給定測試樣本，基于某種距離度量找出訓(xùn)練集中，與其距離最靠近的K個(gè)訓(xùn)練樣本，并基于這些訓(xùn)練樣本的信息進(jìn)行預(yù)測；分類任務(wù)采取投票法，回歸任務(wù)采取平均法

K值一般通過交叉驗(yàn)證法來獲取

觀察樣本Xu與其他樣本的相似度，選擇最近的K個(gè)樣本，琪屬于ω1

k近鄰分類器示意圖

KNN方法的優(yōu)劣處:

優(yōu)點(diǎn):精度高，對異常值不敏感，無數(shù)值輸入假定缺點(diǎn):計(jì)算復(fù)雜度高，空間復(fù)雜度高

最近鄰分類器出錯(cuò)率的概率:

X為給定測試樣本，z為最近臨近樣本

最近鄰分類器的泛化錯(cuò)誤率不超過葉貝斯最優(yōu)分類器的錯(cuò)誤率的兩倍

KNN分類與回歸Python代碼實(shí)現(xiàn)鏈接

返回結(jié)果“m”－KNN實(shí)例

10.2 低維嵌入

維數(shù):樣本的特征數(shù)

密采樣:

任意測試樣本x附近的一小的δ距離范圍內(nèi)，總能找到一個(gè)訓(xùn)練樣本，也就是說訓(xùn)練樣本的采樣力度足夠大。

密采量條件至少需要【(［10］3)∧屬性維數(shù) 】? 個(gè)樣本(參照宇宙間基本微粒總數(shù)10∧80)

"維數(shù)災(zāi)難":高維情形下，數(shù)據(jù)樣本稀疏，距離計(jì)算困難等障礙。

解決維數(shù)災(zāi)難的方法有:

①特征選擇【事前】? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ②降維【事中】降維以后的物體，不是原來的物體，但可以作為原來的物體的近似。

"維數(shù)約簡"/降維:通過某種數(shù)學(xué)變換將原始高維屬性空間轉(zhuǎn)化為一個(gè)低維"子空間"

低維嵌入示意圖

多維縮放【MDS】:

經(jīng)典降維方法，保持高維空間中的相似度信息，而相似度通常用"歐式距離"來定義

歐式距離【歐幾里德距離】的定義:

衡量多維空間中兩個(gè)點(diǎn)之間的絕對距離，在二維和三維空間中的歐式，具體就是兩點(diǎn)的實(shí)際距離

歐式距離計(jì)算公式

簡單介紹降維方法:

MDS算法

最簡單的獲得低維子空間的方法是對原始高維空間進(jìn)行線性變換——線性降維方法

基本形式

若wi與wj（i≠j）正交，則新坐標(biāo)系是一個(gè)正交坐標(biāo)系，此時(shí)W為正交變換。可見，新空間中的屬性是原空間中屬性的線性組合。

對降維效果的評估:

通常是比較降維前后學(xué)習(xí)器的性能，若性能提高，則降為起作用；若為樹降至二到三維，則可通過可視化技術(shù)來直觀判斷降維效果

多維縮放－python調(diào)用sklearn庫實(shí)例

MDS降維實(shí)例

降維結(jié)果

當(dāng)樣本點(diǎn)越大的時(shí)候，模型建立用時(shí)更長

10.3 主成分分析【PCA】

最常用的一種無監(jiān)督線性降維方法

對于正交屬性空間中的樣本點(diǎn)，如何用一個(gè)超平面（直線的高維推廣）對所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá)？

若存在這樣的超平面，應(yīng)具有如下兩點(diǎn)性質(zhì)：? ①最近重構(gòu)性:樣本點(diǎn)到這超平面的距離都足夠近②最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開

工作機(jī)制:

找到一個(gè)歐式空間的線性變換，把原始數(shù)據(jù)從一組舊的標(biāo)準(zhǔn)正交基下的表示轉(zhuǎn)化為另一組新的標(biāo)準(zhǔn)正交基下的表示，降維發(fā)生在新的標(biāo)準(zhǔn)正交基下的表示，直接去掉了，后面幾個(gè)維度的坐標(biāo)值

簡而言之，使正交基盡量里和原始數(shù)據(jù)的分布，降低維度，同時(shí)降低信息損失。

PCA=特征抽取(旋轉(zhuǎn)坐標(biāo)軸)＋特征選擇(去掉一些特征)

從重構(gòu)角度來設(shè)置一個(gè)重構(gòu)閾值,從而獲得最小的d'值

PCA方法的優(yōu)缺點(diǎn):

優(yōu)點(diǎn):無參數(shù)限制，提取了主要信息，并且結(jié)果容易理解

缺點(diǎn):方差小的組成分可能含有對樣本差異的重要信息，某些情況下得出的主元可能并不是最優(yōu)的。

需自取t值

當(dāng)使用標(biāo)準(zhǔn)正交基時(shí)，向量在新的基底的坐標(biāo)表示，就可以通過這個(gè)向量依次和標(biāo)準(zhǔn)正交基里的每一個(gè)基向量做內(nèi)積，得到的標(biāo)量組成向量，即是向量在新的基地的坐標(biāo)表示。

PCA找到的新坐標(biāo)系的基底，恰好就是標(biāo)準(zhǔn)正交基，那么計(jì)算新坐標(biāo)系下的坐標(biāo)，就是計(jì)算原始坐標(biāo)，在新坐標(biāo)系下的投影，這個(gè)投影在新坐標(biāo)軸是標(biāo)準(zhǔn)正交基的情況下，就成了內(nèi)積的計(jì)算。

從最大可分性出發(fā)解釋:

在機(jī)器學(xué)習(xí)算法的數(shù)據(jù)特征，往往用數(shù)據(jù)對特征進(jìn)行區(qū)分，并方差作為區(qū)分度?！就x擇方差大的特征，使所有樣本點(diǎn)的投影盡可能分開】

從最近重構(gòu)性的角度解釋:

當(dāng)兩個(gè)特征線性相關(guān)時(shí)，形成"多重共線性"現(xiàn)象,此時(shí)便可去掉冗余的特征，而特征的線性相關(guān)是利用協(xié)方差來均衡,盡量保證特征向量線性無關(guān)。

降維舍棄特征向量的必要性:

①增加樣本采樣密度。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ②最小的特征值所對應(yīng)的特征向量往往與噪聲有關(guān)，舍棄可起到去噪作用。

10.4 核化線性降維

基于核的非線性降維方法

當(dāng)線性降維導(dǎo)致信息丟失過多時(shí)，就可以選擇非線性降維方法。低維空間映射到高維空間后，再次降維到低維空間會(huì)導(dǎo)致原始的低維結(jié)構(gòu)丟失。

三種情況下的空間結(jié)構(gòu)

工作機(jī)制:

基于核技巧對線性降維方法進(jìn)行“核化”（kernelized），該核化方法與前面的主成分分析法的不同之處在于，在主成分分析的基礎(chǔ)上，將高維空間的樣本投射x轉(zhuǎn)化為被核化k(x)來進(jìn)行計(jì)算，并對和函數(shù)對應(yīng)的和矩陣進(jìn)行特征分解來求得投影的d'維特征向量。

以核主成分分析【KPCA】

網(wǎng)上公式解析

10.5 流形學(xué)習(xí)

借鑒了拓?fù)淞餍懈拍畹慕稻S方法

流形的概念:

在局部與歐式空間同胚的空間，其局部具有歐式距離的性質(zhì)，能用歐式距離來計(jì)算，因此，若低維流形嵌入到高維空間中，在局部上仍具有歐式空間的性質(zhì)，而歐式空間是流行的一種特殊情況

換個(gè)角度理解，一個(gè)流形相當(dāng)于一個(gè)d維空間，在一個(gè)更高維的空間，將其扭曲之后的空間。

書中介紹了兩種著名的流行學(xué)習(xí)方法:

10.5.1 等度量映射【Isomap】

是MDS算法的變種，計(jì)算高維空間距離時(shí)采用測地距離，全局算法【尋找所有樣本，全局的最優(yōu)解】，計(jì)算量可能非常大

書上以蟲子爬行路線舉例，紅線為最短距離(測地線=兩點(diǎn)間本真距離)，所以不能直接在高維空間中計(jì)算，原本低維流形的直線距離。

低維流形嵌入高維空間變換

那么可以利用流形在局部上與歐式空間同胚的性質(zhì)，對每個(gè)點(diǎn)基于歐式距離找出其相鄰點(diǎn)，然后建立一個(gè)近鄰連接圖，且只有僅鄰點(diǎn)之間有連接，那么就可以計(jì)算出兩點(diǎn)之間最短路徑

同胚定義:

在拓?fù)鋵W(xué)中，兩個(gè)流行如果可以通過彎曲延展剪切等操作將其中一個(gè)變?yōu)榱硗庖粋€(gè)，則認(rèn)為兩者是同胚的。

具體算法流程:

Isomap解析

當(dāng)數(shù)據(jù)量很大或樣本維度很高，導(dǎo)致計(jì)算量非常大時(shí)，則更常用的是局部線性嵌入方法。

Isomap實(shí)例

結(jié)果圖像

10.5.2 局部線性嵌入【LLE】

該法試圖保持領(lǐng)域類樣本之間的關(guān)系不變

高維空間中的樣本重構(gòu)關(guān)系在低維空間中得到保持

也就是說，樣本點(diǎn)xi的坐標(biāo)能通過它的領(lǐng)域樣本xj，xl，xk重構(gòu)出來，且權(quán)值參數(shù)在低維和高維空間保持一致。

LLE計(jì)算式

LLE算法具體流程:

LLE算法流程

LLE實(shí)例

結(jié)果圖像

流形學(xué)習(xí)－Isomap,LLE代碼實(shí)例

10.6 度量學(xué)習(xí)【Metric Learning】

降維是為了尋找合適的低維空間，實(shí)質(zhì)上是尋找一個(gè)合適的距離度量，其實(shí)該度量也可以通過“學(xué)習(xí)”去尋找。

度量學(xué)習(xí)法已應(yīng)用與計(jì)算機(jī)視覺中的圖像檢索和分類人臉識(shí)別，人類活動(dòng)識(shí)別和姿勢估計(jì)，文本分析和其他領(lǐng)域，如音樂分析自動(dòng)化的項(xiàng)目調(diào)試

度量學(xué)習(xí)==距離度量學(xué)習(xí)==相似度學(xué)習(xí)

尋找一個(gè)便于學(xué)習(xí)的距離度量表達(dá)形式，要具有可調(diào)節(jié)的參數(shù)，可以通過對數(shù)據(jù)樣本的學(xué)習(xí)來改善。

距離度量推廣

屬性的重要性權(quán)重ω，當(dāng)那么大的非對角元素均為零時(shí)，該坐標(biāo)軸是正交的，即屬性之間無關(guān)，但現(xiàn)實(shí)生活中很多屬性都會(huì)有所關(guān)聯(lián)，因此將ω?fù)Q成一個(gè)普通半正定對稱矩陣M【度量矩陣】

馬氏距離

而度量學(xué)習(xí)就是對M進(jìn)行學(xué)習(xí),且必有正交基P使得M=PP∧T。

參考鏈接:

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《機(jī)器學(xué)習(xí)》周志華第十章

《機(jī)器學(xué)習(xí)》周志華第十章

10.1 K近鄰學(xué)習(xí)【KNN】

10.2 低維嵌入

10.3 主成分分析【PCA】

10.4 核化線性降維

10.5 流形學(xué)習(xí)

10.5.1 等度量映射【Isomap】

10.5.2 局部線性嵌入【LLE】

10.6 度量學(xué)習(xí)【Metric Learning】

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《機(jī)器學(xué)習(xí)》周志華第十章

10.1 K近鄰學(xué)習(xí)【KNN】

10.2 低維嵌入

10.3 主成分分析【PCA】

10.4 核化線性降維

10.5 流形學(xué)習(xí)

10.5.1 等度量映射【Isomap】

10.5.2 局部線性嵌入【LLE】

10.6 度量學(xué)習(xí)【Metric Learning】

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av