Spark機(jī)器學(xué)習(xí)實戰(zhàn) (十) - 降維

通過講解PCA算法的原理,使大家明白降維算法的大致原理,以及能夠?qū)崿F(xiàn)怎么樣的功能。結(jié)合應(yīng)用降維算法在分類算法使用之前進(jìn)行預(yù)處理的實踐,幫助大家體會算法的作用。

0 相關(guān)源碼

1 PCA算法及原理概述

1.1 何為降維?

◆ 從高維度變?yōu)榈途S度的過程就是降維

◆ 例如拍照就是把處在三維空間中的人或物從轉(zhuǎn)換到作為二 維平面的
照片中

◆ 降維有線性的、也有非線性的方法。在機(jī)器學(xué)習(xí)中可以簡化運(yùn)算,減少特征量

1.2 PCA算法介紹

◆ PCA算法是一種常用的線性降維算法,算法類似于"投影”

◆ 降維簡化了數(shù)據(jù)集,故可以視為一個壓縮過程,在壓縮過程中可能;會有信息丟失

◆ PCA除可以用來精簡特征,還可以應(yīng)用在圖像處理中
例如基于PCA算法的特征臉法,它可以用來人臉識別

1.3 PCA算法原理簡介

◆ PCA是基于K-L變換實現(xiàn)的一種算法

◆ PCA算法在實現(xiàn)上用到了協(xié)方差矩陣,以及矩陣的特征分解

◆ 基本主要內(nèi)容在于求出協(xié)方差矩陣,然后求協(xié)方差矩陣的特征值與特征向量

1.4 PCA算法步驟

◆ 輸入n行m列的矩陣X ,代表m條n維數(shù)據(jù)

◆ 將矩陣X的每一行進(jìn)行零均值化處理

◆ 求出X的協(xié)方差矩陣C

◆ 求出協(xié)方差矩陣C的特征值 與特征向量

◆ 將特征向量按照特征值的大小從上至下依次排列,取前k行,作為矩陣P

◆ 求出P與X矩陣叉乘的結(jié)果,即為降維值k維的m條數(shù)據(jù)

2 實戰(zhàn)PCA算法實現(xiàn)降維

  • 代碼


  • 特征列降維成3個


Spark機(jī)器學(xué)習(xí)實踐系列

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容