百面機(jī)器學(xué)習(xí)|第四章降維知識(shí)點(diǎn)

前言

如果你能找到這里,真是我的幸運(yùn)~這里是藍(lán)白絳的學(xué)習(xí)筆記,本集合主要針對(duì)《百面機(jī)器學(xué)習(xí)——算法工程師帶你去面試》這本書(shū)。主要記錄我認(rèn)為重要的知識(shí)點(diǎn),希望對(duì)大家有幫助。

第四章 降維

引導(dǎo)語(yǔ)

常見(jiàn)的降維方法有:主成分分析、線(xiàn)性判別分析、等距映射、局部線(xiàn)性嵌入、拉普拉斯特征映射、局部保留投影燈。本章主要講主成分分析和線(xiàn)性判別分析。

1、PCA最大方差理論

  1. PCA(Principal Components Analysis,主成分分析)的基本思想:在信號(hào)處理領(lǐng)域,我們認(rèn)為信號(hào)具有較大方差,噪聲具有較小方差,信號(hào)與噪聲之比稱(chēng)為信噪比。信噪比越大意味著數(shù)據(jù)質(zhì)量越好。
    4-1 PCA降維目標(biāo)

如上圖黃線(xiàn)所處的軸上(主成分所在的軸,主軸),數(shù)據(jù)分布得更為分散,意味著數(shù)據(jù)在這個(gè)方向上方差更大,是我們想要的軸。PCA的目標(biāo)是最大化投影方差,也就是讓數(shù)據(jù)在主軸上投影的方差最大。(其實(shí)還可以從其他思路分析,如從最小回歸誤差角度得到新的目標(biāo)函數(shù),但最終和最大化投影方差是等價(jià)的。)

  1. PCA求解方法:(關(guān)鍵步驟是求協(xié)方差矩陣的特征值)
  • 對(duì)樣本數(shù)據(jù)進(jìn)行中心化處理(\{x_1,x_2,...,x_n\}=\{v_1-\mu,v_2-\mu,...,v_n-\mu\},\mu為均值)。
  • 求樣本協(xié)方差矩陣。
  • 對(duì)協(xié)方差矩陣進(jìn)行特征分解,將特征值從大到小排列。
  • 取特征值前d大對(duì)應(yīng)的特征向量\omega_1,\omega_2,...,\omega_d,通過(guò)以下映射將n維樣本映射到d維。(原x_i被利用d次,新的x'_i的第d維就是x_i在第d個(gè)主成分\omega_d方向上的投影)
    x'_i= \left[ \begin{matrix} \omega_1^Tx_i \\ \omega_2^Tx_i \\ \vdots \\ \omega_d^Tx_i \end{matrix} \right]定義降維后的信息占比為(特征值平方和之比):
    \eta=\sqrt{\frac{\sum_{i=1}^d\lambda_i^2}{\sum_{i=1}^{n}\lambda_i^2}}
  1. PCA擴(kuò)展知識(shí):PCA是一種線(xiàn)性降維方法,雖然經(jīng)典但是又一定局限性,通過(guò)核映射對(duì)PCA進(jìn)行擴(kuò)展可以得到核主成分分析(KPCA),也可以通過(guò)流形映射的降維方法,比如等距映射、局部線(xiàn)性嵌入、拉普拉斯特征映射等,對(duì)一些PCA效果不好的復(fù)雜數(shù)據(jù)集進(jìn)行非線(xiàn)性降維操作。

2、PCA最小平方誤差理論

  1. 從回歸的角度定義PCA的目標(biāo)并求解:上一節(jié)求解得到一條直線(xiàn)使得樣本點(diǎn)投影到該直線(xiàn)上的方差最大,從求解直線(xiàn)的思路出發(fā),可以將問(wèn)題轉(zhuǎn)化為一個(gè)回歸問(wèn)題,最小化所有點(diǎn)到直線(xiàn)的距離平方之和。


    4-2 PCA最小化平方誤差思路

    經(jīng)過(guò)推導(dǎo)之后,發(fā)現(xiàn)從最小平方誤差的角度與最大方差角度殊途同歸,從不同的目標(biāo)函數(shù)出發(fā),都得到了相同的求解辦法。

3、線(xiàn)性判別分析

  1. 線(xiàn)性判別分析(Linear Discriminant Analysis,LDA)是一種有監(jiān)督學(xué)習(xí)算法(PCA是無(wú)監(jiān)督的),PCA沒(méi)有考慮數(shù)據(jù)的標(biāo)簽,只是把原數(shù)據(jù)映射到一些方差比較大的方向上而已,如下圖,如果用PCA降維,則會(huì)讓數(shù)據(jù)變的難以區(qū)分。


    4-3 PCA降維效果差.jpg
  2. 線(xiàn)性判別分析的中心思想:最大化類(lèi)間距離最小化類(lèi)內(nèi)距離。如下圖,如果只采用最大化兩類(lèi)投影中心距離的準(zhǔn)則,則會(huì)得到左圖(a)的結(jié)果,這樣兩類(lèi)樣本有一定的重疊,效果不好。所以在此基礎(chǔ)上還要加上最小化類(lèi)內(nèi)距離,如右圖(b)。

    4-3 LDA投影最大化目標(biāo).jpg

  3. 我們最大化的目標(biāo)函數(shù)定義為類(lèi)間距離和類(lèi)內(nèi)距離的比值。經(jīng)過(guò)公式推導(dǎo),我們得到投影方向是S_w^{-1}S_B最大的特征值對(duì)應(yīng)的特征向量。其中S_w是類(lèi)內(nèi)散度矩陣,S_w=\sum_{x\in C_i}(x-\mu_i)(x-\mu_i)^T;S_B為類(lèi)間散度矩陣S_B=(\mu_1-\mu_2)(\mu_1-\mu_2)^T。我們假設(shè)標(biāo)簽分兩類(lèi),后面第四節(jié)會(huì)講多標(biāo)簽的情況。所以這里兩類(lèi)的情況我們只需要求樣本的均值類(lèi)內(nèi)方差就可以馬上得出最佳投影方向\omega。

  4. LDA相比PCA更善于對(duì)有類(lèi)別信息的數(shù)據(jù)進(jìn)行降維處理,但它對(duì)數(shù)據(jù)的分布做了一些很強(qiáng)的假設(shè),例如:每個(gè)類(lèi)數(shù)據(jù)都是高斯分布、各個(gè)類(lèi)的協(xié)方差相等。盡管這些假設(shè)在實(shí)際中并不一定滿(mǎn)足,但它依然是一種非常有效的降維方法。

  5. LDA是一個(gè)線(xiàn)性模型,它對(duì)噪聲的魯棒性較好,但由于模型簡(jiǎn)單,表達(dá)能力有一定局限性,可以通過(guò)引入核函數(shù)擴(kuò)展LDA方法以處理分布較為復(fù)雜的數(shù)據(jù)。

4、線(xiàn)性判別分析與主成分分析

  1. LDA如何擴(kuò)展到高維:前面定義的S_w類(lèi)內(nèi)散度矩陣S_w=\sum_{x\in C_i}(x-\mu_i)(x-\mu_i)^T在類(lèi)別增加到N時(shí)仍然滿(mǎn)足定義;S_b為類(lèi)間散度矩陣S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^T只使用類(lèi)別數(shù)為2的情況,假如增加到3類(lèi),我們?nèi)∫粋€(gè)三個(gè)類(lèi)的中心點(diǎn)的平均\mu=\frac{1}{3}(\mu_1+\mu_2+\mu_3),用\mu表示三個(gè)中心的均值,也是全部樣本的中心。
    4-4 LDA多標(biāo)簽情況.jpg

    定義一個(gè)新的矩陣S_t來(lái)表示全局整體的散度,稱(chēng)為全局散度矩陣S_t=\sum_{i=1}^{n}(x_i-\mu)(x_i-\mu)^T,則S_b可以表示為S_t-S_w,即可像標(biāo)簽為兩類(lèi)的情況一樣,通過(guò)求解S_w^{-1}S_b矩陣的特征值得到最佳投影方向\omega。
  2. 高維LDA求解方法為:
  • 計(jì)算數(shù)據(jù)集中每個(gè)樣本的均值向量\mu_j,和總體均值向量\mu。
  • 計(jì)算類(lèi)內(nèi)散度矩陣S_w,全局散度矩陣S_t,并得到類(lèi)間散度矩陣S_b=S_t-S_w。
  • 對(duì)矩陣S_w^{-1}S_b進(jìn)行特征值分解,將特征值從大到小排列。
  • 取特征值前d大的對(duì)應(yīng)特征向量\omega_1,\omega_2,...,\omega_d,與PCA一樣,通過(guò)下列映射將n維樣本映射到d維。
    x'_i= \left[ \begin{matrix} \omega_1^Tx_i \\ \omega_2^Tx_i \\ \vdots \\ \omega_d^Tx_i \end{matrix} \right]
  1. PCA和LDA在應(yīng)用上的不同的舉例如下:
  • 語(yǔ)音識(shí)別領(lǐng)域中,從一段音頻中提取出人的語(yǔ)音信號(hào),可以用PCA降維,過(guò)濾掉一些固定頻率的背景噪聲。但是如果我們的需求是從這段音頻中區(qū)分出聲音屬于哪個(gè)人,則應(yīng)該用LDA降維,使每個(gè)人的語(yǔ)音信號(hào)具有區(qū)分性。
  • 人臉識(shí)別領(lǐng)域,基于PCA的人臉識(shí)別方法也成為特征臉(Eigenface),能保留最佳描述特征。如果想要達(dá)到更好的人臉識(shí)別效果,應(yīng)該用LDA方法對(duì)數(shù)據(jù)集進(jìn)行降維,使得不同人臉在投影后的特征具有一定區(qū)分性。
  1. PCA和LDA都是線(xiàn)性降維方法,對(duì)于非線(xiàn)性數(shù)據(jù),可以通過(guò)核映射方法對(duì)二者進(jìn)行擴(kuò)展得到更好的降維效果。

小節(jié)

這節(jié)相比前幾章來(lái)說(shuō),公式推導(dǎo)較多,但是我沒(méi)有寫(xiě)到這里來(lái),因?yàn)樘珣?。公式推?dǎo)基本是在講為什么我們要找的最佳投影方向是S_w^{-1}S_b的特征值。這節(jié)學(xué)習(xí)了兩種降維的方法,還是那句話(huà),非常易懂。

結(jié)尾

如果您發(fā)現(xiàn)我的文章有任何錯(cuò)誤,或?qū)ξ业奈恼掠惺裁春玫慕ㄗh,請(qǐng)聯(lián)系我!如果您喜歡我的文章,請(qǐng)點(diǎn)喜歡~*我是藍(lán)白絳,感謝你的閱讀!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容