【Scikit-Learn 中文文檔】線性和二次判別分析 - 監(jiān)督學(xué)習(xí) - 用戶指南 | ApacheCN

中文文檔:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文檔:http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文檔:http://scikit-learn.org/0.19/

GitHub:https://github.com/apachecn/scikit-learn-doc-zh(覺(jué)得不錯(cuò)麻煩給個(gè) Star,我們一直在努力)

貢獻(xiàn)者:https://github.com/apachecn/scikit-learn-doc-zh#貢獻(xiàn)者

1.2. 線性和二次判別分析

Linear Discriminant Analysis(線性判別分析)(discriminant_analysis.LinearDiscriminantAnalysis) 和 Quadratic Discriminant Analysis (二次判別分析)(discriminant_analysis.QuadraticDiscriminantAnalysis) 是兩個(gè)經(jīng)典的分類器。 正如他們名字所描述的那樣,他們分別代表了線性決策平面和二次決策平面。

這些分類器十分具有魅力,因?yàn)樗麄兛梢院苋菀子?jì)算得到閉式解,其天生的多分類特性,在實(shí)踐中已經(jīng)證明很有效,并且不需要再次調(diào)參。

以上這些圖像展示了 Linear Discriminant Analysis (線性判別分析)以及 Quadratic Discriminant Analysis (二次判別分析)的決策邊界。其中,最底行闡述了線性判別分析只能學(xué)習(xí)線性邊界, 而二次判別分析則可以學(xué)習(xí)二次函數(shù)的邊界,因此它相對(duì)而言更加靈活。

示例:

Linear and Quadratic Discriminant Analysis with covariance ellipsoid: LDA和QDA在特定數(shù)據(jù)上的對(duì)比

1.2.1. 使用線性判別分析來(lái)降維

discriminant_analysis.LinearDiscriminantAnalysis可以通過(guò)給予包含了最大化不同類別間距的方向的線性子空間(subspace)投放輸入數(shù)據(jù), 從而用來(lái)執(zhí)行監(jiān)督下的降維。輸出的維度必然會(huì)比原來(lái)的類別數(shù)量更少的。因此它是總體而言十分強(qiáng)大的降維方式,同樣也僅僅在多分類環(huán)境下才會(huì)起作用。

實(shí)現(xiàn)方式在discriminant_analysis.LinearDiscriminantAnalysis.transform中.關(guān)于維度的數(shù)量可以通過(guò)n_components參數(shù)來(lái)調(diào)節(jié) . 值得注意的是,這個(gè)參數(shù)不會(huì)對(duì)discriminant_analysis.LinearDiscriminantAnalysis.fit或者discriminant_analysis.LinearDiscriminantAnalysis.predict產(chǎn)生影響.

示例:

Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 數(shù)據(jù)集對(duì)比 LDA 和 PCA 之間的降維差異

1.2.2. LDA 和 QDA 分類器的數(shù)學(xué)公式

LDA 和 QDA 都是源于簡(jiǎn)單的概率模型,這些模型對(duì)于每一個(gè)類別

的相關(guān)分布

都可以通過(guò)貝葉斯定理所獲得。

并且我們選擇能夠最大化條件概率的類別

.

更詳細(xì)地,對(duì)于線性以及二次判別分析,

被塑造成一個(gè)多變量的高斯分布密度:

為了使用該模型作為分類器使用,我們需要通過(guò)訓(xùn)練集數(shù)據(jù)預(yù)測(cè)更重要的類別

(通過(guò)每個(gè)類

的實(shí)例的概率預(yù)測(cè)) 類別均值

(用經(jīng)驗(yàn)的樣本類別均值)以及協(xié)方差矩陣(過(guò)用經(jīng)驗(yàn)的樣本類別協(xié)方差或者正則化的估計(jì)器estimator: 見(jiàn)下面的 shrinkage章節(jié)).

在 LDA 中,每個(gè)類別

的高斯分布共享相同的協(xié)方差矩陣:

for all

??梢詭?lái)線性的 決策平面, 正如所見(jiàn), 通過(guò)比較log似然比

。

對(duì)于 QDA 而言,沒(méi)有關(guān)于高斯協(xié)方差矩陣

的假設(shè),因此帶來(lái)二次決策平面. 更多細(xì)節(jié)見(jiàn)[3].

Note

與高斯樸素貝葉斯的關(guān)系

如果在QDA模型中假設(shè)協(xié)方差矩陣是對(duì)角的,那么在每個(gè)類別中的輸入數(shù)據(jù)則被假定是相關(guān)依賴的。 而且結(jié)果分類器會(huì)和高斯樸素貝葉斯分類器naive_bayes.GaussianNB相同。

1.2.3. LDA 的降維數(shù)學(xué)公式

為了理解 LDA 在降維上的應(yīng)用,它對(duì)于進(jìn)行 LDA 分類的幾何重構(gòu)是十分有用的。我們用

表示目標(biāo)類別的總數(shù)。 由于在 LDA 中我們假設(shè)所有類別都有相同預(yù)測(cè)的協(xié)方差

,我們可重新調(diào)節(jié)數(shù)據(jù)從而讓讓協(xié)方差相同。

在縮放后可以分類數(shù)據(jù)點(diǎn)和找到離數(shù)據(jù)點(diǎn)最近的歐式距離相同的預(yù)測(cè)類別均值。但是它可以在投影到

個(gè)由所有

個(gè)類生成的仿射子空間

之后被完成。這也表明,LDA 分類器中存在一個(gè)利用線性投影到

個(gè)維度空間的降維工具。

我們可以通過(guò)投影到可以最大化

的方差的線性子空間

以更多地減少維度,直到一個(gè)選定的

值 (實(shí)際上,我們正在做一個(gè)類 PCA 的形式為了實(shí)現(xiàn)轉(zhuǎn)換類均值

discriminant_analysis.LinearDiscriminantAnalysis.transform方法. 詳情參考[3]。

1.2.4. Shrinkage(收縮)

收縮是一個(gè)在訓(xùn)練樣本數(shù)量相比特征而言很小的情況下可以提升預(yù)測(cè)(準(zhǔn)確性)的協(xié)方差矩陣。 在這個(gè)情況下,經(jīng)驗(yàn)樣本協(xié)方差是一個(gè)很差的預(yù)測(cè)器。LDA 收縮可以通過(guò)設(shè)置discriminant_analysis.LinearDiscriminantAnalysis類的shrinkage參數(shù)為 ‘a(chǎn)uto’ 以得到應(yīng)用。

shrinkageparameter (收縮參數(shù))的值同樣也可以手動(dòng)被設(shè)置為 0-1 之間。特別地,0 值對(duì)應(yīng)著沒(méi)有收縮(這意味著經(jīng)驗(yàn)協(xié)方差矩陣將會(huì)被使用), 而 1 值則對(duì)應(yīng)著完全使用收縮(意味著方差的對(duì)角矩陣將被當(dāng)作協(xié)方差矩陣的估計(jì))。設(shè)置該參數(shù)在兩個(gè)極端值之間會(huì)估計(jì)一個(gè)(特定的)協(xié)方差矩陣的收縮形式

1.2.5. 預(yù)估算法

默認(rèn)的 solver 是 ‘svd’。它可以進(jìn)行classification (分類) 以及 transform (轉(zhuǎn)換),而且它不會(huì)依賴于協(xié)方差矩陣的計(jì)算(結(jié)果)。這在特征數(shù)量特別大的時(shí)候就顯得十分具有優(yōu)勢(shì)。然而,’svd’ solver 無(wú)法與 shrinkage (收縮)同時(shí)使用。

‘lsqr’ solver 則是一個(gè)高效的算法,它僅僅只能用于分類使用,而且它支持 shrinkage (收縮)。

‘eigen’(特征) solver 是基于 class scatter (類散度)與 class scatter ratio (類內(nèi)離散率)之間的優(yōu)化。 它既可以被用于classification (分類)以及 transform (轉(zhuǎn)換),此外它還同時(shí)支持收縮。然而,該解決方案需要計(jì)算協(xié)方差矩陣,因此它可能不適用于具有大量特征的情況。

Examples:

Normal and Shrinkage Linear Discriminant Analysis for classification: Comparison of LDA classifiers with and without shrinkage.

References:

[3](1,2)“The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.

[4]Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.

中文文檔:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文檔:http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文檔:http://scikit-learn.org/0.19/

GitHub:https://github.com/apachecn/scikit-learn-doc-zh(覺(jué)得不錯(cuò)麻煩給個(gè) Star,我們一直在努力)

貢獻(xiàn)者:https://github.com/apachecn/scikit-learn-doc-zh#貢獻(xiàn)者

有興趣的大佬們也可以和我們一起來(lái)維護(hù),持續(xù)更新中 。。。

機(jī)器學(xué)習(xí)交流群:?629470233

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容