相關(guān)性分析

在我們進(jìn)行數(shù)據(jù)處理時(shí),相關(guān)性分析是我們最常使用的分析方法之一。相關(guān)性,即衡量二個(gè)特征或者兩個(gè)變量之間的關(guān)聯(lián)程度。兩個(gè)變量的相關(guān)關(guān)系意味著二者之間存在著某種數(shù)學(xué)關(guān)系。我們并不知道兩個(gè)變量之間是否存在著實(shí)際關(guān)系通常我們計(jì)算的是兩個(gè)特征的數(shù)組之間的相關(guān)系數(shù)。我們常用的相關(guān)性計(jì)算方法有哪些呢?

pearson相關(guān)系數(shù):

Pearson correlation coefficient:用于檢測(cè)兩個(gè)變量是否線性相關(guān),要求數(shù)據(jù)需來(lái)自于正態(tài)分布的總。相關(guān)系數(shù)在[-1,1]之間
ρ(X,Y)= \frac{cov(X,Y)}{\delta X \delta Y}=\frac{((E-\mu X)(Y-\mu Y))}{\delta X \delta Y}= \frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)} \sqrt{E(Y^2)-E^2(Y)}}
cov(X,Y)協(xié)方差 (δX*δY) 二者標(biāo)準(zhǔn)差的乘積。
常規(guī)相關(guān)等級(jí)如下:
r = 0 二者完全不相關(guān)
0<|r|<=0.3 弱相關(guān)
0.3<|r|<=0.5 中等相關(guān)
0.5<|r|<=0.8 顯著相關(guān)
0.8<|r|<=1 強(qiáng)相關(guān)
皮爾森相關(guān)系數(shù)適用范圍:
適用于服從正態(tài)分布的兩連續(xù)型變量,可繪制散點(diǎn)圖,發(fā)現(xiàn)有線性趨勢(shì)之后,進(jìn)而計(jì)算Pearson相關(guān)系數(shù),以此描述兩變量的線性相關(guān)性。

Spearman秩相關(guān)系數(shù)

Spearman 相關(guān)評(píng)估兩個(gè)連續(xù)或順序變量之間的單調(diào)關(guān)系。在單調(diào)關(guān)系中,變量?jī)A向于同時(shí)變化,但不一定以恒定的速率變化。Spearman 相關(guān)系數(shù)基于每個(gè)變量的秩值(而非原始數(shù)據(jù))。Spearman 相關(guān)通常用于評(píng)估與順序變量相關(guān)的關(guān)系。
r_s = 1 - \frac{6 \sum {d_{i}^{2}}} {n(n^2 -1)} \\ d_i = rg(X_i) -rg(Y_i) \\ n表示數(shù)據(jù)的數(shù)量,d_i 表示數(shù)據(jù)次序的差值
優(yōu)勢(shì):

  • 1、即便在變量值沒有變化的情況下,也不會(huì)出現(xiàn)像皮爾森系數(shù)那樣分母為0而無(wú)法計(jì)算的情況。
  • 2、 即使出現(xiàn)異常值,由于異常值的秩次通常不會(huì)有明顯的變化(比如過大或者過小,那要么排第一,要么排最后),所以對(duì)斯皮爾曼相關(guān)性系數(shù)的影響也非常小
  • 3、 斯皮爾曼相關(guān)性系數(shù)沒有那些數(shù)據(jù)條件要求,適用的范圍廣

肯德爾相關(guān)性系數(shù)

Kendall's tau-b(肯德爾)等級(jí)相關(guān)系數(shù):用于反映分類變量相關(guān)性的指標(biāo),適用于兩個(gè)分類變量均為有序分類的情況。對(duì)相關(guān)的有序變量進(jìn)行非參數(shù)相關(guān)檢驗(yàn);取值范圍在[-1,1]之間,此檢驗(yàn)適合于正方形表格。
kendall tau coefficent defined:
\tau = \frac{4P}{n(n-1)} -1
from MBA智庫(kù)-Kendall等級(jí)相關(guān)系數(shù)
使用試劑:肯德爾等級(jí)相關(guān)系數(shù)是用以反應(yīng)兩組變量之間關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。
(用的較少,后續(xù)再補(bǔ)充)
一般的都可以使用pearson和Spearman相關(guān)系數(shù)解決。

最大信息系數(shù)

進(jìn)行機(jī)器學(xué)習(xí)特征篩選時(shí),經(jīng)常使用到的方法就有最大互信息系數(shù)。
最大信息系數(shù)(MIC)于 2011 年提出,它是用于檢測(cè)變量之間非線性相關(guān)性的最新方法。用于進(jìn)行 MIC 計(jì)算的算法將信息論和概率的概念應(yīng)用于連續(xù)型數(shù)據(jù)。
MIC 能夠表示各種線性和非線性的關(guān)系,并已得到廣泛應(yīng)用。它的值域在 0 和 1 之間,值越高表示相關(guān)性越強(qiáng)。
見參考資料《最大信息系數(shù)》

更多的需要學(xué)習(xí)(任重而道遠(yuǎn)啊,。。。。。)


算法對(duì)比

參考資料

三大相關(guān)系數(shù)
斯皮爾曼相關(guān)系數(shù)
線性系數(shù),斯皮爾曼相關(guān)性系數(shù)計(jì)算及詳解
肯德爾等級(jí)相關(guān)系數(shù)
最大信息系數(shù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容