不同相關(guān)系數(shù)的使用場景:
皮爾森相關(guān)系數(shù)r:是建立在線性相關(guān)的基礎(chǔ)上,一般指直線,若是曲線則要求兩變量數(shù)據(jù)的間距相同或者數(shù)據(jù)取自于正態(tài)分布數(shù)據(jù)中,而且極值也會(huì)對(duì)系數(shù)產(chǎn)生影響,所以不是所有的關(guān)于數(shù)值的數(shù)據(jù)都可以用皮爾森相關(guān)系數(shù)來表示兩個(gè)變量的相關(guān)性,皮爾森相關(guān)系數(shù)的計(jì)算公式如下:

Spearman秩相關(guān)系數(shù):適用范圍較Pearson相關(guān)系數(shù)廣,經(jīng)常被稱為非參數(shù)相關(guān)系數(shù),不是衡量線性相關(guān)的,而是衡量秩序的相關(guān)性的。設(shè)有兩組序列X和Y,其秩序?yàn)镽(X)和R(Y),這里R(Xi)=k代表Xi是序列X中的第k大(或第k?。?,則SROCC(X, Y) = PLCC(R(X), R(Y)),其中PLCC是Pearson線性相關(guān)系數(shù)。SROCC被認(rèn)為是最好的非線性相關(guān)指標(biāo),這是因?yàn)?,SROCC只與序列中元素的排序有關(guān)。因此即使X或Y被任何單調(diào)非線性變換作用(如對(duì)數(shù)變換、指數(shù)變換),都不會(huì)對(duì)SROCC造成任何影響,因?yàn)椴粫?huì)影響元素的排序。也可以稱秩相關(guān)系數(shù)為單調(diào)性相關(guān),也就是只要在X和Y具有單調(diào)的函數(shù)關(guān)系的關(guān)系,那么X和Y就是完全Spearman相關(guān)的,這與Pearson相關(guān)性不同,后者只有在變量之間具有線性關(guān)系時(shí)才是完全相關(guān)的,其次,斯皮爾曼不需要先驗(yàn)知識(shí)(也就是說,知道其參數(shù))便可以準(zhǔn)確獲取XandY的采樣概率分布。計(jì)算公式如下:


Kendall(肯德爾)系數(shù):肯德爾系數(shù)是計(jì)算有序類別的相關(guān)系數(shù),n個(gè)同類的統(tǒng)計(jì)對(duì)象按特定屬性排序,其他屬性通常是亂序的。同序?qū)Γ?b>concordant pairs)和異序?qū)Γ?b>discordant pairs)之差與總對(duì)數(shù)(n*(n-1)/2)的比值定義為Kendall(肯德爾)系數(shù)。

熵和互信息:是知道一個(gè)變量對(duì)另一個(gè)變量不確定的減少程度,是對(duì)離散型數(shù)據(jù)的相關(guān)性計(jì)算,熵越大,表明兩者的相關(guān)性越強(qiáng),同時(shí)也可以使用卡方度量兩者之間的相關(guān)性和獨(dú)立性