最大信息系數(shù)詳解

1. 基本概念

假設(shè)有兩個一維數(shù)組X和Y,抽樣得到了n對樣本值(各有n個觀測值):

樣本均值和標準差:

皮爾森(積矩)相關(guān)系數(shù)(Pearson product-moment correlation coefficient):


皮爾遜相關(guān)系數(shù)也就是通常說的(線性)相關(guān)系數(shù),是一種線性相關(guān)系數(shù)。皮爾森相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計量。,一個介于 1 和 -1 之間的值,其中,1 表示變量完全正相關(guān), 0 表示線性無關(guān),-1 表示完全負相關(guān)。絕對值越大表示線性關(guān)系越強,但它不能度量線性關(guān)系的斜率以及非線性關(guān)系,當然也不能度量非函數(shù)關(guān)系。

斯皮爾曼相關(guān)系數(shù)(Spearman’s correlation coefficient for ranked data)

主要用于解決稱名數(shù)據(jù)和順序數(shù)據(jù)相關(guān)的問題。適用于兩列變量,而且具有等級變量性質(zhì)具有線性關(guān)系的資料。由英國心理學(xué)家、統(tǒng)計學(xué)家斯皮爾曼根據(jù)積差相關(guān)的概念推導(dǎo)而來,一些人把斯皮爾曼等級相關(guān)看做積差相關(guān)的特殊形式。若Y是X的嚴格單調(diào)遞減(增)函數(shù),則斯皮爾曼秩相關(guān)數(shù)是-1 (+1).

把X中的n個數(shù)從小到大排列,若Xi排在了第Ai個位置,則Xi的秩次為Ai,從而可得X所對應(yīng)的秩次向量A,同理可得Y的所對應(yīng)的秩次向量B:



A和B之間的皮爾遜相關(guān)數(shù)就是X與Y之間的斯皮爾曼相關(guān)系數(shù)

可決系數(shù)(coefficient of determination):

可決系數(shù),是指回歸平方和(SSR)在總變差(SST)中所占的比重??蓻Q系數(shù)可以作為綜合度量回歸模型對樣本觀測值擬合優(yōu)度的度量指標。

設(shè)Yi 是觀測值,fi 是線性回歸對應(yīng)的預(yù)測值( fi(X1, X2, ......, Xn) ),則,


R2是擬合優(yōu)度(Goodness of Fit)的一個統(tǒng)計量, 是指回歸直線對觀測值的擬合程度。R2越接近1,說明回歸直線對觀測值的擬合程度越好(在總變差中,由模型作出了解釋的部分占的比重越大);反之,R2越接近0,說明回歸直線對觀測值的擬合程度越差(在總變差中,由模型作出了解釋的部分占的比重越小)。

自信息量(self-information, information content, Quantities of information, amount of information):

假設(shè)X和Y中都只有s個不同的值,即都只有s個基本事件,從而可以根據(jù)樣本來求出這s個基本事件的頻率,用來當作概率。



這里以2為低,單位是bit;若以10為低,單位是Hartley;若以e為低,單位是nat。 信息量只表示隨機性的減少程度,xi發(fā)生的概率越小, 當xi真的發(fā)生以后,提供的信息量就越大。 從而有:



從而,必然事件發(fā)生以后,信息量為0. 不可能事件發(fā)生以后,信息量為無窮大。

最大信息系數(shù)

用于衡量兩個變量X和Y的線性或非線性的強度。

from minepy import MINE
import numpy as np

np.random.seed(0)
size = 1000
X = np.random.uniform(0, 2, (size, 5))
Y = X[:, 1] + X[:, 2] ** 2 + np.sin(np.pi * 0.5 * X[:, 3]) + \
    np.log(X[:, 4]) + np.random.normal(0, 1)
X[:, 0] = X[:, 1] + np.random.normal(0, 1)

mine = MINE()
mic_scores = []
for i in range(X.shape[1]):
    mine.compute_score(X[:, i], Y)
    m = mine.mic()
    mic_scores.append(m)

print(mic_scores)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容