相關(guān)性分析`correlation`

作者@ weanl
創(chuàng)建于 2018-12-13T14:20:00

1. Pearson correlation coefficient & p-value

1.1 理論分析:

??Pearson Correlation Coefficient, PCC 被稱作線性相關(guān)系數(shù),可以衡量兩個服從正態(tài)分布的隨機(jī)變量XY 的線性相關(guān)性。其實就是統(tǒng)計學(xué)中的相關(guān)系數(shù)。
給出協(xié)方差的計算公式:

cov(X,Y) = \mathbb E((X-\mu_1)(Y-\mu_2)) = \mathbb E(XY) - \mu_1\mu_2 \tag{1-1}
其中 \mu_1 = \mathbb E(X), \mu_2 = \mathbb E(Y)稱為分布的均值。實際上 XY 相互獨立(P(X, Y)=P(X)P(Y)),則 \mathbb E(XY) = \mathbb E(X) \mathbb E(Y) ,所以 cov(X,Y)=0 ,反之并不成立。

給出 PCC 的計算公式:
cor_{pearson}(X,Y) = \frac {cov(X,Y)} {\sqrt{\mathbb D(X) \mathbb D(Y) }} \tag{1-2}
其中 \mathbb D(X) = \mathbb E[(X-\mu_1)^2]=\mathbb E[X^2]-\mu_1^2, \mathbb D(Y) = \mathbb E[(Y-\mu_2)^2]=\mathbb E[Y^2]-\mu_2^2 稱為分布的方差。

在隨機(jī)變量觀測為X \approx \{ x_1, x_2,...,x_n\}, Y \approx \{ y_1, y_2, ..., y_n\}時,PCC 的估計計算公式:

\hat {cor_{pearson}(X,Y)} = \frac {\sum_{i=1}^{n} (x_i - \overline{x}) (y_i - \overline{y})} {\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \tag{1-3}

(式1-3 可以做其他的變形,另外這里分布方差的估計選的是有偏估計) (根據(jù)Cauchy–Schwarz inequality可知值域為[-1,1]) (如果數(shù)據(jù)進(jìn)行了中心化處理,即\overline{x}=0, \overline{y}=0,PCC與余弦相似度"等價")

??1.2 應(yīng)用總結(jié):

??1.3 附加:
{ scipy 源碼:scipy.stats.pearsonr }

def pearsonr(x, y):
   # x and y should have same length.
    x = np.asarray(x)
    y = np.asarray(y)
    n = len(x)
    mx = x.mean()
    my = y.mean()
    xm, ym = x-mx, y-my
    r_num = np.add.reduce(xm * ym)
    r_den = np.sqrt(ss(xm) * ss(ym))
    r = r_num / r_den

    # Presumably, if abs(r) > 1, then it is only some small artifact of floating
    # point arithmetic.
    r = max(min(r, 1.0), -1.0)
    df = n-2
    if abs(r) == 1.0:
        prob = 0.0
    else:
        t_squared = r*r * (df / ((1.0 - r) * (1.0 + r)))
        prob = betai(0.5*df, 0.5, df / (df + t_squared))
    return r, prob

(好好看一下源碼 ^ _ ^ )

2. Spearman's rank correlation coefficient & p-value

??scipy.stats.spearmanr

ch2 序列相關(guān)性分析

-1. 參考材料


且聽下回分解

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容