第4章預(yù)測力指標(biāo)

這個部分主要是評判自變量與因變量之間，自變量之間的預(yù)測能力。這里明確相關(guān)性和關(guān)聯(lián)性的一些細微區(qū)別，相關(guān)性在統(tǒng)計學(xué)上更多表示是變量之間的線性關(guān)系，而關(guān)聯(lián)性則不一定。前者更多是連續(xù)型變量與連續(xù)型變量，或者順序變量與連續(xù)型變量的關(guān)系。

之所以要衡量自變量間的相關(guān)性，主要有兩個原因：

自變量之間有強相關(guān)性是邏輯回歸模型本身不允許的，加入具有強共線性的自變量會導(dǎo)致模型本身不穩(wěn)定。
自變量具有相關(guān)性，說明有一些變量是重復(fù)的，或者說是包含的信息可以用更少的變量個數(shù)表達出來，這個時候可以用PCA主成分分析或者因子分析找出決定數(shù)據(jù)方差的最少自變量。

一般來說會有一個大的自變量的集合，這些是有關(guān)客戶的所有的有關(guān)變量，而特征工程最終就是要篩選出一個預(yù)測力最強的自變量的最優(yōu)子集。因此需要剔除掉那些與用戶「正常/逾期」這個因變量預(yù)測力不夠的變量。

image-20200201121656054

符號

兩個連續(xù)變量

皮爾遜相關(guān)系數(shù)和斯皮爾相關(guān)系數(shù)

兩個分類變量

列聯(lián)表計算各個類別的頻率

image-20200201122123831

其中 $N=\sum_{i=1}^r\sum_{j=1}^cn_{ij}$

分類變量和連續(xù)變量

對于分類變量X的每個類別，列出該類別下的y的所有值。

image-20200201122750763

計算以下幾個指標(biāo)：

每一行的總和，也就是x的每個類別的總和

$y_i=\sum_{j=1}^ry_{ij}$

第i行的平均值為 $\bar{y_{i}}=\frac{y_i}{n_i}$ ，其中 $n_i$ 為變量 $X$ 該類別下的觀測值個數(shù)。

總的y和為

$y=\sum^{c}_{j=1}\sum^{r}_{i=1}y_{ij}$

變量y的總體平均值為 $\bar{y}=\frac{y}{n}$

根據(jù)總體平均值定義離差的平方和

$STD=\sum_{i=1}^{r}(\sum_{j=1}^{n_i}(y_{ij}-\bar{y})^2)$

定義行均平方差之和

總體平均值定義類別平均值的離差平方的加權(quán)總和：

$SSTR=\sum_{i=1}^{r}n_i(\bar{y_i}-\bar{y})^2$

行均的y的值離差平方的總和為：

$SSE=\sum_{i=1}^{r}\sum_{j=1}^{n_i}(y_{ij}-\bar{y_i})$

最后兩個和的均值為

$MSTR=\frac{SSTR}{r-1}$

$MSE=\frac{SSE}{N-r}$

皮爾遜相關(guān)系數(shù)

跟協(xié)方差進行比較

給定兩個連續(xù)的變量x和y，皮爾遜相關(guān)系數(shù)的計算方式如下：

$\rho=\frac{\sum^{N}_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{[\sum_{i=1}^{N}(x_i-\bar{x})^2\sum_{i=1}^{N}(y_i-\bar{y})^2]^{\frac{1}{2}}}$

$x_i-\bar{x}$ 可以看作是自變量進行去中心化后的結(jié)果，也就是把中心移動到了原點。

皮爾遜相關(guān)系數(shù)可以理解成向量 $[x_1,x_2,x_3,x_4,x_5……, x_N]$ 和 $[y_1,y_2,y_3,y_4,y_5……, y_N]$ 這兩個向量的余弦值，根據(jù)空間幾何我們知道，兩個向量越相近，夾角越小，余弦值越大，如果完全共線就是1，如果完全不相關(guān)就是夾角為90°，也就是余弦值為0。

image-20200201140117459

從另外一個角度看，皮爾遜相關(guān)系數(shù)的分子部分可以看成是去中心化后，x和y的乘積之和，反映出x和y的差異大小和方向，為正代表同方向變化，為負代表相反方向變化。

而分母相當(dāng)于是對分子的值進行標(biāo)準(zhǔn)化的操作。

image-20200201140757035

異常值對皮爾遜相關(guān)性系數(shù)影響很大，從上圖可以看到value1和value2是相同的值，黃色圈圈是異常值，只要出現(xiàn)異常值，那么原本的相關(guān)性會從1降低到了0.72.

斯皮爾曼相關(guān)系數(shù)

斯皮爾曼相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)唯一的區(qū)別就是，斯皮爾曼相關(guān)系數(shù)是以變量所處的等級來代替具體的變量值。

$\rho=\frac{\sum^{N}_{i=1}(R_i-\bar{R})(S_i-\bar{S})}{[\sum_{i=1}^{N}(R_i-\bar{R})^2\sum_{i=1}^{N}(S_i-\bar{S})^2]^{\frac{1}{2}}}$

其中， $R_i$ 和 $S_i$ 分別是第i個觀測值的從小到大排序的等級，比如34，31和32，等級分別是3，1和2。

$\bar{R}$ 和 $\bar{S}$ 分別是兩個變量的等級的平均值。

相對于皮爾遜相關(guān)系數(shù)，斯皮爾曼相關(guān)系數(shù)對極端值不敏感。

皮爾森卡方統(tǒng)計量

皮爾森卡方統(tǒng)計量表示為 $X^2$ ，用來計算分類變量和分類變量的關(guān)聯(lián)性。其計算根據(jù)列聯(lián)表4.3得出。

image-20200201122123831

我們先計算出預(yù)期的單元數(shù)

$\mu_{ij}=\frac{n_i\times n_j}{M}$ ，這個代表第i行第j列的預(yù)期單元數(shù)

則皮爾森卡方統(tǒng)計量的表達式如下：

$X^2=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(n_{ij}-\mu_{ij})^2}{\mu_{ij}}$

$\chi^2$ 是滿足自由度為 $df=(r-1)(c-1)$ 的卡方分布，也就是 $\chi^2(X^2,(r-1)(c-1))$ ，其中 $\chi^2$ 是滿足卡方分布的累積分布概率函數(shù)。而兩組變量獨立的概率為 $P_r(independence)=1-\chi^2(X^2,df)$