信用評分卡研究第4章 預(yù)測力指標(biāo)

第4章 預(yù)測力指標(biāo)

這個部分主要是評判自變量與因變量之間,自變量之間的預(yù)測能力。這里明確相關(guān)性和關(guān)聯(lián)性的一些細微區(qū)別,相關(guān)性在統(tǒng)計學(xué)上更多表示是變量之間的線性關(guān)系,而關(guān)聯(lián)性則不一定。前者更多是連續(xù)型變量與連續(xù)型變量,或者順序變量與連續(xù)型變量的關(guān)系。

之所以要衡量自變量間的相關(guān)性,主要有兩個原因:

  1. 自變量之間有強相關(guān)性是邏輯回歸模型本身不允許的,加入具有強共線性的自變量會導(dǎo)致模型本身不穩(wěn)定。
  2. 自變量具有相關(guān)性,說明有一些變量是重復(fù)的,或者說是包含的信息可以用更少的變量個數(shù)表達出來,這個時候可以用PCA主成分分析或者因子分析找出決定數(shù)據(jù)方差的最少自變量。

一般來說會有一個大的自變量的集合,這些是有關(guān)客戶的所有的有關(guān)變量,而特征工程最終就是要篩選出一個預(yù)測力最強的自變量的最優(yōu)子集。因此需要剔除掉那些與用戶「正常/逾期」這個因變量預(yù)測力不夠的變量。

image-20200201121656054

符號

兩個連續(xù)變量

皮爾遜相關(guān)系數(shù)和斯皮爾相關(guān)系數(shù)

兩個分類變量

列聯(lián)表計算各個類別的頻率

image-20200201122123831

其中N=\sum_{i=1}^r\sum_{j=1}^cn_{ij}

分類變量和連續(xù)變量

對于分類變量X的每個類別,列出該類別下的y的所有值。

image-20200201122750763

計算以下幾個指標(biāo):

每一行的總和,也就是x的每個類別的總和

y_i=\sum_{j=1}^ry_{ij}

第i行的平均值為\bar{y_{i}}=\frac{y_i}{n_i},其中n_i為變量X該類別下的觀測值個數(shù)。

總的y和為

y=\sum^{c}_{j=1}\sum^{r}_{i=1}y_{ij}

變量y的總體平均值為\bar{y}=\frac{y}{n}

根據(jù)總體平均值定義離差的平方和

STD=\sum_{i=1}^{r}(\sum_{j=1}^{n_i}(y_{ij}-\bar{y})^2)

定義行均平方差之和

總體平均值定義類別平均值的離差平方的加權(quán)總和:

SSTR=\sum_{i=1}^{r}n_i(\bar{y_i}-\bar{y})^2

行均的y的值離差平方的總和為:

SSE=\sum_{i=1}^{r}\sum_{j=1}^{n_i}(y_{ij}-\bar{y_i})

最后兩個和的均值為

MSTR=\frac{SSTR}{r-1}

MSE=\frac{SSE}{N-r}

皮爾遜相關(guān)系數(shù)

跟協(xié)方差進行比較

給定兩個連續(xù)的變量x和y,皮爾遜相關(guān)系數(shù)的計算方式如下:

\rho=\frac{\sum^{N}_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{[\sum_{i=1}^{N}(x_i-\bar{x})^2\sum_{i=1}^{N}(y_i-\bar{y})^2]^{\frac{1}{2}}}

x_i-\bar{x}可以看作是自變量進行去中心化后的結(jié)果,也就是把中心移動到了原點。

皮爾遜相關(guān)系數(shù)可以理解成向量[x_1,x_2,x_3,x_4,x_5……, x_N][y_1,y_2,y_3,y_4,y_5……, y_N]這兩個向量的余弦值,根據(jù)空間幾何我們知道,兩個向量越相近,夾角越小,余弦值越大,如果完全共線就是1,如果完全不相關(guān)就是夾角為90°,也就是余弦值為0。

image-20200201140117459

從另外一個角度看,皮爾遜相關(guān)系數(shù)的分子部分可以看成是去中心化后,x和y的乘積之和,反映出x和y的差異大小和方向,為正代表同方向變化,為負代表相反方向變化。

而分母相當(dāng)于是對分子的值進行標(biāo)準(zhǔn)化的操作。

image-20200201140757035

異常值對皮爾遜相關(guān)性系數(shù)影響很大,從上圖可以看到value1和value2是相同的值,黃色圈圈是異常值,只要出現(xiàn)異常值,那么原本的相關(guān)性會從1降低到了0.72.

斯皮爾曼相關(guān)系數(shù)

斯皮爾曼相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)唯一的區(qū)別就是,斯皮爾曼相關(guān)系數(shù)是以變量所處的等級來代替具體的變量值。

\rho=\frac{\sum^{N}_{i=1}(R_i-\bar{R})(S_i-\bar{S})}{[\sum_{i=1}^{N}(R_i-\bar{R})^2\sum_{i=1}^{N}(S_i-\bar{S})^2]^{\frac{1}{2}}}

其中,R_iS_i分別是第i個觀測值的從小到大排序的等級,比如34,31和32,等級分別是3,1和2。

\bar{R}\bar{S}分別是兩個變量的等級的平均值。

相對于皮爾遜相關(guān)系數(shù),斯皮爾曼相關(guān)系數(shù)對極端值不敏感。

皮爾森卡方統(tǒng)計量

皮爾森卡方統(tǒng)計量表示為X^2,用來計算分類變量和分類變量的關(guān)聯(lián)性。其計算根據(jù)列聯(lián)表4.3得出。

image-20200201122123831

我們先計算出預(yù)期的單元數(shù)

\mu_{ij}=\frac{n_i\times n_j}{M},這個代表第i行第j列的預(yù)期單元數(shù)

則皮爾森卡方統(tǒng)計量的表達式如下:

X^2=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(n_{ij}-\mu_{ij})^2}{\mu_{ij}}

\chi^2是滿足自由度為df=(r-1)(c-1)的卡方分布,也就是\chi^2(X^2,(r-1)(c-1)),其中\chi^2是滿足卡方分布的累積分布概率函數(shù)。而兩組變量獨立的概率為P_r(independence)=1-\chi^2(X^2,df)

當(dāng)i行,j列的單元數(shù)等于該預(yù)期單元數(shù),也就是n_{ij}=\mu_{ij}的時候,X^2=1,對應(yīng)的\chi^2(X^2,df)為0,獨立的概率為1。

image-20200201150303558

F檢驗

F檢驗是衡量連續(xù)型變量x和連續(xù)型變量y之間的關(guān)聯(lián)程度,該檢驗通過計算F^*來實現(xiàn)。

也就是

F^*=\frac{MSTR}{MSE}

F^*代表x和y關(guān)聯(lián)性強度的大小,越大說明關(guān)聯(lián)程度越強。一般通過回歸方程計算出MSTRMSE后計算F^*。

信息值

woe化后,某個變量

IV=\sum_{i=1}^{N}(p_{0i}-p_{1i})ln(\frac{p_{0i}}{p_{1i}})

image-20200201152206076
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 《R語言實戰(zhàn)》筆記系列 本章學(xué)習(xí)大綱 1.描述性統(tǒng)計分析 2.頻數(shù)表和列聯(lián)表 3.相關(guān)系數(shù)和協(xié)方差 4.t檢驗 5...
    一日如十年閱讀 1,546評論 0 1
  • Chapter1 什么是統(tǒng)計學(xué)(statistics)?統(tǒng)計學(xué)是描述一系列可用于描述/整理/解釋資料或數(shù)據(jù)的統(tǒng)計工...
    芒果芭樂閱讀 5,843評論 0 18
  • 1. 簡述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究兩個或兩個以上變量之間關(guān)系的方法。 廣義上說...
    安也也閱讀 9,164評論 0 3
  • 來源: http://www.douban.com/group/topic/14820131/ 調(diào)整變量格式: f...
    MC1229閱讀 7,135評論 0 5
  • 原文 簡介:什么是相關(guān)性以及它為何有用? 相關(guān)性是使用最廣泛的一個-和 廣泛的誤解- 統(tǒng)計概念。在本概述中,我們...
    榴蓮氣象閱讀 1,230評論 0 0

友情鏈接更多精彩內(nèi)容