第4章 預(yù)測力指標(biāo)
這個部分主要是評判自變量與因變量之間,自變量之間的預(yù)測能力。這里明確相關(guān)性和關(guān)聯(lián)性的一些細微區(qū)別,相關(guān)性在統(tǒng)計學(xué)上更多表示是變量之間的線性關(guān)系,而關(guān)聯(lián)性則不一定。前者更多是連續(xù)型變量與連續(xù)型變量,或者順序變量與連續(xù)型變量的關(guān)系。
之所以要衡量自變量間的相關(guān)性,主要有兩個原因:
- 自變量之間有強相關(guān)性是邏輯回歸模型本身不允許的,加入具有強共線性的自變量會導(dǎo)致模型本身不穩(wěn)定。
- 自變量具有相關(guān)性,說明有一些變量是重復(fù)的,或者說是包含的信息可以用更少的變量個數(shù)表達出來,這個時候可以用PCA主成分分析或者因子分析找出決定數(shù)據(jù)方差的最少自變量。
一般來說會有一個大的自變量的集合,這些是有關(guān)客戶的所有的有關(guān)變量,而特征工程最終就是要篩選出一個預(yù)測力最強的自變量的最優(yōu)子集。因此需要剔除掉那些與用戶「正常/逾期」這個因變量預(yù)測力不夠的變量。

符號
兩個連續(xù)變量
皮爾遜相關(guān)系數(shù)和斯皮爾相關(guān)系數(shù)
兩個分類變量
列聯(lián)表計算各個類別的頻率

其中
分類變量和連續(xù)變量
對于分類變量X的每個類別,列出該類別下的y的所有值。

計算以下幾個指標(biāo):
每一行的總和,也就是x的每個類別的總和
第i行的平均值為,其中
為變量
該類別下的觀測值個數(shù)。
總的y和為
變量y的總體平均值為
根據(jù)總體平均值定義離差的平方和
定義行均平方差之和
總體平均值定義類別平均值的離差平方的加權(quán)總和:
行均的y的值離差平方的總和為:
最后兩個和的均值為
皮爾遜相關(guān)系數(shù)
跟協(xié)方差進行比較
給定兩個連續(xù)的變量x和y,皮爾遜相關(guān)系數(shù)的計算方式如下:
可以看作是自變量進行去中心化后的結(jié)果,也就是把中心移動到了原點。
皮爾遜相關(guān)系數(shù)可以理解成向量和
這兩個向量的余弦值,根據(jù)空間幾何我們知道,兩個向量越相近,夾角越小,余弦值越大,如果完全共線就是1,如果完全不相關(guān)就是夾角為90°,也就是余弦值為0。

從另外一個角度看,皮爾遜相關(guān)系數(shù)的分子部分可以看成是去中心化后,x和y的乘積之和,反映出x和y的差異大小和方向,為正代表同方向變化,為負代表相反方向變化。
而分母相當(dāng)于是對分子的值進行標(biāo)準(zhǔn)化的操作。

異常值對皮爾遜相關(guān)性系數(shù)影響很大,從上圖可以看到value1和value2是相同的值,黃色圈圈是異常值,只要出現(xiàn)異常值,那么原本的相關(guān)性會從1降低到了0.72.
斯皮爾曼相關(guān)系數(shù)
斯皮爾曼相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)唯一的區(qū)別就是,斯皮爾曼相關(guān)系數(shù)是以變量所處的等級來代替具體的變量值。
其中,和
分別是第i個觀測值的從小到大排序的等級,比如34,31和32,等級分別是3,1和2。
和
分別是兩個變量的等級的平均值。
相對于皮爾遜相關(guān)系數(shù),斯皮爾曼相關(guān)系數(shù)對極端值不敏感。
皮爾森卡方統(tǒng)計量
皮爾森卡方統(tǒng)計量表示為,用來計算分類變量和分類變量的關(guān)聯(lián)性。其計算根據(jù)列聯(lián)表4.3得出。

我們先計算出預(yù)期的單元數(shù)
,這個代表第i行第j列的預(yù)期單元數(shù)
則皮爾森卡方統(tǒng)計量的表達式如下:
是滿足自由度為
的卡方分布,也就是
,其中
是滿足卡方分布的累積分布概率函數(shù)。而兩組變量獨立的概率為
當(dāng)i行,j列的單元數(shù)等于該預(yù)期單元數(shù),也就是的時候,
,對應(yīng)的
為0,獨立的概率為1。

F檢驗
F檢驗是衡量連續(xù)型變量x和連續(xù)型變量y之間的關(guān)聯(lián)程度,該檢驗通過計算來實現(xiàn)。
也就是
代表x和y關(guān)聯(lián)性強度的大小,越大說明關(guān)聯(lián)程度越強。一般通過回歸方程計算出
和
后計算
。
信息值
woe化后,某個變量
