金融信貸信用評分卡建模理論

什么是評分卡(信貸場景中)

以分數(shù)的形式來衡量風(fēng)險幾率的一種手段,對未來一段時間內(nèi)違約/逾期/失聯(lián)概率的預(yù)測

通常評分越高越安全;根據(jù)使用場景分為反欺詐評分卡、申請評分卡、行為評分卡、催收評分卡

為什么要開發(fā)評分卡?風(fēng)險控制的一個環(huán)節(jié),根據(jù)已有數(shù)據(jù)提供逾期概率指標(biāo)參考

評分卡的特性

穩(wěn)定性

預(yù)測能力

等價于逾期概率

評分卡開發(fā)的常用模型

邏輯回歸

決策樹

基于邏輯回歸的評分卡理論依據(jù)

一個事件發(fā)生的幾率(Odds),是指該事件發(fā)生的概率與該事件不發(fā)生概率的比值。若一個客戶違約概率為p,則其正常的概率為1-p,由此可得:


此時,客戶違約的概率p可以表示為:?


評分卡表達式為:?

其中A、B為常數(shù)。由于log函數(shù)在(0→+∞)單調(diào)遞增,所以當(dāng)用戶違約幾率Odds越大時,Score評分越低。

通過給定?

(1)某特定Odds時的Score值S0;?

(2)該特定Odds值翻倍時Score增加值PD0;?

通過給定值S0與PD0帶入評分卡表達式,可求得A、B。?

通過以上分析,求該用戶評分Score的問題則轉(zhuǎn)化為求用戶違約對數(shù)幾率log(Odds)的問題。?

依照二元邏輯回歸構(gòu)造預(yù)測函數(shù)

其中hθ(x)表示結(jié)果取1的概率。?

推倒可得該事件的對數(shù)幾率log(Odds)如下:?

可以發(fā)現(xiàn):在邏輯斯蒂回歸模型中,輸出Y=1的對數(shù)幾率是輸入條件x的線性函數(shù)。?

回到信貸業(yè)務(wù)中?

目標(biāo):尋找最理想的參數(shù)估計θ使得模型預(yù)測的概率相對已有樣本最準(zhǔn)確。?

方法:損失函數(shù)最小化求得θ?

邏輯回歸的損失函數(shù)為對數(shù)損失函數(shù)(具體可由極大似然估計推倒):?

變量篩選

單變量:歸一化,離散化,缺失值處理

多變量:降維,相關(guān)系數(shù),卡方檢驗,信息增益。決策樹等。

這里講一種行業(yè)經(jīng)常用的基于IV值進行篩選的方式。

首先引入概念和公式。

IV的全稱是Information Value,中文意思是信息價值,或者信息量。

求IV值得先求woe值,這里又引入woe的概念。

WOE的全稱是“Weight of Evidence”,即證據(jù)權(quán)重。首先,需要確定變量之間是否存在共線性,若存在高度相關(guān)性,只需保存最穩(wěn)定、預(yù)測能力最高的那個。需要通過 VIF(variance inflation factor)也就是 方差膨脹因子進行檢驗。

變量分為連續(xù)變量和分類變量。在評分卡建模中,變量分箱(binning)是對連續(xù)變量離散化(discretization)的一種稱呼。要將logistic模型轉(zhuǎn)換為標(biāo)準(zhǔn)評分卡的形式,這一環(huán)節(jié)是必須完成的。信用評分卡開發(fā)中一般有常用的等距分段、等深分段、最優(yōu)分段。

單因子分析,用來檢測各變量的預(yù)測強度,方法為WOE、IV;




分組一般原則

組間差異大

組內(nèi)差異小

每組占比不低于5%

必須有好、壞兩種分類

舉例說明

例如按年齡分組,一般進行分箱,我們都喜歡按照少年、青年、中年、老年幾大類進行分組,但效果真的不一定好:


根據(jù)IV值可以看出,預(yù)測能力低,建議重新調(diào)整分箱。

建立模型

先進行數(shù)據(jù)劃分,一般70%訓(xùn)練集、30%測試集。訓(xùn)練集用于訓(xùn)練模型,測試集用于檢測訓(xùn)練后的模型。

一般采用Logistic Regression建立模型,訓(xùn)練模型。將建好的模型對待測樣本進行預(yù)測。

評分卡

評分卡計算方法

odds為good用戶概率(p)與bad用戶概率(1-p)的比值。


分值分配

在實際的應(yīng)用中,我們會計算出每個變量的各分箱對應(yīng)的分值。新用戶產(chǎn)生時,對應(yīng)到每個分箱的值,將這些值相加,最后加上初始基礎(chǔ)分,得到最終的結(jié)果。

如果用戶某個變量發(fā)生改變,由一個分箱變成另一個,只需將更新后所在分箱的值做替換,再重新相加即可得到新的總分。

我們都知道,假設(shè)模型結(jié)果為p,根據(jù)Logistic Regression計算公式有:




以上步驟都完成后,假如新產(chǎn)生一個用戶,我們只需將此用戶每個變量對應(yīng)到各分箱中得到其對應(yīng)的WOE值,再根據(jù)上面的公式計算出這個樣本在每個變量下的分數(shù)。最后將所有變量對應(yīng)的分數(shù)相加,即為最終評分結(jié)果。

最后說一下,特征選擇方面,并不是維度越多越好。一個評分卡中,一般不超過15個維度??筛鶕?jù)Logistic Regression模型系數(shù)來確定每個變量的權(quán)重,保留權(quán)重高的變量。通過協(xié)方差計算的相關(guān)性大于0.7的變量一般只保留IV值最高的那一個。

參考資料:https://blog.csdn.net/sscc_learning/article/details/78591210

? ? ? ? ? ? ? ? ?https://blog.csdn.net/htbeker/article/details/79697557

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容