消費信貸評分建模與應(yīng)用_建模部分

評分模型的開發(fā)

步驟1 確定評分目的

步驟2 基本定義

觀察期與績效期

觀察期一般是指預(yù)測變量的歷史時間間隔,一般過長的話會沒有辦法反映出逾期的標(biāo)簽;如果過短的話會不太穩(wěn)定,一般以6-12個月為觀察期。

績效期又叫表現(xiàn)期,也就是準(zhǔn)備預(yù)測客戶出現(xiàn)違約概率的時間長度,根據(jù)產(chǎn)品和客群的不同,通常預(yù)測時間長度為12-24個月。

違約定義

評分模型關(guān)鍵在于區(qū)分好壞用戶,所以最重要的是定義壞用戶(bad),壞用戶不僅是逾期,包括催收,呆賬等等。

灰色地帶

有一些用戶可能只出現(xiàn)了M1和M2的的逾期,這個有可能是因為用戶忘記還款,往往在提醒后能夠還上款,為了模型的好壞區(qū)分能力,這部分灰色地帶的用戶不適合作為模型的訓(xùn)練樣本,但是可以作為后面驗證模型分?jǐn)?shù)分布的樣本,這部分樣本的分?jǐn)?shù)應(yīng)該大多數(shù)落在中間范圍內(nèi)。

選擇好壞和灰色地帶

一般來說,我們可以通過轉(zhuǎn)移分析去查看,也就是將劃分不同類別的用戶在經(jīng)過12個月以后再看它們所處的狀態(tài),看是否穩(wěn)定,從而判定逾期的定義是否準(zhǔn)確和穩(wěn)定。

樣本區(qū)間

一般來說需要按照客群和產(chǎn)品特性對樣本進行不同的間隔區(qū)分,對每個客群或者產(chǎn)品做子模型或者做不同的分?jǐn)?shù)準(zhǔn)駁切點。

步驟3 資料準(zhǔn)備

步驟4 變量分析

變量的形態(tài)可以分為連續(xù)變量分類變量,首先要做變量的共線性分析,根據(jù)預(yù)測能力和穩(wěn)定性選擇其中一個就可以了。

接下來進行單因子分析。單因子分析主要是為了檢測變量對好壞的區(qū)分能力。

包括woe分析和iv值分析。woe分析可以檢測出一個變量在哪個區(qū)間段對好壞的區(qū)分程度最高,作為該變量的切分位點。iv值分析可以對比不同變量對于標(biāo)簽的預(yù)測能力。

WOE=ln(\frac{好用戶的占比}{壞用戶的占比})

一般來說,WOE的絕對值隨著變量的值增大隨之增大,說明預(yù)測效果比較好,好壞區(qū)分能力強。

IV=\sum_{i=1}^n(好用戶的占比-壞用戶的占比)*WOE_i

為了使訊息值提高,需要把臨近的分組進行合并,最后得到的是粗分組。重新計算iv值,通過iv值高低進行排序,從中挑選變量,排除穩(wěn)定性不強,趨勢異常,只選取高度相關(guān)的變量,作為短變量清單。可以用順向進入法,反向排除法以及逐步回歸法篩選入模變量。

步驟5 建立模型

一般來說,理想的分類模型應(yīng)該是能夠良好地區(qū)分出好壞用戶的,但實際上由于真實場景中的壞用戶比例是很低的,為了增強模型的預(yù)測能力,一般是將好壞用戶的比例調(diào)整到3:1~5:1。并且會用70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為后面的驗證集。

一般二分類問題會采用邏輯回歸模型,邏輯回歸對于二分類的問題(0或者1)可以給出每個樣本預(yù)測為正樣本的概率大小,該概率大小可以映射為一個評分卡分?jǐn)?shù)(score)。評分卡分?jǐn)?shù)可以分為兩個部分,一個是基礎(chǔ)分?jǐn)?shù),也就是base score,另外一個是scale,也就是隨著好壞比例的增長分?jǐn)?shù)的增加幅度。

公式為:

score=ln(odds)*scale+location

邏輯回歸可以得到ln(odds),也就是好壞帳戶的比例的對數(shù)。也稱為勝算率。

scale為增長單位ln(odds)時分?jǐn)?shù)增加的大小。

假設(shè)當(dāng)odds從1:2增加到1:1的時候,score增加20

那么就有:

Score\_01=ln(\frac{1}{2})*scale+location

Score\_02=ln(\frac{1}{1})*scale+location

score\_02-score\_01=20

可以解出來scale=10

當(dāng)odds為1:1的時候,score為50,那么帶入公式可以解出location=50

所以公式為

score=ln(odds)*10+50

可以獲得模型的ln(odds)對應(yīng)的分?jǐn)?shù)。

步驟6 婉拒推論(又叫拒絕推論)

信貸的流程:

用戶接觸到貸款平臺->進件->審核->核準(zhǔn)通過或者拒絕

我們用來構(gòu)建模型的樣本往往是通過第一道核準(zhǔn)通過的,因此模型接觸到的好壞樣本分布與現(xiàn)實的好壞樣本分布是不同的。因此我們需要加入在核準(zhǔn)之前的部分壞樣本,重新訓(xùn)練模型使得模型的預(yù)測能夠更加接近實際的狀況,進行模型修正。

整個流程大概如下:

常使用的婉拒推論的方法是「擴充法」。也就是使用有標(biāo)簽的樣本訓(xùn)練出一個模型,模型去預(yù)測婉拒的樣本,推測其好壞,將其加入到核準(zhǔn)的有標(biāo)簽樣本中重新訓(xùn)練模型。有兩種擴充法,一種是「單純擴充法」,另外一種是「分群法」。

單純擴充法

單純擴充法是直接根據(jù)訓(xùn)練的模型對婉拒的樣本進行預(yù)測正樣本的概率,以一定的閾值作為區(qū)分好壞的標(biāo)準(zhǔn),將高于該閾值的作為正樣本,其余為負(fù)樣本,加入到原本的樣本中重新訓(xùn)練。

分群法

分群法是指給原本核準(zhǔn)的樣本預(yù)測的分?jǐn)?shù)或者概率進行從小到大分箱,計算每個分箱里面正負(fù)樣本的比例,以模型去給婉拒樣本預(yù)測為正樣本的概率,同樣從小到大分箱,以前面的核準(zhǔn)樣本的各個分箱里面正負(fù)樣本的比例去隨機抽取婉拒樣本的正負(fù)比例。

步驟7 效力驗證

效力驗證包括兩方面:「區(qū)分能力的驗證」「穩(wěn)定性的驗證」。驗證的方式包括樣本外的驗證(out-of-sample validation)和時間外的驗證(out-of-time validation)。

前者主要是校驗?zāi)P驮跍y試集上面的區(qū)分效果,后者主要是在時間維度上測量模型對于好壞樣本區(qū)分的穩(wěn)定性。

區(qū)分能力的驗證

一般來說最優(yōu)的模型都是能夠把好壞完全區(qū)分開,然而現(xiàn)實是模型對于好壞的預(yù)測分?jǐn)?shù)總是有一部分的重疊,但較優(yōu)的模型都是預(yù)測壞用戶的分?jǐn)?shù)集中在低分段,好用戶集中在高分?jǐn)?shù)段。以下是模型對樣本預(yù)測分?jǐn)?shù)的理想,正常和較差的分布情況。

目前用來衡量區(qū)分能力大小的指標(biāo)有ks值和auc。

ks值是先畫出好壞客戶的累積分布曲線,其中最大的差距就是ks value,就是max(bad%(累積)-good%(累積))。

ks值的解釋能力

穩(wěn)定性的驗證

一般來說,建模都是根據(jù)某個時間段的樣本去建模的,隨著時間的延長有可能出現(xiàn)模型的穩(wěn)定性降低最終失效的問題。用來衡量模型的穩(wěn)定性一般用psi值。psi一般用來比較兩個分布的差別。在風(fēng)控,psi值用來衡量模型在預(yù)測某個時間點前后的樣本的評分的分布差異。

psi的計算公式:

PSI=\sum_{i=1}^n(post\%-base\%)ln(\frac{post\%}{base\%})

psi的解釋能力

一般來說,模型上線以后還需要持續(xù)監(jiān)控模型區(qū)分能力和穩(wěn)定性,一旦發(fā)生比較大的改變需要去監(jiān)控變量是否發(fā)生了比較大的改變。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容