評分模型的開發(fā)
步驟1 確定評分目的
步驟2 基本定義
觀察期與績效期

觀察期一般是指預(yù)測變量的歷史時間間隔,一般過長的話會沒有辦法反映出逾期的標(biāo)簽;如果過短的話會不太穩(wěn)定,一般以6-12個月為觀察期。
績效期又叫表現(xiàn)期,也就是準(zhǔn)備預(yù)測客戶出現(xiàn)違約概率的時間長度,根據(jù)產(chǎn)品和客群的不同,通常預(yù)測時間長度為12-24個月。
違約定義
評分模型關(guān)鍵在于區(qū)分好壞用戶,所以最重要的是定義壞用戶(bad),壞用戶不僅是逾期,包括催收,呆賬等等。
灰色地帶
有一些用戶可能只出現(xiàn)了M1和M2的的逾期,這個有可能是因為用戶忘記還款,往往在提醒后能夠還上款,為了模型的好壞區(qū)分能力,這部分灰色地帶的用戶不適合作為模型的訓(xùn)練樣本,但是可以作為后面驗證模型分?jǐn)?shù)分布的樣本,這部分樣本的分?jǐn)?shù)應(yīng)該大多數(shù)落在中間范圍內(nèi)。
選擇好壞和灰色地帶
一般來說,我們可以通過轉(zhuǎn)移分析去查看,也就是將劃分不同類別的用戶在經(jīng)過12個月以后再看它們所處的狀態(tài),看是否穩(wěn)定,從而判定逾期的定義是否準(zhǔn)確和穩(wěn)定。

樣本區(qū)間
一般來說需要按照客群和產(chǎn)品特性對樣本進行不同的間隔區(qū)分,對每個客群或者產(chǎn)品做子模型或者做不同的分?jǐn)?shù)準(zhǔn)駁切點。
步驟3 資料準(zhǔn)備
步驟4 變量分析
變量的形態(tài)可以分為連續(xù)變量和分類變量,首先要做變量的共線性分析,根據(jù)預(yù)測能力和穩(wěn)定性選擇其中一個就可以了。
接下來進行單因子分析。單因子分析主要是為了檢測變量對好壞的區(qū)分能力。
包括woe分析和iv值分析。woe分析可以檢測出一個變量在哪個區(qū)間段對好壞的區(qū)分程度最高,作為該變量的切分位點。iv值分析可以對比不同變量對于標(biāo)簽的預(yù)測能力。
一般來說,WOE的絕對值隨著變量的值增大隨之增大,說明預(yù)測效果比較好,好壞區(qū)分能力強。

為了使訊息值提高,需要把臨近的分組進行合并,最后得到的是粗分組。重新計算iv值,通過iv值高低進行排序,從中挑選變量,排除穩(wěn)定性不強,趨勢異常,只選取高度相關(guān)的變量,作為短變量清單。可以用順向進入法,反向排除法以及逐步回歸法篩選入模變量。
步驟5 建立模型
一般來說,理想的分類模型應(yīng)該是能夠良好地區(qū)分出好壞用戶的,但實際上由于真實場景中的壞用戶比例是很低的,為了增強模型的預(yù)測能力,一般是將好壞用戶的比例調(diào)整到3:1~5:1。并且會用70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為后面的驗證集。
一般二分類問題會采用邏輯回歸模型,邏輯回歸對于二分類的問題(0或者1)可以給出每個樣本預(yù)測為正樣本的概率大小,該概率大小可以映射為一個評分卡分?jǐn)?shù)(score)。評分卡分?jǐn)?shù)可以分為兩個部分,一個是基礎(chǔ)分?jǐn)?shù),也就是base score,另外一個是scale,也就是隨著好壞比例的增長分?jǐn)?shù)的增加幅度。
公式為:
邏輯回歸可以得到,也就是好壞帳戶的比例的對數(shù)。也稱為勝算率。
scale為增長單位時分?jǐn)?shù)增加的大小。
假設(shè)當(dāng)odds從1:2增加到1:1的時候,score增加20
那么就有:
可以解出來scale=10
當(dāng)odds為1:1的時候,score為50,那么帶入公式可以解出
所以公式為
可以獲得模型的對應(yīng)的分?jǐn)?shù)。
步驟6 婉拒推論(又叫拒絕推論)
信貸的流程:
用戶接觸到貸款平臺->進件->審核->核準(zhǔn)通過或者拒絕
我們用來構(gòu)建模型的樣本往往是通過第一道核準(zhǔn)通過的,因此模型接觸到的好壞樣本分布與現(xiàn)實的好壞樣本分布是不同的。因此我們需要加入在核準(zhǔn)之前的部分壞樣本,重新訓(xùn)練模型使得模型的預(yù)測能夠更加接近實際的狀況,進行模型修正。
整個流程大概如下:

常使用的婉拒推論的方法是「擴充法」。也就是使用有標(biāo)簽的樣本訓(xùn)練出一個模型,模型去預(yù)測婉拒的樣本,推測其好壞,將其加入到核準(zhǔn)的有標(biāo)簽樣本中重新訓(xùn)練模型。有兩種擴充法,一種是「單純擴充法」,另外一種是「分群法」。
單純擴充法
單純擴充法是直接根據(jù)訓(xùn)練的模型對婉拒的樣本進行預(yù)測正樣本的概率,以一定的閾值作為區(qū)分好壞的標(biāo)準(zhǔn),將高于該閾值的作為正樣本,其余為負(fù)樣本,加入到原本的樣本中重新訓(xùn)練。
分群法
分群法是指給原本核準(zhǔn)的樣本預(yù)測的分?jǐn)?shù)或者概率進行從小到大分箱,計算每個分箱里面正負(fù)樣本的比例,以模型去給婉拒樣本預(yù)測為正樣本的概率,同樣從小到大分箱,以前面的核準(zhǔn)樣本的各個分箱里面正負(fù)樣本的比例去隨機抽取婉拒樣本的正負(fù)比例。
步驟7 效力驗證
效力驗證包括兩方面:「區(qū)分能力的驗證」和「穩(wěn)定性的驗證」。驗證的方式包括樣本外的驗證(out-of-sample validation)和時間外的驗證(out-of-time validation)。
前者主要是校驗?zāi)P驮跍y試集上面的區(qū)分效果,后者主要是在時間維度上測量模型對于好壞樣本區(qū)分的穩(wěn)定性。
區(qū)分能力的驗證
一般來說最優(yōu)的模型都是能夠把好壞完全區(qū)分開,然而現(xiàn)實是模型對于好壞的預(yù)測分?jǐn)?shù)總是有一部分的重疊,但較優(yōu)的模型都是預(yù)測壞用戶的分?jǐn)?shù)集中在低分段,好用戶集中在高分?jǐn)?shù)段。以下是模型對樣本預(yù)測分?jǐn)?shù)的理想,正常和較差的分布情況。

目前用來衡量區(qū)分能力大小的指標(biāo)有ks值和auc。
ks值是先畫出好壞客戶的累積分布曲線,其中最大的差距就是ks value,就是max(bad%(累積)-good%(累積))。
ks值的解釋能力

穩(wěn)定性的驗證
一般來說,建模都是根據(jù)某個時間段的樣本去建模的,隨著時間的延長有可能出現(xiàn)模型的穩(wěn)定性降低最終失效的問題。用來衡量模型的穩(wěn)定性一般用psi值。psi一般用來比較兩個分布的差別。在風(fēng)控,psi值用來衡量模型在預(yù)測某個時間點前后的樣本的評分的分布差異。
psi的計算公式:
psi的解釋能力

一般來說,模型上線以后還需要持續(xù)監(jiān)控模型區(qū)分能力和穩(wěn)定性,一旦發(fā)生比較大的改變需要去監(jiān)控變量是否發(fā)生了比較大的改變。
