本文轉(zhuǎn)載自公眾號(hào):大數(shù)據(jù)風(fēng)控與機(jī)器學(xué)習(xí)
一、簡(jiǎn)介
所謂信貸評(píng)分卡指的是,將違約概率映射成得分的模型。最傳統(tǒng)、應(yīng)用最廣泛的算法是邏輯回歸。但是理論上,所有能輸出概率的模型均可以做為評(píng)分卡。比如這幾年工業(yè)界常用的集成模型、深度神經(jīng)網(wǎng)絡(luò)等。像一些無監(jiān)督、弱監(jiān)督算法,則通常用來輔助監(jiān)督學(xué)習(xí)。
評(píng)分映射的好處主要有這幾點(diǎn):
1)更靈活,不是簡(jiǎn)單的通過與否??梢詣?dòng)態(tài)的調(diào)整通過策略和額度策略;
2)更好的向客戶展示信用額度的動(dòng)態(tài)變化;
3)更好的向領(lǐng)導(dǎo)說明客戶被拒絕的原因。
二、主要應(yīng)用場(chǎng)景
風(fēng)控模型其中包含了A/B/C卡。
申請(qǐng)?jiān)u分卡 Application Card /A卡 ,主要發(fā)生在貸前
行為評(píng)分卡 Behaviour Card /B卡,主要發(fā)生在貸中
催收評(píng)分卡 Collection Card /C卡,主要發(fā)生在貸后
模型算法之間可以沒有顯著區(qū)別,而是根據(jù)其發(fā)生的時(shí)間點(diǎn)不同而進(jìn)行劃分的(貸前/貸中/貸后),也就是y產(chǎn)生的方式不一樣。通常信貸領(lǐng)域都是用逾期天數(shù)來定義y。A卡可以用客戶歷史逾期天數(shù)最大的天數(shù)。B卡則可以多期借款中逾期最大的一次。C卡因?yàn)橛猛静煌胁煌慕⒎椒?。比如你們公司有?nèi)催,有外催。外催肯定是回款率低,單價(jià)貴的。那么就可以根據(jù)是否被內(nèi)催催回來定義y。
三、建模流程
1、確定樣本,定義好壞
2、特征工程
3、單變量分析,woe處理
4、建模與評(píng)分映射
5、模型評(píng)估
6、模型監(jiān)控
1)確定樣本、定義好壞
時(shí)間窗口:樣本按照貸款日期進(jìn)行排序。選取的樣本落在的時(shí)間段,稱為時(shí)間窗口。
確定樣本:通常情形,樣本應(yīng)盡可能的多。但考慮到我們建模的本質(zhì),是使用歷史數(shù)據(jù)對(duì)未來用戶進(jìn)行預(yù)測(cè),歷史數(shù)據(jù)的效果,會(huì)從熱數(shù)據(jù)變?yōu)闇財(cái)?shù)據(jù),再變?yōu)槔鋽?shù)據(jù),逐級(jí)遞減。所以時(shí)間跨度盡可能和產(chǎn)品周期相結(jié)合考慮。信用建模本質(zhì)是二分類問題,假設(shè)樣本服從二項(xiàng)分布。需要考慮建模數(shù)據(jù)的平衡問題。尤其在金融場(chǎng)景下,壞樣本永遠(yuǎn)都比較少。所以會(huì)使用過采樣、欠采樣、smoke、拒絕演繹、半監(jiān)督學(xué)習(xí)等方法,擴(kuò)充我們的壞樣本。
定義好壞:使用逾期天數(shù)作為定義好壞的標(biāo)準(zhǔn)。比如產(chǎn)品周期30天,逾期超過15天為1(壞),15天以內(nèi)為0(好)。通常我們還會(huì)去掉一部分灰色用戶。比如逾期5~15天的客戶不參與建模。因?yàn)槲覀兊目蛻羧后w通常都是服從長(zhǎng)尾分布,而非二項(xiàng)分布,我們會(huì)人為的去掉一部分,讓樣本分布和假設(shè)分布更逼近。
2)特征工程
數(shù)據(jù)清洗:“缺失值處理”,“數(shù)據(jù)類型轉(zhuǎn)換”,“去除邏輯錯(cuò)誤”,“去除業(yè)務(wù)無關(guān)變量”。
基礎(chǔ)特征:數(shù)據(jù)質(zhì)量和特征構(gòu)造其實(shí)基本上決定了一個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型的上限。我們平時(shí)常說的數(shù)據(jù)挖掘,其實(shí)就是對(duì)更有效特征的挖掘。在數(shù)據(jù)源穩(wěn)定的前提下,這是很多機(jī)構(gòu)提高模型效果的主要方法。這一步可以做幾百、幾千維特征。
特征衍生:主要以上一步的特征為基礎(chǔ),通過一系列變換,能達(dá)到幾十萬、幾百萬維特征。
特征篩選:IV、stepdisc、stepwise、cor、VIF等。但是更要結(jié)合業(yè)務(wù)來考慮,比如考慮跨時(shí)間穩(wěn)定性的時(shí)候可以使用不同時(shí)間段單特征值的PSI衰減來衡 量特征的跨時(shí)間穩(wěn)定性。
特征變化:標(biāo)準(zhǔn)化、分類特征映射成數(shù)值特征。
3)單變量分析,woe處理
分箱:先等頻分箱,后將不成線性關(guān)系的特征,通過箱之間的合并,處理成線性的。并將不能歸并成線性的特征刪掉。這樣的特征擁有更強(qiáng)的魯棒性,并且能為模型引入業(yè)務(wù)邏輯。
WOE變換:WOE表示的實(shí)際上是“當(dāng)前分組中壞客戶占所有壞客戶的比例”和“當(dāng)前分組中好客戶占所有好客戶的比例”的差異。正負(fù)號(hào)代表特征對(duì)模型的影響方向。絕對(duì)值的大小代表影響程度。所以,邏輯回歸的系數(shù)必須大于0.
4)建模與評(píng)分映射
邏輯回歸代碼示例:
from sklearn.linear_model import LogisticRegression
邏輯回歸方程:
基礎(chǔ)分500分;
好的概率是壞的概率的2倍時(shí),加50分;
好的概率是壞的概率的4倍時(shí),加100分;
好的概率是壞的概率的8倍時(shí),加150分;
...
以此類推,得到分?jǐn)?shù)換算公式:
5)模型評(píng)估
作為樣本極度不均衡的典型場(chǎng)景。直接使用準(zhǔn)確率、召回率等是不合適的。業(yè)內(nèi)大多使用KS和AUC作為評(píng)價(jià)指標(biāo)。但是具體情況具體分析。比如考慮成本的話,準(zhǔn)確率也可以作為參考。
ROC曲線:roc曲線上每個(gè)點(diǎn)反映著對(duì)同一信號(hào)刺激的感受性。
KS值:好客戶與壞客戶之間的最大差異。
6)模型監(jiān)控
常規(guī)監(jiān)控:通過率、貸后表現(xiàn)、PSI、客群分布、等等。