評分模型的開發(fā)

步驟1 確定評分目的

步驟2 基本定義

觀察期與績效期

觀察期一般是指預(yù)測變量的歷史時間間隔，一般過長的話會沒有辦法反映出逾期的標(biāo)簽；如果過短的話會不太穩(wěn)定，一般以6-12個月為觀察期。

績效期又叫表現(xiàn)期，也就是準(zhǔn)備預(yù)測客戶出現(xiàn)違約概率的時間長度，根據(jù)產(chǎn)品和客群的不同，通常預(yù)測時間長度為12-24個月。

違約定義

評分模型關(guān)鍵在于區(qū)分好壞用戶，所以最重要的是定義壞用戶(bad)，壞用戶不僅是逾期，包括催收，呆賬等等。

灰色地帶

有一些用戶可能只出現(xiàn)了M1和M2的的逾期，這個有可能是因為用戶忘記還款，往往在提醒后能夠還上款，為了模型的好壞區(qū)分能力，這部分灰色地帶的用戶不適合作為模型的訓(xùn)練樣本，但是可以作為后面驗證模型分?jǐn)?shù)分布的樣本，這部分樣本的分?jǐn)?shù)應(yīng)該大多數(shù)落在中間范圍內(nèi)。

選擇好壞和灰色地帶

一般來說，我們可以通過轉(zhuǎn)移分析去查看，也就是將劃分不同類別的用戶在經(jīng)過12個月以后再看它們所處的狀態(tài)，看是否穩(wěn)定，從而判定逾期的定義是否準(zhǔn)確和穩(wěn)定。

樣本區(qū)間

一般來說需要按照客群和產(chǎn)品特性對樣本進行不同的間隔區(qū)分，對每個客群或者產(chǎn)品做子模型或者做不同的分?jǐn)?shù)準(zhǔn)駁切點。

步驟3 資料準(zhǔn)備

步驟4 變量分析

變量的形態(tài)可以分為連續(xù)變量和分類變量，首先要做變量的共線性分析，根據(jù)預(yù)測能力和穩(wěn)定性選擇其中一個就可以了。

接下來進行單因子分析。單因子分析主要是為了檢測變量對好壞的區(qū)分能力。

包括woe分析和iv值分析。woe分析可以檢測出一個變量在哪個區(qū)間段對好壞的區(qū)分程度最高，作為該變量的切分位點。iv值分析可以對比不同變量對于標(biāo)簽的預(yù)測能力。

$WOE=ln(\frac{好用戶的占比}{壞用戶的占比})$

一般來說，WOE的絕對值隨著變量的值增大隨之增大，說明預(yù)測效果比較好，好壞區(qū)分能力強。

$IV=\sum_{i=1}^n(好用戶的占比-壞用戶的占比)*WOE_i$

為了使訊息值提高，需要把臨近的分組進行合并，最后得到的是粗分組。重新計算iv值，通過iv值高低進行排序，從中挑選變量，排除穩(wěn)定性不強，趨勢異常，只選取高度相關(guān)的變量，作為短變量清單。可以用順向進入法，反向排除法以及逐步回歸法篩選入模變量。

步驟5 建立模型

一般來說，理想的分類模型應(yīng)該是能夠良好地區(qū)分出好壞用戶的，但實際上由于真實場景中的壞用戶比例是很低的，為了增強模型的預(yù)測能力，一般是將好壞用戶的比例調(diào)整到3:1~5:1。并且會用70%的數(shù)據(jù)作為訓(xùn)練集，30%的數(shù)據(jù)作為后面的驗證集。

一般二分類問題會采用邏輯回歸模型，邏輯回歸對于二分類的問題(0或者1)可以給出每個樣本預(yù)測為正樣本的概率大小，該概率大小可以映射為一個評分卡分?jǐn)?shù)(score)。評分卡分?jǐn)?shù)可以分為兩個部分，一個是基礎(chǔ)分?jǐn)?shù)，也就是base score，另外一個是scale，也就是隨著好壞比例的增長分?jǐn)?shù)的增加幅度。

公式為：

$score=ln(odds)*scale+location$

邏輯回歸可以得到 $ln(odds)$ ，也就是好壞帳戶的比例的對數(shù)。也稱為勝算率。

scale為增長單位 $ln(odds)$ 時分?jǐn)?shù)增加的大小。

假設(shè)當(dāng)odds從1:2增加到1:1的時候，score增加20

那么就有：

$Score\_01=ln(\frac{1}{2})*scale+location$

$Score\_02=ln(\frac{1}{1})*scale+location$

$score\_02-score\_01=20$

可以解出來scale=10

當(dāng)odds為1:1的時候，score為50，那么帶入公式可以解出 $location=50$

所以公式為

$score=ln(odds)*10+50$

可以獲得模型的 $ln(odds)$ 對應(yīng)的分?jǐn)?shù)。

步驟6 婉拒推論(又叫拒絕推論)

信貸的流程：

用戶接觸到貸款平臺->進件->審核->核準(zhǔn)通過或者拒絕

我們用來構(gòu)建模型的樣本往往是通過第一道核準(zhǔn)通過的，因此模型接觸到的好壞樣本分布與現(xiàn)實的好壞樣本分布是不同的。因此我們需要加入在核準(zhǔn)之前的部分壞樣本，重新訓(xùn)練模型使得模型的預(yù)測能夠更加接近實際的狀況，進行模型修正。

整個流程大概如下：

常使用的婉拒推論的方法是「擴充法」。也就是使用有標(biāo)簽的樣本訓(xùn)練出一個模型，模型去預(yù)測婉拒的樣本，推測其好壞，將其加入到核準(zhǔn)的有標(biāo)簽樣本中重新訓(xùn)練模型。有兩種擴充法，一種是「單純擴充法」，另外一種是「分群法」。

單純擴充法

單純擴充法是直接根據(jù)訓(xùn)練的模型對婉拒的樣本進行預(yù)測正樣本的概率，以一定的閾值作為區(qū)分好壞的標(biāo)準(zhǔn)，將高于該閾值的作為正樣本，其余為負(fù)樣本，加入到原本的樣本中重新訓(xùn)練。

分群法

分群法是指給原本核準(zhǔn)的樣本預(yù)測的分?jǐn)?shù)或者概率進行從小到大分箱，計算每個分箱里面正負(fù)樣本的比例，以模型去給婉拒樣本預(yù)測為正樣本的概率，同樣從小到大分箱，以前面的核準(zhǔn)樣本的各個分箱里面正負(fù)樣本的比例去隨機抽取婉拒樣本的正負(fù)比例。

步驟7 效力驗證

效力驗證包括兩方面：「區(qū)分能力的驗證」和「穩(wěn)定性的驗證」。驗證的方式包括樣本外的驗證(out-of-sample validation)和時間外的驗證(out-of-time validation)。

前者主要是校驗?zāi)Ｐ驮跍y試集上面的區(qū)分效果，后者主要是在時間維度上測量模型對于好壞樣本區(qū)分的穩(wěn)定性。

區(qū)分能力的驗證

一般來說最優(yōu)的模型都是能夠把好壞完全區(qū)分開，然而現(xiàn)實是模型對于好壞的預(yù)測分?jǐn)?shù)總是有一部分的重疊，但較優(yōu)的模型都是預(yù)測壞用戶的分?jǐn)?shù)集中在低分段，好用戶集中在高分?jǐn)?shù)段。以下是模型對樣本預(yù)測分?jǐn)?shù)的理想，正常和較差的分布情況。

目前用來衡量區(qū)分能力大小的指標(biāo)有ks值和auc。

ks值是先畫出好壞客戶的累積分布曲線，其中最大的差距就是ks value，就是max(bad%(累積)-good%(累積))。

ks值的解釋能力

穩(wěn)定性的驗證

一般來說，建模都是根據(jù)某個時間段的樣本去建模的，隨著時間的延長有可能出現(xiàn)模型的穩(wěn)定性降低最終失效的問題。用來衡量模型的穩(wěn)定性一般用psi值。psi一般用來比較兩個分布的差別。在風(fēng)控，psi值用來衡量模型在預(yù)測某個時間點前后的樣本的評分的分布差異。

psi的計算公式：

$PSI=\sum_{i=1}^n(post\%-base\%)ln(\frac{post\%}{base\%})$

psi的解釋能力

一般來說，模型上線以后還需要持續(xù)監(jiān)控模型區(qū)分能力和穩(wěn)定性，一旦發(fā)生比較大的改變需要去監(jiān)控變量是否發(fā)生了比較大的改變。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

消費信貸評分建模與應(yīng)用_建模部分

消費信貸評分建模與應(yīng)用_建模部分

評分模型的開發(fā)

步驟1 確定評分目的

步驟2 基本定義

步驟3 資料準(zhǔn)備

步驟4 變量分析

步驟5 建立模型

步驟6 婉拒推論(又叫拒絕推論)

單純擴充法

分群法

步驟7 效力驗證

區(qū)分能力的驗證

穩(wěn)定性的驗證

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

消費信貸評分建模與應(yīng)用_建模部分

評分模型的開發(fā)

步驟1 確定評分目的

步驟2 基本定義

步驟3 資料準(zhǔn)備

步驟4 變量分析

步驟5 建立模型

步驟6 婉拒推論(又叫拒絕推論)

單純擴充法

分群法

步驟7 效力驗證

區(qū)分能力的驗證

穩(wěn)定性的驗證

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av