? ? ? ? 以下以申請評分卡(A卡)建模為例，描述模型開發(fā)的基本流程：
1.數(shù)據(jù)準(zhǔn)備：定義目標(biāo)變量，整合樣本特征；劃分?jǐn)?shù)據(jù)集：訓(xùn)練集、驗證集與測試集，由于金融業(yè)務(wù)中的樣本的積累周期比較長，因此測試集有必要劃分為兩種，一種為訓(xùn)練集時間跨度內(nèi)，一種為訓(xùn)練集時間跨度之外，用時間外的測試集驗證模型特征的穩(wěn)定性。
2.探索性數(shù)據(jù)分析：統(tǒng)計每個特征取值的分布；統(tǒng)計每個特征的覆蓋率，去掉覆蓋率較低的特征；處理樣本的異常值和缺失值。
3.數(shù)據(jù)預(yù)處理：根據(jù)經(jīng)驗對特征作預(yù)篩選，篩除于目標(biāo)變量無關(guān)的特征；特征分箱；WOE轉(zhuǎn)換。
4.特征選擇：計算IV值，特征選擇。
5.模型開發(fā)：常用邏輯回歸模型進行擬合。
6.模型評估：模型常見的評估指標(biāo)有AUC,ROC,KS,Gani-chat,Lift-chat，特征穩(wěn)定性的評估指標(biāo)psi。
7.生成評分卡。
流程示意圖如下所示：

風(fēng)控建模流程示意圖.png

1.數(shù)據(jù)準(zhǔn)備

? ? ? ? 不同的評分模型需要的數(shù)據(jù)是不同的，在建模之前需要對對要解決的問題建立明確的數(shù)學(xué)定義。
1.排除一些特定的建模用戶
? ? ? ? 用于建模的用戶必須是日常審批中接觸到的用戶，不能是異常情況，比如欺詐等。
2.明確用戶的屬性
? ? ? ? 用戶的基本屬性，比如學(xué)歷、年齡、收入情況等；征信機構(gòu)的數(shù)據(jù)和其他外部數(shù)據(jù)，比如芝麻分。
3.目標(biāo)變量的確立
? ? ? ? 評分模型是利用歷史的數(shù)據(jù)預(yù)測未來的行為，需要明確定義正負(fù)樣本的標(biāo)簽。不能出現(xiàn)歧義，重疊等。
4.劃分?jǐn)?shù)據(jù)集
? ? ? ? 通常訓(xùn)練模型需要劃分訓(xùn)練集、驗證集與測試集。信貸業(yè)務(wù)中樣本成熟的經(jīng)歷的時間比較長，因此測試集需要時間內(nèi)和時間外的數(shù)據(jù)，時間內(nèi)外是相對訓(xùn)練集的時間跨度而言，避免經(jīng)過一段時間后特征波動或失效的發(fā)生。

2.探索性數(shù)據(jù)分析(EDA,Exploratory Data Analysis)

EDA的實施主要包括：
1.描述性統(tǒng)計
? ? ? ? 描述性統(tǒng)計是用一些統(tǒng)計量來對變量分析，如：平均值，標(biāo)準(zhǔn)差，最小值，最大值等。
2.統(tǒng)計每個變量值的分布、特征覆蓋率及檢驗正態(tài)分布
? ? ? ? 通常使用直方圖繪制變量不同取值的樣本分布，以及變量在樣本中的覆蓋率，篩除樣本中有值特別少的變量。
3.極值的識別與處理
? ? ? ? 每個變量需要設(shè)定一個正常的取值范圍。對數(shù)量較少的超出正常范圍的極端值作替換處理，若極端值的數(shù)量超過10%,則說明數(shù)據(jù)的生成機制不止一個。
4.缺失值的處理
4.1缺失值機制

完全隨機缺失(missing completely at random,MCAR)
缺失數(shù)據(jù)與該變量真實值無關(guān)，與其他變量的數(shù)值也無關(guān)。舉例：一位老師丟失幾張學(xué)生試卷，導(dǎo)致幾位學(xué)生沒有成績。成績的缺失與成績本身變量無關(guān)，也與性別無關(guān)，是完全隨機的。
隨機缺失（MAR）:缺失變量與其他變量有關(guān)。舉例：統(tǒng)計學(xué)生信息時，體重缺失，一般來說，女生的體重缺失，與性別有關(guān)。
非隨機缺失（NNAR）:缺失數(shù)量與該變量本身有關(guān)。舉例：統(tǒng)計收入數(shù)據(jù)時，一般缺失的是收入過高或過低。
完全變量：數(shù)據(jù)集中不含缺失值的變量。
不完全變量：數(shù)據(jù)集中含有缺失值的變量。
? ? ? ? 1,對缺失特別多的變量直接剔除；2,利用統(tǒng)計值替換，比如平均值，對離散變量，取同類樣本中取值最多的特征值。

3.數(shù)據(jù)預(yù)處理

1.特征初篩
? ? ? ? 根據(jù)業(yè)務(wù)經(jīng)驗預(yù)先篩除掉與目標(biāo)變量無關(guān)的變量。
2.特征分箱
1)對于連續(xù)變量可以使用等頻分箱、等距分箱、卡方分箱與最優(yōu)分箱；
2)對于離散變量，可以卡方分箱，對離散變量取值合并分箱。
3.特征編碼
1)特征分箱離散化后可計算每個bin的woe值，形成每個bin的woe編碼
2)one-hot編碼
3)dummy編碼，與one-hot編碼類似

4.特征選擇

1.計算IV值與psi值
? ? ? ? IV(Information Value):信息價值。IV可以用來衡量自變量的預(yù)測能力；WOE(Weight of Evidence,證據(jù)權(quán)重)和IV使用來衡量變量的預(yù)測能力，值越大，表示此變量的預(yù)測能力越強。PSI可以用來衡量特征的穩(wěn)定性。
? ? ? ? 在訓(xùn)練模型時，挑選特征是一個比較復(fù)雜的過程，要考慮的因素有很多，比如，變量的預(yù)測能力，變量之間的相關(guān)性，變量的簡單性(容易生成和使用)，變量的強壯性(不容易被繞過)，變量在業(yè)務(wù)中的可解釋性。其中變量的預(yù)測能力可以通過IV值衡量。IV的計算是以WOE為基礎(chǔ)的。

(1).WOE

? ? ? ? 要對一個變量進行WOE編碼，必須對變量離散化(分箱)，分箱后，第i組的woe值得計算公式為:
$WOE_{i}=ln(\frac{py_i}{pn_i}))=ln(\frac{(\frac{\#y_i}{\#y_T})}{(\frac{\#n_i}{\#n_T})})$
其中， $py_i$ 為這個組中響應(yīng)客戶(風(fēng)險模型中為違約客戶，正樣本)的，占總體正樣本的比例， $pn_i$ 為負(fù)樣本所占比例， $\#y_i$ 為該分組中正樣本數(shù)量， $\#n_i$ 為該組負(fù)樣本數(shù)量， $\#y_T,\#n_T$ 代表總體樣本中的正負(fù)樣本數(shù)量，WOE實際代表該分組中的正負(fù)樣本比例的差異，值越大，差異越大，該分組越能區(qū)分正負(fù)樣本。第i組的IV 值為:
$IV_i=(py_i-pn_i)*WOE_i$
整個變量的IV值為(n個分組 $IV_i$ 值得嘉和)：
$IV=\sum_{i}^{n}IV_i$

特征信息值(IV)	預(yù)測能力
<0.03	無預(yù)測能力
0.03~0.09	低
0.1~0.29	中
0.3~0.49	高
0.5~	極高

2.特征篩選
選擇IV值高，PSI值低，覆蓋率高的特征入模。

5.模型開發(fā)

1.模型擬合
常用lr邏輯回歸模型進行分類。
2.step-wise模型優(yōu)化
根據(jù)p值篩選模型變量，原假設(shè)(變量不重要，與目標(biāo)變量無光)，在此假設(shè)基礎(chǔ)上計算chi-square,若chi-square值大，則p值小，p值<0.01說明變量很重要。

6.模型評估

? ? ? ? 模型擬合之后，需要評估模型的好壞。好的模型一般要有以下三個基本要求：
1.精確性。模型在預(yù)測時，要有一定的精確性；2.穩(wěn)健性。模型必須對從總體樣本中抽取的所有樣本都有效；3.有意義
以下介紹幾個常用的評價指標(biāo)：
1.混淆矩陣
2.KS曲線
3.AUC曲線
4.ROC指標(biāo)
5.Gini系數(shù)
6.Lift-chart提升圖

7.生成評分卡

? ? ? ? 一個事件發(fā)生的幾率（Odds），是指該事件發(fā)生的概率與該事件不發(fā)生概率的比值。若一個客戶違約概率為p，則其正常的概率為1-p，由此可得：
$Odds=\frac{p}{1-p}$
此時，客戶違約的概率p可以表示為:
$p=\frac{Odds}{1+Odds}$
評分卡表達式為：
$Score=A-B\log(Odds)$
其中A、B為常數(shù)。由于log函數(shù)在(0→+∞)單調(diào)遞增，所以當(dāng)用戶違約幾率Odds越大時，Score評分越低。通過給定 :
（1）某特定Odds時的Score值S0；
（2）該特定Odds值翻倍時Score增加值PD0;
通過給定值S0與PD0帶入評分卡表達式，可求得A、B。

(未完待續(xù)。。。)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

風(fēng)控建模流程

風(fēng)控建模流程

1.數(shù)據(jù)準(zhǔn)備

2.探索性數(shù)據(jù)分析(EDA,Exploratory Data Analysis)

3.數(shù)據(jù)預(yù)處理

4.特征選擇

(1).WOE

5.模型開發(fā)

6.模型評估

7.生成評分卡

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

風(fēng)控建模流程

1.數(shù)據(jù)準(zhǔn)備

2.探索性數(shù)據(jù)分析(EDA,Exploratory Data Analysis)

3.數(shù)據(jù)預(yù)處理

4.特征選擇

(1).WOE

5.模型開發(fā)

6.模型評估

7.生成評分卡

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av