? ? ? ? 風(fēng)控建模常用邏輯回歸模型，模型的特征必須是數(shù)值型特征，因此需要對類別型特征進(jìn)行編碼；此外，為了獲得模型的穩(wěn)定性，建模時(shí)需要對數(shù)值型特征進(jìn)行分箱處理。最終，對進(jìn)入模型的特征還要做單變量與多變量分析。

1.分箱簡述

分箱的定義：1）對于數(shù)值型變量，將取值范圍分為幾個(gè)有限的分段，例如將收入分為<5k,5_10k,1020k,>20k等；2）對于類別型變量，如果取值很多，將其合并為較少的幾個(gè)分段。
分箱原因：1）評分結(jié)果需要穩(wěn)定性，當(dāng)樣本數(shù)值型變量發(fā)生較小波動，評分結(jié)果不應(yīng)發(fā)生改變；2）對于類別型變量，當(dāng)取值很多時(shí)，如果不分箱會發(fā)生變量膨脹，例如，對31個(gè)省份編碼，獨(dú)熱編碼會有31個(gè)變量，dummy編碼也會有30個(gè)變量。
分箱要求：1）取值較少的類別型變量不需要分箱；2）分箱結(jié)果需要有序性；3）分箱的平衡性；占比最小的箱數(shù)據(jù)不低于5%；4）分箱的單調(diào)性：在要求較嚴(yán)格的情況下，每箱的壞樣本率與箱呈單調(diào)關(guān)系；當(dāng)非單調(diào)時(shí)，需要與前箱或后箱合并，選擇前或后有兩種方案：一是選擇合并后卡方值小的方案；二是選擇合并后更加均勻的方案，均勻程度的衡量方式為： $balance=\sum_i(p_i)^2$ ,其中 $p_i$ 為每箱樣本占比，值越小越均勻5）分箱的個(gè)數(shù)，通常分箱后，箱的個(gè)數(shù)不能太多，一般5~7個(gè);5)特殊值作為一箱，但不參與單調(diào)性比較，若特殊值的分箱樣本占比低于5%，則與第一箱或最后一箱合并。
分箱的優(yōu)缺點(diǎn)：優(yōu)點(diǎn)：1）比較穩(wěn)定，原始變量在一定范圍內(nèi)波動，不會影響結(jié)果；2）可以處理缺失值，將缺失值作為特殊取值；3）異常值處理，可以與其他取值合并為一箱；4）無需歸一化，數(shù)值型變量變?yōu)轭悇e型，沒有尺度的差異。缺點(diǎn)：1）有一定信息的丟失；2）需要編碼，分箱后是類別型，需要進(jìn)行數(shù)值編碼。

2.分箱方法

分箱的初衷將相似度高的樣本分為一組。無監(jiān)督分箱考慮的是特征分布相似度；有監(jiān)督分箱考慮的是特征業(yè)務(wù)含義相似度。

有監(jiān)督：卡方分箱，決策樹分箱
優(yōu)點(diǎn)：與目標(biāo)變量結(jié)合，最大程度將目標(biāo)變量的信息反映在特征中
缺點(diǎn)：計(jì)算量大
無監(jiān)督：等頻、等距、聚類
優(yōu)點(diǎn)：計(jì)算簡單
缺點(diǎn)：合理性得不到保證；不能充分利用目標(biāo)變量的信息
卡方分箱
? ? ? ? 在有監(jiān)督的分箱中，卡方分箱是一種常用的方法，它以卡方分布和卡方值為基礎(chǔ)，判斷某個(gè)因素是否會影響目標(biāo)變量?？ǚ綑z驗(yàn)的無效假設(shè)H0是：觀察頻數(shù)與期望頻數(shù)沒有差別，即該因素不會影響目標(biāo)變量?；谠摷僭O(shè)計(jì)算卡方值，它表示觀察值與理論值之間的偏離程度，根據(jù)卡方值與自由度確定獲得當(dāng)前取值及更極端取值的概率P，如果P值很小，則拒絕原假設(shè)。
卡方值計(jì)算: $\chi ^{2}=\sum_{i=1}^{j=m}\sum_{j=1}^{j=k}\frac{(A_{ij}-E_{ij})^{2}}{E_{ij}}$
$m$ 為因素取值個(gè)數(shù)
$A_{ij}$ 為第 $i$ 組 $j$ 類別的觀測頻數(shù)
$E_{ij}$ 為第 $i$ 組 $j$ 類別的理論頻數(shù)
? ? ? ? 卡方分箱是采用自下向上不斷合并的方法完成分箱。在每一步合并的步驟中，依靠最小的卡方值尋找最優(yōu)的合并項(xiàng)。其核心思想是，如果兩個(gè)區(qū)間可以被合并，那么這兩個(gè)壞樣本需要最接近的分布，進(jìn)而意味著兩個(gè)區(qū)間的卡方值是最小的，具體步驟為：
（1）將數(shù)值變量A排序后分成區(qū)間較多的若干組；
（2）計(jì)算相鄰區(qū)間合并后的卡方值；
（3）將卡方值最小的相鄰兩區(qū)間合并；
（4）不斷重復(fù)2,3步，直至終止條件。終止條件：1）最小卡方值的p值超過0.1或者0.05；2）區(qū)間數(shù)達(dá)到指定數(shù)目。在開發(fā)評分卡模型時(shí)，還需滿足以下兩個(gè)條件：1）每箱的壞樣本率單調(diào)，如果非單調(diào)性有一定的業(yè)務(wù)含義，可以保留U型或倒U型的壞樣本率分布；2）每箱都有好樣本和壞樣本，為了后續(xù)計(jì)算WOE值。
以上的分箱是對于數(shù)值型變量。對于無序類別型變量，比如省份，需要對變量進(jìn)行數(shù)值編碼，常用壞樣本率編碼編碼后排序、分箱；對于有序類別型變量，比如學(xué)歷，可以排序后分箱。
卡方分箱優(yōu)缺點(diǎn)：優(yōu)點(diǎn)：1）解釋性強(qiáng)，以卡方檢驗(yàn)為原理，具有很強(qiáng)的統(tǒng)計(jì)意義，可以解決多分類場景{非違約，輕度違約，重度違約}的分箱；缺點(diǎn)：計(jì)算量大。

3.WOE編碼

? ? ? ? 編碼是一種數(shù)值代替非數(shù)值的操作，目的是為了讓模型對其進(jìn)行數(shù)學(xué)運(yùn)算。
第 $i$ 箱WOE值的計(jì)算公式： $WOE_i=ln(\frac{G_i/G}{B_i/B})=ln(\frac{G_i}{B_i})-ln(\frac{G}{B})=ln(\frac{G_i}{G})-ln(\frac{B_i}{B})$ 其中。 $G_i$ 表示第 $i$ 箱好樣本數(shù)， $G$ 是全部好樣本數(shù)。
優(yōu)缺點(diǎn)：優(yōu)點(diǎn)：1)提高模型性能，具有業(yè)務(wù)意義，比如大于0時(shí)，表示該箱的好壞比大于整體樣本好壞比；2）統(tǒng)一變量的尺度，一般介于-4~4之間；3）分層抽樣后WOE不變。缺點(diǎn)：1）對于多類別變量無效。

4.特征信息值IV

? ? ? ? IV可以衡量變量的重要性，進(jìn)而篩選重要的特征。
IV計(jì)算公式： $IV=\sum_i(\frac{G_i}{G}-\frac{B_i}{B})*WOE_i$
IV值是非負(fù)的；woe反映的是每箱中好壞比相對全體樣本好壞比的超出，而IV反映的是這種超出的顯著性。需要注意：1）IV越大，特征越重要，但不宜過大，否則有過擬合的風(fēng)險(xiǎn)；2）IV計(jì)算同樣要求每箱要有好壞樣本；3）不僅與特征重要度有關(guān)，同時(shí)與分箱方式有關(guān)，分箱越細(xì)，IV越大。

5.單變量分析（Single Factor Analysis）

1.特征重要性
IV>=0.2，有較高重要性
IV介于0.1~0.2，有較弱重要性
IV<0.1，幾乎無重要性
2.穩(wěn)定性
通常使用PSI指標(biāo)
3.覆蓋率
篩除掉覆蓋率較低的樣本

6.多變量分析（Multi Factor Analysis）

完成單變量分析后，需要對變量的整體性做把控，進(jìn)一步縮減變量規(guī)模，形成全局更優(yōu)的變量體系。

兩兩線性相關(guān)性，較多的相關(guān)性會造成信息冗余，同時(shí)增加模型開發(fā)、部署與維護(hù)的負(fù)擔(dān)。通常使用相關(guān)性矩陣檢驗(yàn)相關(guān)性
多重共線性。多重共線性是指某一變量，與其他變量的線性組合存在較強(qiáng)的線性相關(guān)性。多重共線性通常使用方差膨脹因子（VIF）衡量，其計(jì)算公式為:
$VIF(f_i|f_1,f_2,...,f_j)=\frac{1}{1-R^2}$ ,其中 $R^2$ 是 $f_1,f_2,...,f_j$ 對 $f_i$ 的線性回歸的決定系數(shù)。一般當(dāng)VIF>10時(shí)，表示存在多重共線性。

（如有不同見解，望不吝指教！?。?/p>

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

搭建金融信貸風(fēng)控中的機(jī)器學(xué)習(xí)模型-(4)特征分箱與編碼

搭建金融信貸風(fēng)控中的機(jī)器學(xué)習(xí)模型-(4)特征分箱與編碼

1.分箱簡述

2.分箱方法

3.WOE編碼

4.特征信息值IV

5.單變量分析（Single Factor Analysis）

6.多變量分析（Multi Factor Analysis）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

搭建金融信貸風(fēng)控中的機(jī)器學(xué)習(xí)模型-(4)特征分箱與編碼

1.分箱簡述

2.分箱方法

3.WOE編碼

4.特征信息值IV

5.單變量分析（Single Factor Analysis）

6.多變量分析（Multi Factor Analysis）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av