? ? ? ? 風(fēng)控建模常用邏輯回歸模型,模型的特征必須是數(shù)值型特征,因此需要對類別型特征進(jìn)行編碼;此外,為了獲得模型的穩(wěn)定性,建模時(shí)需要對數(shù)值型特征進(jìn)行分箱處理。最終,對進(jìn)入模型的特征還要做單變量與多變量分析。
1.分箱簡述
分箱的定義:1)對于數(shù)值型變量,將取值范圍分為幾個(gè)有限的分段,例如將收入分為<5k,510k,1020k,>20k等;2)對于類別型變量,如果取值很多,將 其合并為較少的幾個(gè)分段。
分箱原因:1)評分結(jié)果需要穩(wěn)定性,當(dāng)樣本數(shù)值型變量發(fā)生較小波動,評分結(jié)果不應(yīng)發(fā)生改變;2)對于類別型變量,當(dāng)取值很多時(shí),如果不分箱會發(fā)生變量膨脹,例如,對31個(gè)省份編碼,獨(dú)熱編碼會有31個(gè)變量,dummy編碼也會有30個(gè)變量。
分箱要求:1)取值較少的類別型變量不需要分箱;2)分箱結(jié)果需要有序性;3)分箱的平衡性;占比最小的箱數(shù)據(jù)不低于5%;4)分箱的單調(diào)性:在要求較嚴(yán)格的情況下,每箱的壞樣本率與箱呈單調(diào)關(guān)系;當(dāng)非單調(diào)時(shí),需要與前箱或后箱合并,選擇前或后有兩種方案:一是選擇合并后卡方值小的方案;二是選擇合并后更加均勻的方案,均勻程度的衡量方式為:,其中
為每箱樣本占比,值越小越均勻5)分箱的個(gè)數(shù),通常分箱后,箱的個(gè)數(shù)不能太多,一般5~7個(gè);5)特殊值作為一箱,但不參與單調(diào)性比較,若特殊值的分箱樣本占比低于5%,則與第一箱或最后一箱合并。
分箱的優(yōu)缺點(diǎn):優(yōu)點(diǎn):1)比較穩(wěn)定,原始變量在一定范圍內(nèi)波動,不會影響結(jié)果;2)可以處理缺失值,將缺失值作為特殊取值;3)異常值處理,可以與其他取值合并為一箱;4)無需歸一化,數(shù)值型變量變?yōu)轭悇e型,沒有尺度的差異。缺點(diǎn):1)有一定信息的丟失;2)需要編碼,分箱后是類別型,需要進(jìn)行數(shù)值編碼。
2.分箱方法
分箱的初衷將相似度高的樣本分為一組。無監(jiān)督分箱考慮的是特征分布相似度;有監(jiān)督分箱考慮的是特征業(yè)務(wù)含義相似度。
- 有監(jiān)督:卡方分箱,決策樹分箱
優(yōu)點(diǎn):與目標(biāo)變量結(jié)合,最大程度將目標(biāo)變量的信息反映在特征中
缺點(diǎn):計(jì)算量大 - 無監(jiān)督:等頻、等距、聚類
優(yōu)點(diǎn):計(jì)算簡單
缺點(diǎn):合理性得不到保證;不能充分利用目標(biāo)變量的信息
卡方分箱
? ? ? ? 在有監(jiān)督的分箱中,卡方分箱是一種常用的方法,它以卡方分布和卡方值為基礎(chǔ),判斷某個(gè)因素是否會影響目標(biāo)變量??ǚ綑z驗(yàn)的無效假設(shè)H0是:觀察頻數(shù)與期望頻數(shù)沒有差別,即該因素不會影響目標(biāo)變量?;谠摷僭O(shè)計(jì)算卡方值,它表示觀察值與理論值之間的偏離程度,根據(jù)卡方值與自由度確定獲得當(dāng)前取值及更極端取值的概率P,如果P值很小,則拒絕原假設(shè)。
卡方值計(jì)算:
為因素取值個(gè)數(shù)
為第
組
類別的觀測頻數(shù)
為第
組
類別的理論頻數(shù)
? ? ? ? 卡方分箱是采用自下向上不斷合并的方法完成分箱。在每一步合并的步驟中,依靠最小的卡方值尋找最優(yōu)的合并項(xiàng)。其核心思想是,如果兩個(gè)區(qū)間可以被合并,那么這兩個(gè)壞樣本需要最接近的分布,進(jìn)而意味著兩個(gè)區(qū)間的卡方值是最小的,具體步驟為:
(1)將數(shù)值變量A排序后分成區(qū)間較多的若干組;
(2)計(jì)算相鄰區(qū)間合并后的卡方值;
(3)將卡方值最小的相鄰兩區(qū)間合并;
(4)不斷重復(fù)2,3步,直至終止條件。終止條件:1)最小卡方值的p值超過0.1或者0.05;2)區(qū)間數(shù)達(dá)到指定數(shù)目。在開發(fā)評分卡模型時(shí),還需滿足以下兩個(gè)條件:1)每箱的壞樣本率單調(diào),如果非單調(diào)性有一定的業(yè)務(wù)含義,可以保留U型或倒U型的壞樣本率分布;2)每箱都有好樣本和壞樣本,為了后續(xù)計(jì)算WOE值。
以上的分箱是對于數(shù)值型變量。對于無序類別型變量,比如省份,需要對變量進(jìn)行數(shù)值編碼,常用壞樣本率編碼編碼后排序、分箱;對于有序類別型變量,比如學(xué)歷,可以排序后分箱。
卡方分箱優(yōu)缺點(diǎn):優(yōu)點(diǎn):1)解釋性強(qiáng),以卡方檢驗(yàn)為原理,具有很強(qiáng)的統(tǒng)計(jì)意義,可以解決多分類場景{非違約,輕度違約,重度違約}的分箱;缺點(diǎn):計(jì)算量大。
3.WOE編碼
? ? ? ? 編碼是一種數(shù)值代替非數(shù)值的操作,目的是為了讓模型對其進(jìn)行數(shù)學(xué)運(yùn)算。
第箱WOE值的計(jì)算公式:
其中。
表示第
箱好樣本數(shù),
是全部好樣本數(shù)。
優(yōu)缺點(diǎn):優(yōu)點(diǎn):1)提高模型性能,具有業(yè)務(wù)意義,比如大于0時(shí),表示該箱的好壞比大于整體樣本好壞比;2)統(tǒng)一變量的尺度,一般介于-4~4之間;3)分層抽樣后WOE不變。缺點(diǎn):1)對于多類別變量無效。
4.特征信息值IV
? ? ? ? IV可以衡量變量的重要性,進(jìn)而篩選重要的特征。
IV計(jì)算公式:
IV值是非負(fù)的;woe反映的是每箱中好壞比相對全體樣本好壞比的超出,而IV反映的是這種超出的顯著性。需要注意:1)IV越大,特征越重要,但不宜過大,否則有過擬合的風(fēng)險(xiǎn);2)IV計(jì)算同樣要求每箱要有好壞樣本;3)不僅與特征重要度有關(guān),同時(shí)與分箱方式有關(guān),分箱越細(xì),IV越大。
5.單變量分析(Single Factor Analysis)
1.特征重要性
IV>=0.2,有較高重要性
IV介于0.1~0.2,有較弱重要性
IV<0.1,幾乎無重要性
2.穩(wěn)定性
通常使用PSI指標(biāo)
3.覆蓋率
篩除掉覆蓋率較低的樣本
6.多變量分析(Multi Factor Analysis)
完成單變量分析后,需要對變量的整體性做把控,進(jìn)一步縮減變量規(guī)模,形成全局更優(yōu)的變量體系。
- 兩兩線性相關(guān)性,較多的相關(guān)性會造成信息冗余,同時(shí)增加模型開發(fā)、部署與維護(hù)的負(fù)擔(dān)。通常使用相關(guān)性矩陣檢驗(yàn)相關(guān)性
- 多重共線性。多重共線性是指某一變量,與其他變量的線性組合存在較強(qiáng)的線性相關(guān)性。多重共線性通常使用方差膨脹因子(VIF)衡量,其計(jì)算公式為:
,其中
是
對
的線性回歸的決定系數(shù)。一般當(dāng)VIF>10時(shí),表示存在多重共線性。
(如有不同見解,望不吝指教!?。?/p>