搭建金融信貸風(fēng)控中的機(jī)器學(xué)習(xí)模型-(4)特征分箱與編碼

? ? ? ? 風(fēng)控建模常用邏輯回歸模型,模型的特征必須是數(shù)值型特征,因此需要對類別型特征進(jìn)行編碼;此外,為了獲得模型的穩(wěn)定性,建模時(shí)需要對數(shù)值型特征進(jìn)行分箱處理。最終,對進(jìn)入模型的特征還要做單變量與多變量分析。

1.分箱簡述

分箱的定義:1)對于數(shù)值型變量,將取值范圍分為幾個(gè)有限的分段,例如將收入分為<5k,510k,1020k,>20k等;2)對于類別型變量,如果取值很多,將 其合并為較少的幾個(gè)分段。
分箱原因:1)評分結(jié)果需要穩(wěn)定性,當(dāng)樣本數(shù)值型變量發(fā)生較小波動,評分結(jié)果不應(yīng)發(fā)生改變;2)對于類別型變量,當(dāng)取值很多時(shí),如果不分箱會發(fā)生變量膨脹,例如,對31個(gè)省份編碼,獨(dú)熱編碼會有31個(gè)變量,dummy編碼也會有30個(gè)變量。
分箱要求:1)取值較少的類別型變量不需要分箱;2)分箱結(jié)果需要有序性;3)分箱的平衡性;占比最小的箱數(shù)據(jù)不低于5%;4)分箱的單調(diào)性:在要求較嚴(yán)格的情況下,每箱的壞樣本率與箱呈單調(diào)關(guān)系;當(dāng)非單調(diào)時(shí),需要與前箱或后箱合并,選擇前或后有兩種方案:一是選擇合并后卡方值小的方案;二是選擇合并后更加均勻的方案,均勻程度的衡量方式為:balance=\sum_i(p_i)^2,其中p_i為每箱樣本占比,值越小越均勻5)分箱的個(gè)數(shù),通常分箱后,箱的個(gè)數(shù)不能太多,一般5~7個(gè);5)特殊值作為一箱,但不參與單調(diào)性比較,若特殊值的分箱樣本占比低于5%,則與第一箱或最后一箱合并。
分箱的優(yōu)缺點(diǎn)優(yōu)點(diǎn):1)比較穩(wěn)定,原始變量在一定范圍內(nèi)波動,不會影響結(jié)果;2)可以處理缺失值,將缺失值作為特殊取值;3)異常值處理,可以與其他取值合并為一箱;4)無需歸一化,數(shù)值型變量變?yōu)轭悇e型,沒有尺度的差異。缺點(diǎn):1)有一定信息的丟失;2)需要編碼,分箱后是類別型,需要進(jìn)行數(shù)值編碼。

2.分箱方法

分箱的初衷將相似度高的樣本分為一組。無監(jiān)督分箱考慮的是特征分布相似度;有監(jiān)督分箱考慮的是特征業(yè)務(wù)含義相似度。

  • 有監(jiān)督:卡方分箱,決策樹分箱
    優(yōu)點(diǎn):與目標(biāo)變量結(jié)合,最大程度將目標(biāo)變量的信息反映在特征中
    缺點(diǎn):計(jì)算量大
  • 無監(jiān)督:等頻、等距、聚類
    優(yōu)點(diǎn):計(jì)算簡單
    缺點(diǎn):合理性得不到保證;不能充分利用目標(biāo)變量的信息
    卡方分箱
    ? ? ? ? 在有監(jiān)督的分箱中,卡方分箱是一種常用的方法,它以卡方分布和卡方值為基礎(chǔ),判斷某個(gè)因素是否會影響目標(biāo)變量??ǚ綑z驗(yàn)的無效假設(shè)H0是:觀察頻數(shù)與期望頻數(shù)沒有差別,即該因素不會影響目標(biāo)變量?;谠摷僭O(shè)計(jì)算卡方值,它表示觀察值與理論值之間的偏離程度,根據(jù)卡方值與自由度確定獲得當(dāng)前取值及更極端取值的概率P,如果P值很小,則拒絕原假設(shè)。
    卡方值計(jì)算:\chi ^{2}=\sum_{i=1}^{j=m}\sum_{j=1}^{j=k}\frac{(A_{ij}-E_{ij})^{2}}{E_{ij}}
    m為因素取值個(gè)數(shù)
    A_{ij}為第ij類別的觀測頻數(shù)
    E_{ij}為第ij類別的理論頻數(shù)
    ? ? ? ? 卡方分箱是采用自下向上不斷合并的方法完成分箱。在每一步合并的步驟中,依靠最小的卡方值尋找最優(yōu)的合并項(xiàng)。其核心思想是,如果兩個(gè)區(qū)間可以被合并,那么這兩個(gè)壞樣本需要最接近的分布,進(jìn)而意味著兩個(gè)區(qū)間的卡方值是最小的,具體步驟為:
    (1)將數(shù)值變量A排序后分成區(qū)間較多的若干組;
    (2)計(jì)算相鄰區(qū)間合并后的卡方值;
    (3)將卡方值最小的相鄰兩區(qū)間合并;
    (4)不斷重復(fù)2,3步,直至終止條件。終止條件:1)最小卡方值的p值超過0.1或者0.05;2)區(qū)間數(shù)達(dá)到指定數(shù)目。在開發(fā)評分卡模型時(shí),還需滿足以下兩個(gè)條件:1)每箱的壞樣本率單調(diào),如果非單調(diào)性有一定的業(yè)務(wù)含義,可以保留U型或倒U型的壞樣本率分布;2)每箱都有好樣本和壞樣本,為了后續(xù)計(jì)算WOE值。
    以上的分箱是對于數(shù)值型變量。對于無序類別型變量,比如省份,需要對變量進(jìn)行數(shù)值編碼,常用壞樣本率編碼編碼后排序、分箱;對于有序類別型變量,比如學(xué)歷,可以排序后分箱。
    卡方分箱優(yōu)缺點(diǎn):優(yōu)點(diǎn):1)解釋性強(qiáng),以卡方檢驗(yàn)為原理,具有很強(qiáng)的統(tǒng)計(jì)意義,可以解決多分類場景{非違約,輕度違約,重度違約}的分箱;缺點(diǎn):計(jì)算量大。

3.WOE編碼

? ? ? ? 編碼是一種數(shù)值代替非數(shù)值的操作,目的是為了讓模型對其進(jìn)行數(shù)學(xué)運(yùn)算。
i箱WOE值的計(jì)算公式:WOE_i=ln(\frac{G_i/G}{B_i/B})=ln(\frac{G_i}{B_i})-ln(\frac{G}{B})=ln(\frac{G_i}{G})-ln(\frac{B_i}{B})其中。G_i表示第i箱好樣本數(shù),G是全部好樣本數(shù)。
優(yōu)缺點(diǎn):優(yōu)點(diǎn):1)提高模型性能,具有業(yè)務(wù)意義,比如大于0時(shí),表示該箱的好壞比大于整體樣本好壞比;2)統(tǒng)一變量的尺度,一般介于-4~4之間;3)分層抽樣后WOE不變。缺點(diǎn):1)對于多類別變量無效。

4.特征信息值IV

? ? ? ? IV可以衡量變量的重要性,進(jìn)而篩選重要的特征。
IV計(jì)算公式:IV=\sum_i(\frac{G_i}{G}-\frac{B_i}{B})*WOE_i
IV值是非負(fù)的;woe反映的是每箱中好壞比相對全體樣本好壞比的超出,而IV反映的是這種超出的顯著性。需要注意:1)IV越大,特征越重要,但不宜過大,否則有過擬合的風(fēng)險(xiǎn);2)IV計(jì)算同樣要求每箱要有好壞樣本;3)不僅與特征重要度有關(guān),同時(shí)與分箱方式有關(guān),分箱越細(xì),IV越大。

5.單變量分析(Single Factor Analysis)

1.特征重要性
IV>=0.2,有較高重要性
IV介于0.1~0.2,有較弱重要性
IV<0.1,幾乎無重要性
2.穩(wěn)定性
通常使用PSI指標(biāo)
3.覆蓋率
篩除掉覆蓋率較低的樣本

6.多變量分析(Multi Factor Analysis)

完成單變量分析后,需要對變量的整體性做把控,進(jìn)一步縮減變量規(guī)模,形成全局更優(yōu)的變量體系。

  • 兩兩線性相關(guān)性,較多的相關(guān)性會造成信息冗余,同時(shí)增加模型開發(fā)、部署與維護(hù)的負(fù)擔(dān)。通常使用相關(guān)性矩陣檢驗(yàn)相關(guān)性
  • 多重共線性。多重共線性是指某一變量,與其他變量的線性組合存在較強(qiáng)的線性相關(guān)性。多重共線性通常使用方差膨脹因子(VIF)衡量,其計(jì)算公式為:
    VIF(f_i|f_1,f_2,...,f_j)=\frac{1}{1-R^2},其中R^2f_1,f_2,...,f_jf_i的線性回歸的決定系數(shù)。一般當(dāng)VIF>10時(shí),表示存在多重共線性。

(如有不同見解,望不吝指教!?。?/p>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 在做風(fēng)控策略分析時(shí),我們經(jīng)常要對某個(gè)變量進(jìn)行離散化,查看不同階段的好壞用戶分布情況,好的離散化方法可以讓我們找到比...
    鳴人吃土豆閱讀 4,090評論 1 2
  • 簡介 本文通過使用LendingClub的數(shù)據(jù),采用卡方分箱(ChiMerge)、WOE編碼、計(jì)算IV值、單變量和...
    乘物以游心閱讀 6,698評論 4 8
  • 在金融風(fēng)控領(lǐng)域,無人不曉的應(yīng)該是評分卡,美國fico公司算是評分卡的始祖,始于 20世紀(jì)六十年代, 評分卡大致20...
    Helen_Cat閱讀 5,585評論 2 15
  • 以下以申請?jiān)u分卡(A卡)建模為例,描述模型開發(fā)的基本流程:1.數(shù)據(jù)準(zhǔn)備:定義目標(biāo)變量,整合樣本特征;劃分?jǐn)?shù)...
    GQRstar閱讀 3,931評論 0 12
  • 自從上周知道魏書生先生今天要來做報(bào)告,心中那是一個(gè)激動。很久以前就看過先生的書《班主任工作漫談》這本書,但還是...
    長發(fā)及腰閱讀 155評論 0 0

友情鏈接更多精彩內(nèi)容