評分卡建模流程

一、樣本與目標(biāo)變量的定義

A卡樣本的確定

同時考慮實際業(yè)務(wù)特性,如最好至少覆蓋12個月(季節(jié)波動),模型的穩(wěn)定性非常重要。假如模型(數(shù)據(jù)分析)的性能對樣本時間窗口高度敏感,改變數(shù)據(jù)時間范圍后的預(yù)測結(jié)果或分析結(jié)論完全不同,則需慎重考慮業(yè)務(wù)原因、樣本選擇或建模技術(shù)是否合理。

要避免觀測性數(shù)據(jù)的自選擇偏差,要確保樣本是建??傮w的隨機觀測,避免系統(tǒng)性差異。如果你在A航空公司的航班上調(diào)查“會考慮選擇搭乘A公司航班”的旅客比例,你會發(fā)現(xiàn)熱愛A公司的顧客比例可能超過了50%,可A公司在市場中占比甚至不足10%。這是因為調(diào)查樣本局限在“隨機選取”的A公司航班的旅客群體之中。又例如幸存者偏差,公司員工對公司滿意程度顯示90%都滿意,但離職了仍居高不下,是因為離職樣本的缺失,離職的員工滿意度應(yīng)當(dāng)設(shè)為0。

樣本的剔除:對于一些特殊類型的客戶,如其行為無法預(yù)測(如:已故客戶)的或帳戶不適合模型參數(shù)的,將不包括在申請評分模型的模型開發(fā)中,如:

欺詐賬戶(非信用風(fēng)險范疇)、政策拒絕賬戶(不使用申請評分模型管理)、重復(fù)或未完成申請(無最終決策)、商務(wù)卡賬戶(不屬于零售風(fēng)險范疇)、員工卡\學(xué)生卡賬戶(特殊類別人群,不使用評分卡管理)、年齡小于18歲或大于65歲(政策上非準(zhǔn)入人群)、特殊產(chǎn)品或特殊渠道申請(不使用申請評分模型管理)、表現(xiàn)期有遺失/失竊卡片賬戶(此類行為表現(xiàn)可能無法反映持戶人的真實行為)、表現(xiàn)期客戶死亡賬戶(此類行為表現(xiàn)可能無法反映持戶人的真實行為)、表現(xiàn)期有爭議(此類行為表現(xiàn)可能無法反映持戶人的真實行為)、表現(xiàn)期純費用逾期、未激活賬戶(無行為表現(xiàn))。

客戶標(biāo)簽的定義:逾期天數(shù)作為標(biāo)記依據(jù),通過滾動率選擇合適的逾期天數(shù)。

二、模型開發(fā)處理

細(xì)分模型開發(fā):整體模型的開發(fā)、維護成本更低,可對整個客戶群體建立一個評分模型,評估每個集內(nèi)的各個細(xì)分主評分模型的有效性。只有當(dāng)針對細(xì)分的評分模型明顯地優(yōu)于針對更廣泛群體的評分模型時,才能證明針對單獨細(xì)分的評分模型更合理。

樣本量過少的處理:如果樣本量足夠大、足夠有代表性,可以對好樣本進行欠抽樣至目標(biāo)好壞比;如果不夠,可以對壞樣本進行過抽樣,但是在最后將概率值校準(zhǔn)回實際好壞比。

變量選擇:缺失率、同一性、IV、穩(wěn)定性(直接跑訓(xùn)練、驗證、測試樣本的PSI)、相關(guān)系數(shù)\VIF共線性(WOE編碼后的特征)、分箱趨勢是否符合業(yè)務(wù)邏輯、逐步回歸、p值。

剔除相關(guān)性高的變量,一般依據(jù)為相關(guān)系數(shù)>0.4、VIF共線性檢驗等。需要注意的是,不止LR需要,xgb或lgb也需要,因為一般會用feature_importance>5來過濾變量,當(dāng)較多變量相關(guān)時,會降低每個變量的權(quán)重(debug)。

盡量不使用準(zhǔn)入規(guī)則、策略(視風(fēng)控流程考慮)相同的變量,會導(dǎo)致模型性能波動(策略修改很頻繁)、樣本特征分布有偏。

概率校準(zhǔn):不平衡數(shù)據(jù)集場景下過采樣訓(xùn)練后使用,單個模型不需要校準(zhǔn),如需和其他模型比較、融合(即使未過采樣也要min-max進行預(yù)測概率尺度統(tǒng)一)需進行校準(zhǔn)。

拒絕推斷:如果之前的審批策略和模型效果不是很好,說明被批準(zhǔn)的客戶群體和被拒絕的客戶群體的分布更加接近,這種情況下拒絕推斷反而不是那么的必要;如果之前的策略和模型效果很好,被批準(zhǔn)的客戶群體和被拒絕的客戶群體的偏差較大,此時拒絕推斷會使模型客群更加接近真實分布。

分箱和概率轉(zhuǎn)換的目的:處理極端值,可以直接將極端值合并到最大或最小的分箱中;使模型更加穩(wěn)定,變量微小的變化不一定改變評分結(jié)果;使自變量和目標(biāo)變量呈正相關(guān)的關(guān)系,符合邏輯回歸的假設(shè)。

三、模型檢驗

模型的系數(shù)同正負(fù):在經(jīng)過WOE轉(zhuǎn)化后,自變量的取值已經(jīng)和目標(biāo)變量全部呈正相關(guān)(WOE計算時為壞比好)或負(fù)相關(guān)(WOE計算時為好比壞),因此如果模型系數(shù)出現(xiàn)個別變量與其他變量方向不同,很可能是出現(xiàn)了共線性的情況,需要再進一步仔細(xì)的篩選變量。

模型通過的切分點:通過率要求、使K-S曲線達到最大值的點、綜合考慮精準(zhǔn)率和召回率計算F-score。

模型性能評價:驗證集、測試集、上線后的監(jiān)控指標(biāo),包括模型KS、AUC、PSI,單變量的IV、分組壞客戶率、PSI。

一般A卡的ks大于30為好,低于20和瞎猜沒區(qū)別,訓(xùn)練和測試集的ks相差5個點以內(nèi),表明沒有發(fā)生明顯的過擬合。

模型部署方式:SAS、存儲跑批、PMML、使用flask或Django寫接口上線,一定要確保變量訓(xùn)練與部署時的邏輯完全一致。

四、模型策略應(yīng)用

模型線上AB測試:兩套模型競爭,一個champion做決策,和一個challenger空跑。也可champion 70%,challenger 30%。

B卡非均衡應(yīng)用:5萬正樣本,200負(fù)樣本,即使過采樣也意義不大(自身攜帶的信息量比較少), 學(xué)習(xí)不完全。評價函數(shù)增加一項:負(fù)樣本的召回率(即此時不關(guān)注KS,而關(guān)注負(fù)樣本可以抓到多少),且負(fù)樣本訓(xùn)練時進行加權(quán)(sklearn默認(rèn)的balanced參數(shù)即可)。如果可能生成決策樹,使壞賬從0.4%(200/50000)下降,就不錯。

需要熟悉敏感的:各種分布(變量的、分?jǐn)?shù)的)、基本運營指標(biāo)(通過率、M1逾期率)

附,參考資料

1、評分卡項目建模標(biāo)準(zhǔn)流程,內(nèi)部資料。

2、智能風(fēng)控答疑文檔,https://zhuanlan.zhihu.com/p/77095933

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容