七月亚洲毛片,久久久久久久久久国产

一、樣本與目標(biāo)變量的定義

A卡樣本的確定：

同時考慮實際業(yè)務(wù)特性，如最好至少覆蓋12個月（季節(jié)波動），模型的穩(wěn)定性非常重要。假如模型（數(shù)據(jù)分析）的性能對樣本時間窗口高度敏感，改變數(shù)據(jù)時間范圍后的預(yù)測結(jié)果或分析結(jié)論完全不同，則需慎重考慮業(yè)務(wù)原因、樣本選擇或建模技術(shù)是否合理。

要避免觀測性數(shù)據(jù)的自選擇偏差，要確保樣本是建?？傮w的隨機觀測，避免系統(tǒng)性差異。如果你在A航空公司的航班上調(diào)查“會考慮選擇搭乘A公司航班”的旅客比例，你會發(fā)現(xiàn)熱愛A公司的顧客比例可能超過了50%，可A公司在市場中占比甚至不足10%。這是因為調(diào)查樣本局限在“隨機選取”的A公司航班的旅客群體之中。又例如幸存者偏差，公司員工對公司滿意程度顯示90%都滿意，但離職了仍居高不下，是因為離職樣本的缺失，離職的員工滿意度應(yīng)當(dāng)設(shè)為0。

樣本的剔除：對于一些特殊類型的客戶，如其行為無法預(yù)測（如：已故客戶）的或帳戶不適合模型參數(shù)的，將不包括在申請評分模型的模型開發(fā)中，如：

欺詐賬戶（非信用風(fēng)險范疇）、政策拒絕賬戶（不使用申請評分模型管理）、重復(fù)或未完成申請（無最終決策）、商務(wù)卡賬戶（不屬于零售風(fēng)險范疇）、員工卡\學(xué)生卡賬戶（特殊類別人群，不使用評分卡管理）、年齡小于18歲或大于65歲（政策上非準(zhǔn)入人群）、特殊產(chǎn)品或特殊渠道申請（不使用申請評分模型管理）、表現(xiàn)期有遺失/失竊卡片賬戶（此類行為表現(xiàn)可能無法反映持戶人的真實行為）、表現(xiàn)期客戶死亡賬戶（此類行為表現(xiàn)可能無法反映持戶人的真實行為）、表現(xiàn)期有爭議（此類行為表現(xiàn)可能無法反映持戶人的真實行為）、表現(xiàn)期純費用逾期、未激活賬戶（無行為表現(xiàn)）。

客戶標(biāo)簽的定義：逾期天數(shù)作為標(biāo)記依據(jù)，通過滾動率選擇合適的逾期天數(shù)。

二、模型開發(fā)處理

細(xì)分模型開發(fā)：整體模型的開發(fā)、維護成本更低，可對整個客戶群體建立一個評分模型，評估每個集內(nèi)的各個細(xì)分主評分模型的有效性。只有當(dāng)針對細(xì)分的評分模型明顯地優(yōu)于針對更廣泛群體的評分模型時，才能證明針對單獨細(xì)分的評分模型更合理。

樣本量過少的處理：如果樣本量足夠大、足夠有代表性，可以對好樣本進行欠抽樣至目標(biāo)好壞比；如果不夠，可以對壞樣本進行過抽樣，但是在最后將概率值校準(zhǔn)回實際好壞比。

變量選擇：缺失率、同一性、IV、穩(wěn)定性（直接跑訓(xùn)練、驗證、測試樣本的PSI）、相關(guān)系數(shù)\VIF共線性（WOE編碼后的特征）、分箱趨勢是否符合業(yè)務(wù)邏輯、逐步回歸、p值。

剔除相關(guān)性高的變量，一般依據(jù)為相關(guān)系數(shù)>0.4、VIF共線性檢驗等。需要注意的是，不止LR需要，xgb或lgb也需要，因為一般會用feature_importance>5來過濾變量，當(dāng)較多變量相關(guān)時，會降低每個變量的權(quán)重（debug）。

盡量不使用準(zhǔn)入規(guī)則、策略（視風(fēng)控流程考慮）相同的變量，會導(dǎo)致模型性能波動（策略修改很頻繁）、樣本特征分布有偏。

概率校準(zhǔn)：不平衡數(shù)據(jù)集場景下過采樣訓(xùn)練后使用，單個模型不需要校準(zhǔn)，如需和其他模型比較、融合（即使未過采樣也要min-max進行預(yù)測概率尺度統(tǒng)一）需進行校準(zhǔn)。

拒絕推斷：如果之前的審批策略和模型效果不是很好，說明被批準(zhǔn)的客戶群體和被拒絕的客戶群體的分布更加接近，這種情況下拒絕推斷反而不是那么的必要；如果之前的策略和模型效果很好，被批準(zhǔn)的客戶群體和被拒絕的客戶群體的偏差較大，此時拒絕推斷會使模型客群更加接近真實分布。

分箱和概率轉(zhuǎn)換的目的：處理極端值，可以直接將極端值合并到最大或最小的分箱中；使模型更加穩(wěn)定，變量微小的變化不一定改變評分結(jié)果；使自變量和目標(biāo)變量呈正相關(guān)的關(guān)系，符合邏輯回歸的假設(shè)。

三、模型檢驗

模型的系數(shù)同正負(fù)：在經(jīng)過WOE轉(zhuǎn)化后，自變量的取值已經(jīng)和目標(biāo)變量全部呈正相關(guān)（WOE計算時為壞比好）或負(fù)相關(guān)（WOE計算時為好比壞），因此如果模型系數(shù)出現(xiàn)個別變量與其他變量方向不同，很可能是出現(xiàn)了共線性的情況，需要再進一步仔細(xì)的篩選變量。

模型通過的切分點：通過率要求、使K-S曲線達到最大值的點、綜合考慮精準(zhǔn)率和召回率計算F-score。

模型性能評價：驗證集、測試集、上線后的監(jiān)控指標(biāo)，包括模型KS、AUC、PSI，單變量的IV、分組壞客戶率、PSI。

一般A卡的ks大于30為好，低于20和瞎猜沒區(qū)別，訓(xùn)練和測試集的ks相差5個點以內(nèi)，表明沒有發(fā)生明顯的過擬合。

模型部署方式：SAS、存儲跑批、PMML、使用flask或Django寫接口上線，一定要確保變量訓(xùn)練與部署時的邏輯完全一致。

四、模型策略應(yīng)用

模型線上AB測試：兩套模型競爭，一個champion做決策，和一個challenger空跑。也可champion 70%，challenger 30%。

B卡非均衡應(yīng)用：5萬正樣本，200負(fù)樣本，即使過采樣也意義不大（自身攜帶的信息量比較少），學(xué)習(xí)不完全。評價函數(shù)增加一項：負(fù)樣本的召回率（即此時不關(guān)注KS，而關(guān)注負(fù)樣本可以抓到多少），且負(fù)樣本訓(xùn)練時進行加權(quán)（sklearn默認(rèn)的balanced參數(shù)即可）。如果可能生成決策樹，使壞賬從0.4%（200/50000）下降，就不錯。

需要熟悉敏感的：各種分布（變量的、分?jǐn)?shù)的）、基本運營指標(biāo)（通過率、M1逾期率）

附，參考資料：

1、評分卡項目建模標(biāo)準(zhǔn)流程，內(nèi)部資料。

2、智能風(fēng)控答疑文檔，https://zhuanlan.zhihu.com/p/77095933

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

評分卡建模流程

評分卡建模流程

一、樣本與目標(biāo)變量的定義

二、模型開發(fā)處理

三、模型檢驗

四、模型策略應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

評分卡建模流程

一、樣本與目標(biāo)變量的定義

二、模型開發(fā)處理

三、模型檢驗

四、模型策略應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三、模型檢驗

四、模型策略應(yīng)用