1 賽題

2 賽題分析
2.1 賽題背景
隨著科技發(fā)展,銀行陸續(xù)打造了線上線下、豐富多樣的客戶觸點(diǎn),來滿足客戶日常業(yè)務(wù)辦理、渠道交易等客戶需求。面對著大量的客戶,銀行需要更全面、準(zhǔn)確地洞察客戶需求。在實(shí)際業(yè)務(wù)開展過程中,需要發(fā)掘客戶流失情況,對客戶的資金變動情況預(yù)判;提前/及時針對客戶進(jìn)行營銷,減少銀行資金流失。本次競賽提供實(shí)際業(yè)務(wù)場景中的客戶行為和資產(chǎn)信息為建模對象,一方面希望能借此展現(xiàn)各參賽選手的數(shù)據(jù)挖掘?qū)崙?zhàn)能力,另一方面需要選手在復(fù)賽中結(jié)合建模的結(jié)果提出相應(yīng)的營銷解決方案,充分體現(xiàn)數(shù)據(jù)分析的價(jià)值。
2.2 賽題分析與理解
通過對賽題的分析與理解,本次比賽的任務(wù)是:從用戶各個季度的基本資料、資金情況及行為信息,建立客戶的流失預(yù)警模型,挖掘客戶流失的原因,輔助業(yè)務(wù)加強(qiáng)客戶維護(hù)及營銷,提高客戶的粘度,減少客戶/資金的流失。
本次建模的目標(biāo)是根據(jù)用戶前兩個季度的歷史數(shù)據(jù),預(yù)測下一季度用戶的標(biāo)簽(-1/0/1,標(biāo)簽存在遞進(jìn)關(guān)系)。問題轉(zhuǎn)換成三分類問題,從1)aum_m(Y)、2)behavior_m(Y)、3)big_event_Q(Z)、4)cunkuan_m(Y)、5)cust_info_q(Z)表中構(gòu)建特征,評估指標(biāo)為Kappa,其本質(zhì)的考量是分類一致性(準(zhǔn)確)且無偏倚。
3 建模方案

3.2 特征工程
3.2.1 用戶信息特征
數(shù)據(jù)源表:cust_info_q(第 Z 季度的客戶信息)
數(shù)值型如家庭年收入,年齡等直接入模。發(fā)現(xiàn)不同標(biāo)簽下年齡分布差異較大。

類別型如性別、客戶等級、職業(yè)等轉(zhuǎn)換成類別變量入模。發(fā)現(xiàn)普通用戶是最大流失客群。

此外,用戶信息的完善程度可能會影響該用戶的忠實(shí)程度,以此加工基本信息的缺失率特征。
3.2.2 資金情況特征
數(shù)據(jù)源表:aum_m(第 Y 月的月末時點(diǎn)資產(chǎn)數(shù)據(jù))、 behavior_m(第Y月的行為數(shù)據(jù))、 cunkuan_m(第 Y 月的存款數(shù)據(jù)):
主要加工存款、aum、動賬金額的方差、平均值、增長率、最大值及最小值,并結(jié)合字段含義進(jìn)行組合衍生。
其中,對各月存款C1,產(chǎn)品數(shù)目C2在不同標(biāo)簽下分布分析發(fā)現(xiàn),高資金流水風(fēng)險(xiǎn)的用戶整體存款額度/產(chǎn)品數(shù)目較低,且隨時間有下降趨勢。

3.2.3 時間特征
數(shù)據(jù)源表:behavior_m(第Y月的行為數(shù)據(jù))、big_event_Q(第 Z 季度的客戶重大歷史數(shù)據(jù))
big_event_Q(Z)主要為第一次轉(zhuǎn)賬、存款等日期,加工了距今及距離開戶的日期間隔可以體現(xiàn)客戶的活躍度;
behavior_m(Y) 季度末有最近交易日期,通過加工出交易的具體時間及周幾等時間特征可以反饋用戶的一些行為習(xí)慣。發(fā)現(xiàn)不通標(biāo)簽用戶交易的時間分布差異較大,對具體小時做了(<10點(diǎn)、>12點(diǎn)、>14點(diǎn))的離散化處理。

3.2.4 序列預(yù)測特征
本模塊特征由于計(jì)算資源不足導(dǎo)致擬合效果差的原因,最終并無入模,但該方法考慮時間序列連續(xù)性預(yù)測未來資金情況,可作為本方案的一個小亮點(diǎn)。
考慮項(xiàng)目的標(biāo)簽定義與資金波動情況關(guān)系較大,本模塊序列預(yù)測特征的思路是依據(jù)前幾個月(如Q3季度作為訓(xùn)練樣本)的歷史資金數(shù)據(jù)用(LSTM或LGB)回歸預(yù)測Q4季度資金情況,并將預(yù)測數(shù)值結(jié)果作為特征入模。
3.2.5 Featuretools組合特征
Featuretools是一個自動特征衍生的開源庫,主要使用轉(zhuǎn)換及聚合的方法自動特征衍生,以補(bǔ)充人為特征衍生的不足。

我們首先通過lightgbm訓(xùn)練并選擇的是split及gain的重要性top150的人工衍生特征,再通過Featuretools 兩兩做乘法/除法做出特征交互特征。考慮Featuretools組合的變量噪聲較多,最終由模型選擇Top300的Featuretools重要特征入模。
3.3 特征選擇
特征選擇的主要方法有:
1)篩選法: 皮爾森相關(guān)系數(shù)(衡量變量間的線性相關(guān)性)、缺失率及單值率等情況;
2)包裝化: 特征集多次(前向/后向)迭代尋找最優(yōu)子集。
3)嵌入法: 通過如LGB模型選擇特征重要性較高的特征。
考慮計(jì)算資源有限,本方案采用的是:篩選法初篩后,進(jìn)一步通過嵌入法由模型選擇重要特征。這種方法較為高效,因?yàn)槟P蛯W(xué)習(xí)的過程和特征選擇的過程是同時進(jìn)行的。
3.4 模型訓(xùn)練
LightGBM(Light Gradient Boosting Machine)是一個實(shí)現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、支持分布式可以快速處理海量數(shù)據(jù)且支持類別型變量等優(yōu)點(diǎn)。
基于衍生出的特征,包含原始特征及類別特征共有 1211 維特征,以此訓(xùn)練Lightgbm,借助Bayes方法調(diào)參,單模型驗(yàn)證集Kappa值為 0.49 左右(線上測試集Kappa 0.475左右)。
3.5 模型融合
受bagging 思想的啟發(fā),我們通過對訓(xùn)練集5次的隨機(jī)抽樣(抽樣比例70%),隨機(jī)列抽樣,并用Bayes優(yōu)化選擇子模型,最后得到5個lgb子模型進(jìn)行bagging。這個方法在參數(shù)和特征上都引入了多樣性(差異性),使得最后bagging的泛化效果有較大的提升,OOT測試集Kappa 0.483左右。

3.6 建模過程中的發(fā)現(xiàn)與創(chuàng)新點(diǎn)
1)總結(jié)了用戶畫像:特征加工過程中我們總結(jié)了高流失用戶的用戶畫像:

2)特征設(shè)計(jì)了序列預(yù)測特征:考慮了時間序列連續(xù)性,預(yù)測未來資金情況,并將預(yù)測數(shù)值結(jié)果作為特征。
3)模型易部署:最終模型使用5個Lightgbm做均值融合,模型結(jié)構(gòu)不復(fù)雜易部署,并取得線上Kappa 0.483的效果。
4 營銷方案
4.1 客戶流失綜合原因分析
現(xiàn)在銀行產(chǎn)品同眾化現(xiàn)象普遍存在,客戶選擇產(chǎn)品和服務(wù)的途徑越來越多,客戶對產(chǎn)品的忠誠度越來越低,而獲得新客的成本遠(yuǎn)高于維護(hù)老客戶成本。所以客戶流失已經(jīng)成為銀行業(yè)最關(guān)注的問題之一。客戶流失原因可以分為兩類:
第一類非主觀意愿缺失。如破產(chǎn)、工資卡變化等。
第二類是需求未滿足。原因比較復(fù)雜,如產(chǎn)品營銷活動少、產(chǎn)品利率較低、業(yè)務(wù)體驗(yàn)差、客戶自身的需求變化、競爭對手的策略、國家政策等。

結(jié)合模型對客群流失的特征(Shap值)分析,對客戶流失的貢獻(xiàn)度較高的特征為:存款金額少、存款產(chǎn)品少、AUM低、年齡較小等。綜合原因可能為產(chǎn)品缺乏競爭力、活動較少、未重視年輕客群等。我們建議可以采取相關(guān)的措施,如:加強(qiáng)客戶關(guān)系維系、差異營銷、擴(kuò)大銷售、更多營銷活動等。
(注:本節(jié)流失原因分析從建模技術(shù)層面分析,這無疑是比較片面的。具體原因可以從考慮到宏觀政策變化、營銷活動等因素分析其流失趨勢情況,并通過流失客戶資金流向情況分析加于佐證。)
4.2 營銷策略
4.2.1 客群劃分
商業(yè)銀行客戶數(shù)量龐大,而銀行自身資源也是比較有限的,考慮成本效益原則,我們需要重點(diǎn)關(guān)注的是具有流失傾向且高質(zhì)量客戶,由此我們首先做兩步的客群劃分:
第一步:借助流失預(yù)警模型我們可以將客戶的流失傾向分為3類:高流失風(fēng)險(xiǎn)客群(-1),低流失風(fēng)險(xiǎn)客群(0),穩(wěn)定客群(1)。

第二步:按客戶質(zhì)量通??纱笾路譃橐韵氯悾旱蛢r(jià)值客戶、有價(jià)值客戶及高附加值客戶。我們可以綜合行內(nèi)客戶等級、Aum值、最近一次消費(fèi)間隔、消費(fèi)頻率、消費(fèi)金額、金融產(chǎn)品數(shù)目、金融產(chǎn)品金額以及未來價(jià)值(通過該序列回歸預(yù)測模型預(yù)測未來AUM值)這幾個維度指標(biāo)去考量,具體劃分客群質(zhì)量我們有兩種方式:
方法一:分別對以各維度指標(biāo)客戶排名分布情況(如:各指標(biāo)的80分位點(diǎn)作為參考閾值),劃分價(jià)值客戶。各維度指標(biāo)具體劃分的閾值可參考業(yè)務(wù)建議。

方法二:以各維度指標(biāo)作為特征,歸一化后采用聚類方式建模劃分K個客群,并以各客群的中心值表現(xiàn),定義劃分出客群的價(jià)值類別。

4.2.2 整體客戶管理策略
綜合流失風(fēng)險(xiǎn)及質(zhì)量屬性劃分客群后,對不同類型客戶制定不同的營銷策略:

4.2.3 重點(diǎn)客戶管理策略
在此細(xì)分結(jié)構(gòu)下我們重點(diǎn)關(guān)注高價(jià)值/附加值客戶的流失風(fēng)險(xiǎn)客戶,并根據(jù)其需求為其量身定制相應(yīng)的營銷方式:
1)借助用戶畫像了解其特點(diǎn),提供個性化服務(wù)及優(yōu)惠政策。如:提醒參加營銷活動、提高貸款授信額度等;
2)通過建立營銷推薦模型,交叉銷售更多優(yōu)質(zhì)的產(chǎn)品;
3)建立專屬客戶經(jīng)理機(jī)制,以客戶響應(yīng)良好的營銷途徑(如電話營銷)及用戶問卷調(diào)查。

5 思考與展望
5.1 關(guān)注客戶生命周期并智能營銷
需要關(guān)注的是,當(dāng)客戶處在不同的生命周期階段時,需要滿足不同的需求。結(jié)合客戶生命周期管理促進(jìn)我們縱向深入的了解每一類型客戶并做量化管理,通過針對處于不同客戶生命周期階段的客戶的區(qū)別對待,實(shí)現(xiàn)企業(yè)資源的最優(yōu)配置。

5.2 其他營銷要點(diǎn)
5.2.1 營銷時間點(diǎn)等偏好
挖掘客戶的手機(jī)app登錄、動賬、購買理財(cái)產(chǎn)品等行為的活躍時間段,參考每個客戶的活躍時間段,針對性地發(fā)送營銷短信。
5.2.2 洞察客戶需求
獲取更多類型(參與活動、理財(cái)習(xí)慣)數(shù)據(jù),評估客戶的興趣偏好,推薦適合客戶的營銷產(chǎn)品。
項(xiàng)目路徑:流失客戶預(yù)測
歡迎star及fork 算法進(jìn)階github博客~