1、背景
目的:平臺每日活躍用戶沒有顯著提升,但用戶構(gòu)成比例中新訪客比率逐漸上升,老用戶的留存率逐漸下降,根據(jù)需求進行付費用戶流失情況作一個專題分析,內(nèi)容包括:流失用戶識別,定位用戶流失原因,預警即將流失用戶并提供用戶分群名單給運營人員做重點運營
2、問題分析與模型構(gòu)建
定義流失周期——抽取用戶行為特征、消費特征數(shù)據(jù)——建立決策樹模型——用戶流失預警
2.1、確定用戶流失周期
隨著周期越長,用戶的訪問率越低,存在一個時間拐點,在該周期后的用戶訪問率隨周期的延長而下降緩慢,下降緩慢的這批用戶即為平臺長期活躍的用戶,而該周期即為用戶流失周期。
STEP1
從日志數(shù)據(jù)表抽取某時間段數(shù)據(jù)建立用戶最后一次活躍日期的臨時表,該表包含用戶id、最近一次登錄時間兩個字段。
STEP2
從用戶訪問表中抽取此段時間前某時間節(jié)點有過登錄行為的用戶,建立臨時活躍表。
STEP3
以周(天)為時間間隔分別統(tǒng)計此時間段每周(天)回訪用戶數(shù),進一步計算回訪戶用比例,統(tǒng)計匯總成曲線圖。

可以看到,第五周后回訪率下降速度減慢,可將出現(xiàn)連續(xù)5周未登錄APP的用戶定義為流失用戶。
2.2抽取用戶行為特征、消費特征數(shù)據(jù)
指標選取依據(jù):
(1)用戶人口統(tǒng)計學特征
(2)根據(jù)用戶訪問路徑:訪問、注冊、瀏覽、付費、評價提取相對應(yīng)指標,并以日為粒度提取用戶行為指標

其中,具有流失傾向的用戶在訪問行為上可能回顯著不同于正常用戶,而消費行為則反應(yīng)用戶對平臺的忠誠度
2.3建立決策樹模型
決策樹是一種常見的數(shù)據(jù)挖掘方法,由于其具有很好的解釋性,可以有助于定位原因。
2.3.1查看數(shù)據(jù)基本情況


2.3.2將數(shù)據(jù)集劃分為訓練集和測試集

2.3.3 網(wǎng)格搜索法找出最佳參數(shù)

2.3.4訓練模型

2.3.5模型評估
評估指標采用ROC曲線:
ROC曲線縱坐標為真陽性率(True Positive Rate,TPR),
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
橫坐標為假陽率(False Positive Rate,FPR),
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

因此,F(xiàn)PR和TPR是一對相互制約的關(guān)系,F(xiàn)PR越大,說明犯第二類錯誤的樣本越多,把樣本判定為正例的可能性就越大(條件越寬松),所以AUC(Area under roc Curve)越大,說明該模型的性能越好

2.3.6可視化結(jié)果


3.后續(xù)分析
可通過線上部署腳本,定期將前5周用戶產(chǎn)生的數(shù)據(jù)預測用戶流失狀態(tài),并結(jié)合RFM模型分析不同用戶群中流失用戶的特征,針對性地制訂挽留方案。
另一方面,也需要從調(diào)研的角度對流失用戶的原因從定性、定量的角度作出深入研究。