一、數(shù)據(jù)來源及說明
數(shù)據(jù)來源:https://www.kesci.com/home/dataset/58c614aab84b2c48165a262d
數(shù)據(jù)解釋:數(shù)據(jù)集是互聯(lián)網(wǎng)金融公司拍拍貸的真實業(yè)務(wù)數(shù)據(jù),從2015-01-01到2017-01-30的所有信用標的樣本。數(shù)據(jù)文件名稱為LCIS,大小為69.6 MB,共有37個字段, 292539條信貸記錄。由于字段太多,這里只對用到的業(yè)務(wù)數(shù)據(jù)進行解釋。
ListingId:列表序號,為列表的唯一鍵 ? ? ? ? ? ??
借款金額:列表成交總金額
借款期限:總的期數(shù)(按月計)
借款成功日期:列表成交的日期。都在2015年1月1日以后
初始評級:列表成交時的信用評級。AAA為安全標,AA為賠標,A-F為信用等級
借款類型:分為應(yīng)收安全標,電商,APP閃電,普通和其他
是否首標:該標是否為借款人首標 ? ? ? ? ? ? ? ? ??
年齡:借款人在該列表借款成功時的年齡
性別:該列表借款人性別。
學(xué)歷認證:該列表借款人學(xué)歷認證是否成功。成功則表示有大專及以上學(xué)歷
征信認證:該列表借款人征信認證是否成功。成功則表示有人行征信報告
總待還本金:借款人在該列表成交之前待還本金金額
標當前逾期天數(shù):當期逾期天數(shù),未逾期則為0
標當前狀態(tài):當期狀態(tài),分為‘正常還款中,逾期中,已還清,已債轉(zhuǎn)
recorddate:記錄日期,一般為月末最后一天
二、分析維度
三、數(shù)據(jù)清洗
1、檢查重復(fù)項和異常值
? ? ? ?通過recorddate字段分組,統(tǒng)計ListingId的所有數(shù)量和去除重復(fù)項后的數(shù)據(jù)得知recorddate字段存在非日期數(shù)字,且記錄日期中未出現(xiàn)2017/1/31。此外在記錄日期為2016/9/30中有106個重復(fù)項。
2、選擇子集
? ? ? ?創(chuàng)建新表lcisnew,處理recorddate字段的異常值,刪除重復(fù)項,量化逾期和逾期數(shù)。由于后期要統(tǒng)計逾期率,考慮到后期編寫代碼方便,在創(chuàng)建新表時,就添加了兩列量化逾期和逾期期數(shù)。
3、列名重命名
4、異常數(shù)據(jù)處理
? ? ? ?檢查新表lcisnew(從記錄日期檢查),后獲得291230條數(shù)據(jù),67388個客戶信息,以及5個記錄日期。其它字段也可以按照這個方法檢查。
四、構(gòu)建模型及數(shù)據(jù)可視化
1、用戶維度
1.1、年齡分布情況及逾期率

? ? ? ? 借款客戶中年齡在22-30歲是最多的,為主力借款客戶群體,其次是30-40歲。22歲以下客戶的逾期率是最高的,達到了5.98%,而隨著年齡的增長逾期率呈現(xiàn)下降趨勢,說明年齡越大越清楚逾期對個人的影響,也會越注意控制自己的逾期情況。
1.2、性別、年齡及逾期分布情況

? ? ? ? 男性客戶數(shù)明顯高于女性,而隨著年齡的增長,其借款客戶總數(shù)及逾期率呈下降趨勢,其中除了20歲以下的客戶中女性客戶的逾期率高于男性外,其他各個年齡段的男性客戶逾期率均高于女性,說明在還款習(xí)慣方面,女性客戶更加注重自己的信用。
1.3、學(xué)歷認證及逾期情況

? ? ? ? 2015年學(xué)歷未認證的客戶居多,而2016年學(xué)歷已認證客戶逐漸上升且反超未認證客戶數(shù),成為主要借款客戶,說明學(xué)歷認證逐漸普及化。整體來說學(xué)歷已認證客戶的逾期率較低于未認證的客戶,這說明學(xué)歷已認證的客戶發(fā)生逾期的概率比未認證的客戶小,所以綜合來說,已認證學(xué)歷的客戶都是主要的推廣客戶群。
1.4、征信認證及逾期情況

? ? ? ?征信未認證的客戶占絕大部分且客戶數(shù)呈上漲趨勢,而征信已認證的客戶數(shù)量增長不明顯。另外征信已認證的客戶的逾期率整體上是高于征信未認證客戶的,故征信認證與否與逾期并無太大的關(guān)系。
1.5、新老客戶構(gòu)成情況及逾期情況

? ? ? ?2015年借款客戶中新老客戶差距不大,從2016年開始借款客戶主要以老客戶為主,并且上漲趨勢明顯,與新客戶差距逐漸增大。2015年基本上新客戶逾期率保持在較低水平,而老客戶逾期率比新客戶高,2016年后新老客戶逾期率均有所下降,并且老客戶逾期率下降幅度較大,并低于新客戶逾期率。綜合說明在所有客戶中,老客戶為主要的借款群體,且逾期率基本上能夠控制在非常小的水平,是后續(xù)主要的推廣群體。
2、產(chǎn)品維度
2.1、產(chǎn)品分類及逾期情況

? ? ? ? ?產(chǎn)品類型主要包含五種——普通、其他、APP閃電、電商、應(yīng)收安全標,其中普通、其他、APP閃電這三種產(chǎn)品為主要產(chǎn)品類型,其客戶數(shù)量占98%以上。另外,各種主要產(chǎn)品的逾期率差距不大,但應(yīng)收安全標的逾期率是最低的,電商的客戶數(shù)不多,但逾期率卻有3.24%,這是值得關(guān)注的。
2.2、不同借款金額的客戶數(shù)量及逾期率

? ? ? ? ?借款金額主要集中在1000-10000之間,其中3000-5000的借款客戶人數(shù)最多,其次是5000-10000。而1000-10000范圍的借款客戶其逾期率相對來說是較低的,在3%左右的水平,而1000以下的借款客戶逾期率最高,達到了4.5%以上,是值得關(guān)注的。
2.3、不同借款期限的客戶數(shù)量及逾期率

? ? ? ? 9-12期的借款客戶數(shù)量最多,其次是3-6期。18-24期的客戶逾期率最高,達到了6.74%,3期及以下的客戶逾期率最低,僅0.25%。綜合客戶數(shù)量及逾期情況來看,借款期限在1年以下的客戶是相對來說較優(yōu)質(zhì)的客戶,應(yīng)多多推廣。
五、建議
1、關(guān)于產(chǎn)品
a、建議減少電商產(chǎn)品的競標數(shù)量,增加普通、其他、APP閃電產(chǎn)品的競標數(shù)量
b、將借款金額盡量控制在10000以下,對高額度借款應(yīng)加大風(fēng)控及審核力度,并且在后續(xù)信用維護及催收中也應(yīng)作為重點關(guān)注對象
c、重點推廣并引導(dǎo)客戶選擇1年以下的短期限借款,對于較長期限的借款需求可加大風(fēng)控及審核力度,并時刻關(guān)注其還款情況。
2、關(guān)于客戶
a、盡量對22-40歲的客戶進行定性推廣,而22歲以下及40歲以上客戶的借款需求則可加大風(fēng)控及審核要求,并監(jiān)控其還款情況以做好及時應(yīng)對的準備。另外,對于22歲以下客戶,建議控制其放款客戶數(shù)量及金額,并在后續(xù)還款提醒中添加專屬提醒,讓客戶愛護信用等。
b、加大對20歲以上女性客戶的推廣力度,并在借款的各個環(huán)節(jié)給予女性客戶良好的客戶體驗。