風(fēng)控(四)——單變量分析

作為一個剛?cè)胄械臄?shù)據(jù)分析職場小白,老板是不會讓你直接去做模型的,很可能你的老板會跟你說:“小白啊,你去給我研究一下星座對我們是否貸款有沒有影響”。雖然你腦袋上已經(jīng)出現(xiàn)一百個問號,但是老板交代的任務(wù)還是得去好好完成以下。
先導(dǎo)入包

import pandas as pd
import numpy as np

讀入數(shù)據(jù)

f = open('ft_zodiac.txt', encoding='utf-8')
ft_zodiac = pd.read_csv(f)  
print(ft_zodiac.shape)
ft_zodiac.head()

數(shù)據(jù)維度為(23519, 4)



一般在實際業(yè)務(wù)中,我們并不會設(shè)定一個明確的界線來分割好壞客戶。比如一般的中短期借貸中會認為逾期15天以上算壞客戶,但其實逾期14天和15天的客戶差別很難區(qū)分。因為,實際業(yè)務(wù)中會留有一個“灰色地帶”。比如定義逾期15天以上的為壞客戶,逾期5天以內(nèi)的為好客戶,逾期6-14天的則定義為“灰色地帶”,也就是其實是分成0,1,2三類的。
去掉“灰色地帶”的數(shù)據(jù)

l = open('zodiac_label.txt')
zodiac_label=pd.read_csv(l)

ft_label = zodiac_label[zodiac_label['label'] != 2]
ft_label.head()

將特征表和標簽表合并

data = pd.merge(ft_label,ft_zodiac,on = 'order_id',how = 'inner')
data.head()

計算星座壞客戶比例:badrate = bad/toal

#星座
zodiac_badrate = {}
for x in zodiac_list:
    
    a = data[data.zodiac == x]
    
    bad = a[a.label == 1]['label'].count()
    good = a[a.label == 0]['label'].count()
    
    zodiac_badrate[x] = bad/(bad+good)

f = zip(zodiac_badrate.keys(),zodiac_badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
zodiac_badrate = pd.DataFrame(f)
zodiac_badrate.columns = pd.Series(['星座','badrate'])
zodiac_badrate

將星座壞客戶比例可視化

from pyecharts import Line
x = zodiac_badrate['星座']
y = zodiac_badrate['badrate']
line = Line('星座')
line.add(1,x,y)

壞客戶比例最高的雙魚(14%)與最低的天蝎(12%)之間差別是非常小的,所以星座這個變量可以說是作用不大。
那我們再來看看生肖。

#生肖
chinese_zodiac_badrate = {}
for x in chinese_zodiac_list:
    
    a = data[data.chinese_zodiac == x]
    
    bad = a[a.label == 1]['label'].count()
    good = a[a.label == 0]['label'].count()
    
    chinese_zodiac_badrate[x] = bad/(bad+good)

f = zip(chinese_zodiac_badrate.keys(),chinese_zodiac_badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
chinese_zodiac_badrate = pd.DataFrame(f)
chinese_zodiac_badrate.columns = pd.Series(['生肖','badrate'])
chinese_zodiac_badrate
from pyecharts import Line
x = chinese_zodiac_badrate['生肖']
y = chinese_zodiac_badrate['badrate']
line = Line('生肖')
line.add(1,x,y)

可以看到,壞客戶率最高的“?!?16%)與“狗”(11%)之間的差異還是比“星座”大的,所以可以說可能研究“生肖”這個特征是比研究“星座”這個特征意義更大的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1.transition需要進行過渡/動畫處理的元素,用 標簽嵌套,在css過渡和動畫中自動應(yīng)用相關(guān)的class類...
    nora_wang閱讀 243評論 0 0
  • 客棧二號店和一號店風(fēng)格完全不同。二號店是比較典型的瑞士鄉(xiāng)村風(fēng)格,因為兩個主要師傅都是在酒店行業(yè)工作過二十多年的老師...
    瑞士農(nóng)兒客棧大掌柜閱讀 6,506評論 0 1
  • 2018年已經(jīng)過去1/6了。 不知道大家有沒有一種,時間不知不覺的過去,年初許下的愿望,立下的flag還遙遙無期的...
    一只奔跑的冰淇淋閱讀 1,082評論 0 6
  • 每一天的生活中,總能遇見和接受各種各樣的善意,來自親人,朋友甚至陌生人。也許對他們來說,只是舉手之勞,微乎其微,但...
    小宇老師_閱讀 1,128評論 7 14

友情鏈接更多精彩內(nèi)容