數(shù)據(jù)集:金融欺詐數(shù)據(jù)
目標(biāo):對數(shù)據(jù)集建模,預(yù)測金融行為是否是欺詐行為
數(shù)據(jù)可視化展示EDA
首先導(dǎo)入需要使用的包和讀入數(shù)據(jù)信息


觀察數(shù)據(jù)字段。


cash_out類型的轉(zhuǎn)賬最多。
查看轉(zhuǎn)賬類型和欺詐標(biāo)記的關(guān)系。


發(fā)現(xiàn)欺詐行為存在于大額轉(zhuǎn)賬和全部提現(xiàn)行為中。
所以對數(shù)據(jù)進行清洗,去掉不存在欺詐行為的轉(zhuǎn)賬方式。并且繪制熱力圖觀察變量間的關(guān)系。


數(shù)據(jù)清洗
因為欺詐行為和不欺詐行為的樣本量極為不均,所以采用下采樣的方法,對不是欺詐行為的樣本進行隨機采樣。

得到了特征和標(biāo)簽。
數(shù)據(jù)建模
導(dǎo)入需要的機器學(xué)習(xí)包,這里使用邏輯回歸。
并建模。

結(jié)果可得roc_acu= 0.9751185216666503。
np.mean(y_pre==y_test),精度為0.926948051948052。