因為之前做的評分卡模型主要基于lr,xgboost。先做一個鳶尾花數(shù)據(jù)集的邏輯回歸例子,熟悉spark ml機器學習流程。
1
先讀取hdfs中文件到rdd中,再轉換為dataframe.這里利用反射機制推斷RDD模式,也可以使用使用編程方式定義RDD模式。
除此之外,如果是規(guī)整的csv等文件(比如逗號分割的),直接用spark.read.csv簡單導入到dataframe.

2
設計pipline,管道的流程。這里的流程為 label轉索引編碼-》features轉索引編碼-》lr模型-》預測結果索引編碼轉string

3 然后就是模型評估了,可以自己寫代碼評估,也可以用? spark的ml庫提供的對模型的摘要總結(summary)
結果error值0.03,roc_auc值0.96。效果還不錯

總結:整個流程使用下來,可能在數(shù)據(jù)的特征工程這塊差別較大,后面實現(xiàn)一下數(shù)據(jù)預處理,離散,證據(jù)權重,iv值等。