spark ml邏輯回歸實現(xiàn)

因為之前做的評分卡模型主要基于lr,xgboost。先做一個鳶尾花數(shù)據(jù)集的邏輯回歸例子,熟悉spark ml機器學習流程。

1

先讀取hdfs中文件到rdd中,再轉換為dataframe.這里利用反射機制推斷RDD模式,也可以使用使用編程方式定義RDD模式。

除此之外,如果是規(guī)整的csv等文件(比如逗號分割的),直接用spark.read.csv簡單導入到dataframe.


2

設計pipline,管道的流程。這里的流程為 label轉索引編碼-》features轉索引編碼-》lr模型-》預測結果索引編碼轉string

3 然后就是模型評估了,可以自己寫代碼評估,也可以用? spark的ml庫提供的對模型的摘要總結(summary)

結果error值0.03,roc_auc值0.96。效果還不錯

總結:整個流程使用下來,可能在數(shù)據(jù)的特征工程這塊差別較大,后面實現(xiàn)一下數(shù)據(jù)預處理,離散,證據(jù)權重,iv值等。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容