機器學習項目流程
1 定義問題
1.1 數(shù)據(jù)獲取
1.2 業(yè)務需求分析
1 業(yè)務場景分析,了解業(yè)務背景知識
2 講業(yè)務場景轉化成相關問題
3 選擇合適的算法
4 測試算法可靠性
1.3 設定問題
確定應用場景,到底是那種機器學習類型,監(jiān)督,無監(jiān)督,或者混合起來解決
確定學習類型,在線還是批量,是不是以數(shù)據(jù)流的形式 持續(xù)學習
1.4 確定評估指標
RMSE 均方根誤差
MAE 平均絕對誤差
1.5 驗證問題準確性
測試預測是否準確
2 數(shù)據(jù)獲取研究處理
2.1 感性查看數(shù)據(jù)
DataFrame head() info() describe() hist()等方法
2.2 分割測試集
隨機sklearn.model_selection.train_test_split
分層 某一特征下的子群體差異較大
sklearn.model_selection.StratifiedShuffleSplit
2.3 研究數(shù)據(jù)
尋找特征之間的關系
- 皮爾遜相關系數(shù)
- scatter_matrix
- 組合成新屬性
2.4 處理數(shù)據(jù)
1 處理缺失值,去除不可靠特征
2 文本圖像轉化為數(shù)值類型
3 特征縮放,歸一化,標準化
3 模型
選擇3-5個模型
1 訓練集上評估性能
2 基于驗證集評估性能,交叉驗證
3 微調(diào)模型
網(wǎng)格搜索,隨機搜索
4 集成模型
5 測試集評估