人工智能復習1

機器學習項目流程

1 定義問題

1.1 數(shù)據(jù)獲取

1.2 業(yè)務需求分析

1 業(yè)務場景分析,了解業(yè)務背景知識
2 講業(yè)務場景轉化成相關問題
3 選擇合適的算法
4 測試算法可靠性

1.3 設定問題

確定應用場景,到底是那種機器學習類型,監(jiān)督,無監(jiān)督,或者混合起來解決
確定學習類型,在線還是批量,是不是以數(shù)據(jù)流的形式 持續(xù)學習

1.4 確定評估指標

RMSE 均方根誤差
MAE 平均絕對誤差

1.5 驗證問題準確性

測試預測是否準確

2 數(shù)據(jù)獲取研究處理

2.1 感性查看數(shù)據(jù)

DataFrame head() info() describe() hist()等方法

2.2 分割測試集

隨機sklearn.model_selection.train_test_split
分層 某一特征下的子群體差異較大
sklearn.model_selection.StratifiedShuffleSplit

2.3 研究數(shù)據(jù)

尋找特征之間的關系

  • 皮爾遜相關系數(shù)
  • scatter_matrix
  • 組合成新屬性

2.4 處理數(shù)據(jù)

1 處理缺失值,去除不可靠特征
2 文本圖像轉化為數(shù)值類型
3 特征縮放,歸一化,標準化

3 模型

選擇3-5個模型
1 訓練集上評估性能
2 基于驗證集評估性能,交叉驗證
3 微調(diào)模型
網(wǎng)格搜索,隨機搜索
4 集成模型
5 測試集評估

4 形成解決方案

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • Machine Learning in Python (Scikit-learn)-(No.1) 作者:范淼(人人...
    hzyido閱讀 6,488評論 2 13
  • 本內(nèi)容為Udacity課程波士頓房價預測項目,歡迎閱讀,有錯的地方請留言。僅參考不建議作為其他用途。 優(yōu)達學城畢業(yè)...
    MrMiaow閱讀 14,555評論 1 18
  • 目錄 1 特征工程是什么?2 數(shù)據(jù)預處理2.1 無量綱化2.1.1 標準化2.1.2 區(qū)間縮放法2.1.3 標準化...
    親愛的十一熊貓閱讀 1,332評論 0 0
  • 機器學習工程師納米學位 模型評價與驗證 項目 : 預測波士頓房價 第一步. 導入數(shù)據(jù) 在這個項目中,你將利用馬薩諸...
    代號027閱讀 3,945評論 0 1
  • 昨天是我三十六歲生日,從未如此從內(nèi)心重視過自己的生日,或許本命年吧,今年比往年要關注。 因為孩子沒人帶,所以中午選...
    一言一諾閱讀 337評論 3 3

友情鏈接更多精彩內(nèi)容