《機器學習實戰(zhàn)》第一章

緒論

機器如何學習

監(jiān)督式學習
  • 算法類型
    • 按輸入空間劃分
      • Concrete Feature
      • Raw Feature
      • Abstract Features
    • 按輸出空間劃分
      • 分類問題
      • 回歸問題
      • 結構化學習
    • 按不同協(xié)議劃分
      • Batch Learning
      • Online Learning
      • Active Learning
    • 按樣本標簽劃分
      • 監(jiān)督式學習
        • 分類:將實例數(shù)據(jù)劃分到合適的分類中(垃圾郵件的過濾)
          • K-近鄰
          • Logistic回歸
          • 決策樹
          • 支持向量機
          • 樸素貝葉斯
          • AdaBoost
        • 回歸:預測數(shù)值型數(shù)據(jù)(房屋價格預測)
          • 線性回歸
          • 樹回歸
          • Ridge回歸
          • Lasso最小回歸系數(shù)估計
      • 半監(jiān)督式學習
      • 非監(jiān)督式學習
        • K-均值聚類:新聞報道自動分類
        • 最大期望算法
        • DBSCAN
        • Parzen窗設計

監(jiān)督學習一般使用兩種類型的目標變量

  • 標稱型,目標變量只在有限目標集中取值
  • 數(shù)值型,目標變量可以從無限數(shù)值集合中取值

選擇算法

  • 目的:
    • 預測目標變量值:監(jiān)督學習算法
      • 目標變量類型離散型:分類器算法
      • 目標變量類型連續(xù)型:回歸算法
    • 不預測目標變量值:非監(jiān)督學習算法
      • 將數(shù)據(jù)劃分為離散的組:聚類算法
      • 估計數(shù)據(jù)和每個分組的相似程度:密度估計算法
  • 數(shù)據(jù)
    • 特征值為離散型變量或連續(xù)型變量
    • 特征值中是否存在缺失值,何種原因造成缺失值
    • 數(shù)據(jù)中是否存在異常值,某個特征發(fā)生的頻率如何

開發(fā)機器學習應用程序的步驟

  • 收集數(shù)據(jù)
  • 準備輸入數(shù)據(jù)
  • 分析輸入數(shù)據(jù):缺失值、異常值、維度壓縮
  • 訓練算法:非監(jiān)督學習不存在此步
  • 測試算法:監(jiān)督學習——必須已知用于評估算法的目標變量值;無監(jiān)督學習——必須用其他的評測手段來檢驗算法的成功率。
  • 使用算法
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容