緒論
機器如何學習

監(jiān)督式學習
- 算法類型
- 按輸入空間劃分
- Concrete Feature
- Raw Feature
- Abstract Features
- 按輸出空間劃分
- 分類問題
- 回歸問題
- 結構化學習
- 按不同協(xié)議劃分
- Batch Learning
- Online Learning
- Active Learning
- 按樣本標簽劃分
- 監(jiān)督式學習
- 分類:將實例數(shù)據(jù)劃分到合適的分類中(垃圾郵件的過濾)
- K-近鄰
- Logistic回歸
- 決策樹
- 支持向量機
- 樸素貝葉斯
- AdaBoost
- 回歸:預測數(shù)值型數(shù)據(jù)(房屋價格預測)
- 線性回歸
- 樹回歸
- Ridge回歸
- Lasso最小回歸系數(shù)估計
- 分類:將實例數(shù)據(jù)劃分到合適的分類中(垃圾郵件的過濾)
- 半監(jiān)督式學習
- 非監(jiān)督式學習
- K-均值聚類:新聞報道自動分類
- 最大期望算法
- DBSCAN
- Parzen窗設計
- 監(jiān)督式學習
- 按輸入空間劃分
監(jiān)督學習一般使用兩種類型的目標變量
- 標稱型,目標變量只在有限目標集中取值
- 數(shù)值型,目標變量可以從無限數(shù)值集合中取值
選擇算法
- 目的:
- 預測目標變量值:監(jiān)督學習算法
- 目標變量類型離散型:分類器算法
- 目標變量類型連續(xù)型:回歸算法
- 不預測目標變量值:非監(jiān)督學習算法
- 將數(shù)據(jù)劃分為離散的組:聚類算法
- 估計數(shù)據(jù)和每個分組的相似程度:密度估計算法
- 預測目標變量值:監(jiān)督學習算法
- 數(shù)據(jù)
- 特征值為離散型變量或連續(xù)型變量
- 特征值中是否存在缺失值,何種原因造成缺失值
- 數(shù)據(jù)中是否存在異常值,某個特征發(fā)生的頻率如何
開發(fā)機器學習應用程序的步驟
- 收集數(shù)據(jù)
- 準備輸入數(shù)據(jù)
- 分析輸入數(shù)據(jù):缺失值、異常值、維度壓縮
- 訓練算法:非監(jiān)督學習不存在此步
- 測試算法:監(jiān)督學習——必須已知用于評估算法的目標變量值;無監(jiān)督學習——必須用其他的評測手段來檢驗算法的成功率。
- 使用算法