大師兄的數(shù)據(jù)分析學習筆記(三十):半監(jiān)督學習
大師兄的數(shù)據(jù)分析學習筆記(三十二):模型評估(一)
一、分類模型
二、回歸模型
三、聚類
四、關聯(lián)
五、半監(jiān)督學習
六、模型的選擇
-
在當前的環(huán)境下,靠一種模型解決所有問題不現(xiàn)實,所以面對不同的情況,需要選擇不同的算法模型。
- 根據(jù)上圖可以看出SKLEAN官網(wǎng)建議如下:
- 樣本<50:獲得更多數(shù)據(jù)
- 如果有標簽化的數(shù)據(jù):
- 樣本<100k:使用線性的支持向量機
- 如果線性的支持向量機不工作:
- 如果是文本數(shù)據(jù):使用樸素貝葉斯
- 如果不是文本數(shù)據(jù):使用KNN
- 如果KNN不工作:使用集成支持向量機
- 樣本>100k:使用梯度下降法
- 如果梯度下降法不工作:使用kernel approximation
- 如果沒有標簽化數(shù)據(jù)且類型的數(shù)量已知:
- 樣本<10k:使用K-means
- 如果K-means不工作:使用層次聚類或GMM
- 向本>10k: 使用MiniBatch Kmeans
- 如果沒有標簽化數(shù)據(jù)且類型的數(shù)量未知:
- 樣本<10k:使用MeanShift和VBGMM
- 樣本>10k:靠運氣
- 如果預測的不是類別,而是連續(xù)數(shù)值:
- 樣本<100k:
- 少量重要特征:使用Lasso和ElasticNet
- 非少量重要特征:使用嶺回歸和SVR
- 如果嶺回歸和SVR不工作,使用和函數(shù)更復雜的SVR和集成算法
- 如果預測的不是類別、也不是連續(xù)值:
- 使用降維方式
- 如果降維方式不工作:
- 樣本<10k:使用Isomap和spectral Embedding
- 如果Isomap和spectral Embedding不工作:使用LLE
- 樣本>10k:使用kernel approximation
