常見的監(jiān)督式學(xué)習(xí)任務(wù):回歸任務(wù)(預(yù)測值)和分類任務(wù)(預(yù)測類)
數(shù)據(jù)集
數(shù)據(jù)集: MNIST, 識別圖像中的手寫數(shù)字,機(jī)器學(xué)習(xí)領(lǐng)域的“Hello World”?
MNIST介紹:7W數(shù)據(jù)集(圖片),每張圖片784個特征,圖片是:28*28像素,每個特征代表一個像素點(diǎn)的強(qiáng)度,從0(白色)到255(黑色);目標(biāo)label:表示的數(shù)字
SGD
隨機(jī)梯度下降分類器:用于二元分類
用到的工具:
圖像顯示:
%matplotlib inline?
matplotlib.pyplot
imshow: image show 圖像顯示,參數(shù)cmap:color map, 顏色圖譜
np.random.shuffle/permutation
SGD分類器
性能評估
K-folder交叉驗(yàn)證
準(zhǔn)確率通常無法成為分類器的首要性能指標(biāo),特別是在處理偏斜數(shù)據(jù)集;
混淆矩陣:
[[真負(fù)類TN, 假正類FP]
[假負(fù)類FN,真正類TP]]
T:True, F:False; P:Positive, N:Negtive
比如:二元分類,預(yù)測數(shù)字是否為5,那就有兩個類別:正類別“5”和負(fù)類別“非5”
TN: 本身是負(fù)類,預(yù)測對了。將6成功預(yù)測為“非5”
FP:本身是負(fù)類,預(yù)測錯誤。將6預(yù)測為“5”
FN:將5預(yù)測為“非5”
TP:將5成功預(yù)測為“5”
精度:precision = TP / (TP + FP)?
例如:總共(TP+FP)個實(shí)例里,有TP個是正確的。
當(dāng)他說一張圖片是5時,只有77%是準(zhǔn)確的
召回率/靈敏度:recall = TP / (TP + FN)
解釋:(TP+FN )個實(shí)例里找出了TP個正確的
只有79%數(shù)字5被檢測出來。
from sklearn.metrics? import presicion_score, recall_score
F1分?jǐn)?shù):
f1_score
重點(diǎn)理解:魚與熊掌不可兼得,精度/召回率權(quán)衡