機(jī)器學(xué)習(xí)導(dǎo)論chap 1

問題空間A
樣本空間S(training_set,testing_set,valid_set)=attributes+label
樣本數(shù)量N
使用training_set中的數(shù)據(jù)構(gòu)造分類器(函數(shù)),再使用生成的分類器對testing_set中的數(shù)據(jù)進(jìn)行分類,將分類結(jié)果與label比較,對分類器效果進(jìn)行評價。
關(guān)于cross-validation,可以分為三種:
#1 simple cross-validation:一般將樣本數(shù)據(jù)分為70%:30%。多的作為training_set,少的作為valid_set。(這里的valid_set我認(rèn)為就是testing_set)
#2 k-fold cross-validation:將樣本分為k等份,每次拿一份出來作valid_set,其余作為training_set,計算valid_set中預(yù)測結(jié)果和實(shí)際結(jié)果間的PRESS(predicted error sum of squares)(一般情況做10次10折交叉驗(yàn)證)
#3 留一(LOOCV):僅留下樣本中的一條數(shù)據(jù)作為valid_set(類似于k=N)(可用于kernel regression,Tikhonov regularization)
在構(gòu)造分類器時應(yīng)該盡量滿足所有training_set中的樣本條件(95%以上)。實(shí)際上100%符合training_set的分類器(分類器空間是相當(dāng)大的,如何在其中進(jìn)行選擇非常重要)有很多,但一般會有最優(yōu)化的控制條件(模型復(fù)雜度等),并且由training_set構(gòu)造的classifier并不一定能很好的分類testing_set或者valid_set(因?yàn)樗鼈冎豢偨Y(jié)了training_set中sample的特點(diǎn))。
關(guān)于classifier的效果評價,可以使用準(zhǔn)確率Accuracy=testing_set樣本中判斷正確的數(shù)量/testing_set樣本總數(shù)
除此之外,顯示數(shù)據(jù)還存在許多問題:不相關(guān)屬性,冗余屬性,缺失屬性,噪聲(系統(tǒng)噪聲,人為噪聲),?。
真正目的是要將我們得到的classifier進(jìn)行應(yīng)用,對A中的其他數(shù)據(jù)進(jìn)行判斷。(input為新數(shù)據(jù)的attributes,output為新數(shù)據(jù)的label)并且有時候會需要解釋所得到的classifier中隱含的知識。