20170928隨手

機(jī)器學(xué)習(xí)導(dǎo)論chap 1

圖片發(fā)自簡書App

問題空間A

樣本空間S(training_set,testing_set,valid_set)=attributes+label

樣本數(shù)量N

使用training_set中的數(shù)據(jù)構(gòu)造分類器(函數(shù)),再使用生成的分類器對testing_set中的數(shù)據(jù)進(jìn)行分類,將分類結(jié)果與label比較,對分類器效果進(jìn)行評價。

關(guān)于cross-validation,可以分為三種:

#1 simple cross-validation:一般將樣本數(shù)據(jù)分為70%:30%。多的作為training_set,少的作為valid_set。(這里的valid_set我認(rèn)為就是testing_set)

#2 k-fold cross-validation:將樣本分為k等份,每次拿一份出來作valid_set,其余作為training_set,計算valid_set中預(yù)測結(jié)果和實(shí)際結(jié)果間的PRESS(predicted error sum of squares)(一般情況做10次10折交叉驗(yàn)證)

#3 留一(LOOCV):僅留下樣本中的一條數(shù)據(jù)作為valid_set(類似于k=N)(可用于kernel regression,Tikhonov regularization)

在構(gòu)造分類器時應(yīng)該盡量滿足所有training_set中的樣本條件(95%以上)。實(shí)際上100%符合training_set的分類器(分類器空間是相當(dāng)大的,如何在其中進(jìn)行選擇非常重要)有很多,但一般會有最優(yōu)化的控制條件(模型復(fù)雜度等),并且由training_set構(gòu)造的classifier并不一定能很好的分類testing_set或者valid_set(因?yàn)樗鼈冎豢偨Y(jié)了training_set中sample的特點(diǎn))。

關(guān)于classifier的效果評價,可以使用準(zhǔn)確率Accuracy=testing_set樣本中判斷正確的數(shù)量/testing_set樣本總數(shù)

除此之外,顯示數(shù)據(jù)還存在許多問題:不相關(guān)屬性,冗余屬性,缺失屬性,噪聲(系統(tǒng)噪聲,人為噪聲),?。

真正目的是要將我們得到的classifier進(jìn)行應(yīng)用,對A中的其他數(shù)據(jù)進(jìn)行判斷。(input為新數(shù)據(jù)的attributes,output為新數(shù)據(jù)的label)并且有時候會需要解釋所得到的classifier中隱含的知識。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容