分類(lèi)指標(biāo):
準(zhǔn)確率 accuracy
查準(zhǔn)率 precision = TP/(TP+FP)
查全率 recall = TP/(FN+TP)
F1分?jǐn)?shù)?
回歸指標(biāo):
平均絕對(duì)誤差,均方誤差
回歸分?jǐn)?shù)函數(shù):R2分?jǐn)?shù) ,可釋方差分?jǐn)?shù)
誤差的兩個(gè)主要來(lái)源
1,因模型無(wú)法表示基本數(shù)據(jù)的復(fù)雜度(欠擬合)而造成的偏差bias;
high bias的特點(diǎn)是:pay little attention to data, over-simplified, low R2, high SSE(回歸平方誤差之和)
2,因模型對(duì)訓(xùn)練它所用的有限數(shù)據(jù)過(guò)度敏感(過(guò)擬合)而造成的方差variance
high variance的特點(diǎn)是:pay too much attention to data, does not generalize well
借用西瓜書(shū)上的比喻,用機(jī)器學(xué)習(xí)來(lái)判斷一個(gè)物體是不是樹(shù)葉,underfitting是以為所有綠色的都是樹(shù)葉(沒(méi)學(xué)會(huì)該學(xué)的);overfitting是以為樹(shù)葉都要有鋸齒(學(xué)過(guò)頭了,不該學(xué)的也學(xué)了進(jìn)去)。這兩者都不是我們想要的。