二分類性能指標(biāo)(最經(jīng)常使用)
首先一說到二分類性能指標(biāo),一般都會(huì)祭出混淆矩陣,我們這里給出混淆矩陣:
(TP ,T表示true,p = 1 FN ,F表示預(yù)測(cè)錯(cuò)誤,N表示預(yù)測(cè)的結(jié)果 1 = P,0= N
第一位表示預(yù)測(cè)結(jié)果正確or 錯(cuò)誤,第二位表示預(yù)測(cè)的是1 or 0)
TP = 預(yù)測(cè)1,實(shí)際1(P)
TN = 預(yù)測(cè)0,實(shí)際0(N)
FN = 預(yù)測(cè)0,實(shí)際1(P)
FP = 預(yù)測(cè)1,實(shí)際0(N)
實(shí)際是1的總共是:TP + FN
實(shí)際是0的總共是:TN + FP
準(zhǔn)確率(Accuracy) = (預(yù)測(cè)對(duì)是1的 + 預(yù)測(cè)對(duì)是0的)/總數(shù)(實(shí)際是1的 + 實(shí)際是0的)
準(zhǔn)確率(Accuracy) = (TP + TN)/(TP + FN + TN +FP)
意義是預(yù)測(cè)正確的sample占所有sample的比例,表示了一個(gè)分類器的區(qū)分能力,注意,這里的區(qū)分能力沒有偏向于是正例還是負(fù)例,這也是Accuracy作為性能指標(biāo)最大的問題所在
精確率(Precision): TP/(TP + FP)
精確率代表的是:在所有被分類為正例的樣本中,真正是正例的比例
這個(gè)指標(biāo)常常被應(yīng)用于推薦系統(tǒng)中,對(duì)某一個(gè)商品,以用戶喜歡為1,不喜歡為0,使用查準(zhǔn)率進(jìn)行性能衡量。
召回率(Recall):TP/(TP + FN)
召回率的定義是,在所有實(shí)際為正例的樣本中,被預(yù)測(cè)為正例的樣本比例,簡(jiǎn)單說就是“總共這么多1,你預(yù)測(cè)出了多少?”
特異性(Specificity):TN/(TN+FP)
特異性的語義為:實(shí)際為負(fù)的樣本中,有多大概率被預(yù)測(cè)出來,這個(gè)定義和召回率非常像,二者區(qū)別只是對(duì)象不同,召回率是針對(duì)正例,而特異性針對(duì)的是負(fù)例??梢院?jiǎn)單把特異性理解成“負(fù)例查全率”。
假正例率 FPR = FP/(FP + TN)
也就是誤診率,實(shí)際是假的被判定為真的概率