常見的評價指標(biāo)種類實際較為豐富,但因此也很容易遺忘和疏忽,抽空整理如下:
混淆矩陣 (Confusion Matrix)
| 事實為真 | 事實為假 | |
|---|---|---|
| 猜測為陽性 | TP | FP |
| 猜測為陰性 | FN | TN |
混淆矩陣可以作為一個串聯(lián)其他指標(biāo)的關(guān)鍵角色,因此首先將其引入,本身四個指標(biāo)的簡稱就很容易“混淆”了,不準(zhǔn)確記住可不行,這里命名可以很簡單的發(fā)現(xiàn)由兩對元素組成{True,False},{Positive, Negative},其中PN是用來表示預(yù)測的結(jié)果,即陽性與陰性,而True與False則是用于表示預(yù)測相對于事實的對錯,因此FN表示猜測為陰性,而猜測又猜錯了,因此事實結(jié)果與預(yù)測相反,為真。 當(dāng)然2x2只是混淆矩陣的一個特例,高維的情況不再贅述。
準(zhǔn)確率(Accuracy)
根據(jù)混淆矩陣的表示,可以將我們最熟悉的準(zhǔn)確率重新列出如下:
準(zhǔn)確率可以算是我們的“啟蒙”指標(biāo)了,可以很直觀的評價一個模型的預(yù)測結(jié)果優(yōu)劣,但是對于一些特殊情況(例如標(biāo)簽分布即為不均勻等)則表現(xiàn)較差,具有較強的局限性。
精確率&召回率,
Score
通過混淆矩陣,我們可以對精確率(precision)、召回率(recall) 進(jìn)行定義:
根據(jù)公式,精確率直觀表示預(yù)測為真且準(zhǔn)確的樣本占所有預(yù)測為真的樣本的比例,而召回率表示預(yù)測為真且正確的樣本占所有真的樣本的比例,用來衡量搜索系統(tǒng)的“查全率”。相比之下,精確率反應(yīng)的是搜索系統(tǒng)的“查準(zhǔn)率”,利用二者之間相互制約的關(guān)系,可以更全面的對模型的預(yù)測進(jìn)行評價。 在實際使用中需要根據(jù)場景需求對二者進(jìn)行取舍。
而最常見的對召回率與精確率進(jìn)行綜合衡量的指標(biāo)就是 score 了, 其表達(dá)式如下:
其中表示了對精確率的重視程度,當(dāng)大于1時則表現(xiàn)為更加重視精確率,而當(dāng)小于1時則更加重視召回率。特別的當(dāng)?shù)扔?時,稱為平衡F分?jǐn)?shù)(balance F score),也就是十分常用的F1 score:
相比于準(zhǔn)確率,使用F分?jǐn)?shù)可以更全面的衡量模型表現(xiàn)。
ROC&AUC
想必經(jīng)??凑撐牡囊欢▽υu價指標(biāo)AUC并不陌生,AUC(Area under Curve),為曲線下面積,而這根曲線就是上文所提到的ROC(Receiver Operating Characteristic curve),中文譯為受試者工作特征曲線。 想要解釋該曲線的含義我們還是要借助混淆矩陣。除了精確率以及召回率外,我們引入以下兩個指標(biāo):真陽性率(TPR),假陽性率(FPR)。
其中TPR 也稱為敏感性,可以發(fā)現(xiàn)與上面的召回率表示同一個意思,而FPR則可以更形象地形容為誤診率。
而ROC曲線則是按照以FPR為X軸,TPR為Y軸,不斷變換正負(fù)樣例的判斷閾值 t 以獲取不同的數(shù)據(jù)點所畫出的曲線。 對于真正例率TPR,分子是得分>t里面正樣本的數(shù)目,分母是總的正樣本數(shù)目。 而對于假正例率FPR,分子是得分>t里面負(fù)樣本的數(shù)目,分母是總的負(fù)樣本數(shù)目。由于分母是恒定的,因此TPR與FPR都會隨著閾值 t 的減小而不斷增大,若二者增長比例相當(dāng)則表示模型的輸出為隨機判斷,因此ROC曲線多在y=x曲線上方。而一個好的模型,則會更好的分辨二者,從而讓TPR的增大速度快于FPR,從而使曲線更陡,因此ROC曲線下的面積也就越大。如下圖所示:

其中左圖表示隨閾值劃分的結(jié)果,若TP與TN無混疊則表示模型可以將其完全分出來,從而對于AUC越大。
AUC可以看做隨機從正負(fù)樣本中選取一對正負(fù)樣本,其中正樣本的得分大于負(fù)樣本的概率,而這種排序能力越強則可以代表模型的效果越好。
除此之外,AUC也屬于對正負(fù)樣例比例不敏感型,因此具有更強的魯棒性。