1 分類(lèi)任務(wù)
(注:以下僅討論二分類(lèi)的情況)
針對(duì)預(yù)測(cè)值和實(shí)際值之間的關(guān)系,可以將樣本的預(yù)測(cè)值分成:
- 真正例(True Positive,TP):預(yù)測(cè)為1,實(shí)際為1的樣本
- 真負(fù)例(True Negative,TN):預(yù)測(cè)為0,實(shí)際為0的樣本
- 假正例(False Positive,FP):預(yù)測(cè)為1,實(shí)際為0的樣本
- 假負(fù)例(False Negative,FN):預(yù)測(cè)為0,實(shí)際為1的樣本
因此我們可以得到一個(gè)混淆矩陣:

1.1 單一指標(biāo)
在單一指標(biāo)中,最常用的就是準(zhǔn)確率和召回率。
- 準(zhǔn)確率(又稱(chēng)查準(zhǔn)率):
反應(yīng)了真正例的樣本(預(yù)測(cè)值為1的且預(yù)測(cè)對(duì)的樣本)在所有預(yù)測(cè)為1的樣本中的比例。
- 召回率(又稱(chēng)查全率):
反應(yīng)了真正例的樣本在所有實(shí)際值為1的樣本中的比,該指標(biāo)僅關(guān)心有多少實(shí)際值為1的樣本被預(yù)測(cè)出來(lái)。
此外,還有真正例率和負(fù)正利率,在接下來(lái)要討論的ROC曲線(xiàn)中用到。
- 真正例率(TPR)
代表分類(lèi)器預(yù)測(cè)的正類(lèi)中實(shí)際正實(shí)例占所有正實(shí)例的比例。
- 負(fù)正例率(FPR)
代表分類(lèi)器預(yù)測(cè)的正類(lèi)中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例。
通常來(lái)說(shuō),單一指標(biāo)只能描述分類(lèi)器的部分能力。討論一個(gè)極端情況:
如果我們將分類(lèi)器的閾值設(shè)置的很低(假設(shè)為0),所有樣本都分為1,則recall=100%,而precision可能很低;
如果我們將分類(lèi)器的閾值設(shè)置的很高(假設(shè)為0.9),則只有分類(lèi)器十分確信的樣本被分成1,則precision有可能接近100%(既分類(lèi)器沒(méi)有認(rèn)錯(cuò)實(shí)際為1的樣本),而recall可能很低(沒(méi)有查全)。因此,使用單一指標(biāo)往往不合適。
在實(shí)際討論中,通常需要綜合2個(gè)指標(biāo)。因此,之后提出了ROC曲線(xiàn)和AUC曲線(xiàn),用于綜合兩個(gè)指標(biāo),更全面地反應(yīng)檢測(cè)器的能力。
1.2 ROC曲線(xiàn)和AUC值
ROC曲線(xiàn)使用了TPR作為縱軸,F(xiàn)PR作為橫軸,通過(guò)不斷地調(diào)整閾值(從大到?。?,可以得到一組TPR和FPR的坐標(biāo)點(diǎn),從而繪制出如下的ROC曲線(xiàn)。

從直觀上講,ROC曲線(xiàn)越接近(0,1)點(diǎn),分類(lèi)能力越強(qiáng)。
在實(shí)際比較中,可以使用AUC(Area under Curve,曲線(xiàn)下的面積)作為分類(lèi)器分類(lèi)能力的評(píng)判標(biāo)準(zhǔn),分類(lèi)器分類(lèi)能力越強(qiáng),AUC越高,最高為1。
2 單目標(biāo)跟蹤任務(wù)
2.1 Precision Plot和Success Plot
Precision Plot和Success Plot是兩個(gè)衡量目標(biāo)跟蹤精準(zhǔn)度的基本參數(shù)。
- Precision Plot:預(yù)測(cè)位置中心點(diǎn)與標(biāo)注的中心位置間的歐式距離,以像素為單位。
結(jié)果用average precision plot來(lái)表示,即為該視頻序列所有幀的平均誤差。 - success plot:主要指的是預(yù)測(cè)目標(biāo)所在benchmark的重合程度,即IOU。
其中,為tracked bounding box,
為ground_truth bounding box。同樣,結(jié)果用average success plot來(lái)表示,即為該視頻序列所有幀的平均誤差。
之后,通過(guò)不斷調(diào)整閾值,可以得到average precision plot和success plot隨閾值變化的圖像。

2.2 Accuracy,Robustness,EAO
在實(shí)時(shí)目標(biāo)跟蹤權(quán)威平臺(tái)VOT2017中,官方使用了3個(gè)評(píng)價(jià)指標(biāo)Accuracy,Robustness和EAO。
- A(Accuracy,準(zhǔn)確率):是指跟蹤器在單個(gè)測(cè)試序列下的平均重疊率(兩矩形框的相交部分面積除以?xún)删匦慰虻南嗖⒉糠值拿娣e。即average success plot。
- R(Robustness,魯棒性):是指單個(gè)測(cè)試序列下的跟蹤器失敗次數(shù),當(dāng)重疊率為0時(shí)即可判定為失敗。
- EAO(Expected Average Overlap,平均重疊期望):對(duì)每個(gè)跟蹤器在一個(gè)短時(shí)圖像序列上的非重置重疊的期望值,是VOT2017的主要評(píng)價(jià)標(biāo)準(zhǔn)。
2.3 EAO詳解
EAO提出的目的是希望一個(gè)好的跟蹤器同時(shí)擁有好的A和R。
假設(shè)有幀長(zhǎng)的一個(gè)視頻,那么一個(gè)跟蹤器在這段視頻上的覆蓋率精度為每一幀精度的均值,這個(gè)精度就是IOU,用
表示,即
那么一個(gè)理想的EAO就是把從
到
對(duì)應(yīng)的
求個(gè)平均,就是期望平均覆蓋率。(
是一個(gè)典型視頻長(zhǎng)度的范圍,這些長(zhǎng)度的視頻占所有視頻的概率是0.5)