物體檢測(cè)評(píng)估指標(biāo)簡(jiǎn)介(AP和AR)

翻譯轉(zhuǎn)自 NICKZENG

介紹

這篇文章的目的是總結(jié)各種流行競(jìng)賽采用的一些常見(jiàn)的對(duì)象檢測(cè)指標(biāo)。這篇文章主要關(guān)注指標(biāo)的定義。

熱門(mén)比賽和指標(biāo)

此任務(wù)包含以下競(jìng)賽和指標(biāo):

上面的鏈接指向描述評(píng)估指標(biāo)的網(wǎng)站。簡(jiǎn)單來(lái)說(shuō):

  • 所有這三個(gè)挑戰(zhàn)都使用mAP作為評(píng)估對(duì)象檢測(cè)器的主要指標(biāo)。但是,定義和實(shí)現(xiàn)會(huì)有一些變化。
  • COCO對(duì)象檢測(cè)挑戰(zhàn)還包括平均召回率作為檢測(cè)指標(biāo)。

一些概念

在深入研究競(jìng)爭(zhēng)指標(biāo)之前,讓我們首先回顧一些基本概念。

置信度分?jǐn)?shù)是定位框包含對(duì)象的概率。通常由分類(lèi)器預(yù)測(cè)。

IoU定義為交集面積除以預(yù)測(cè)邊界框的并集??面積:

置信度得分和IoU均用作確定檢測(cè)是真陽(yáng)性還是假陽(yáng)性的標(biāo)準(zhǔn)。下面的偽代碼顯示了如何:

for each detection that has a confidence score > threshold:

  among the ground-truths, choose one that belongs to the same class and has the highest IoU with the detection

  if no ground-truth can be chosen or IoU < threshold (e.g., 0.5):
    the detection is a false positive
  else:
    the detection is a true positive

如偽代碼所示,僅當(dāng)檢測(cè)滿(mǎn)足以下三個(gè)條件時(shí),才將其視為真陽(yáng)性(TP):置信度得分>閾值;預(yù)測(cè)的類(lèi)別與基本事實(shí)的類(lèi)別匹配;預(yù)測(cè)的邊界框的IoU大于地面真實(shí)值的閾值(例如0.5)。違反后兩個(gè)條件中的任何一個(gè)都會(huì)導(dǎo)致假陽(yáng)性(FP)。值得一提的是,PASCAL VOC挑戰(zhàn)賽還包含一些其他規(guī)則,用于定義正確/錯(cuò)誤肯定。如果多個(gè)預(yù)測(cè)對(duì)應(yīng)于相同的真實(shí)性,則只有置信度得分最高的預(yù)測(cè)才算是真實(shí)陽(yáng)性,而其余的則被認(rèn)為是假陽(yáng)性。

當(dāng)應(yīng)該檢測(cè)到地面真相的檢測(cè)的置信度得分低于閾值時(shí),該檢測(cè)就算假陰性(FN)。您可能想知道如何計(jì)算誤報(bào)的數(shù)量,以便計(jì)算以下指標(biāo)。但是,正如將要顯示的那樣,我們并不需要真正數(shù)得出結(jié)果。

當(dāng)不應(yīng)該檢測(cè)任何東西的檢測(cè)的置信度得分低于閾值時(shí),該檢測(cè)就算作真陰性(TN)。但是,在對(duì)象檢測(cè)中,我們通常不關(guān)心此類(lèi)檢測(cè)。

精度(Precision)定義為真實(shí)肯定的數(shù)量除以真實(shí)肯定和錯(cuò)誤肯定的總和:

召回率(Recall)定義為真陽(yáng)性的數(shù)量除以真陽(yáng)性和假陰性的總和:

通過(guò)將置信度分?jǐn)?shù)的閾值設(shè)置在不同級(jí)別,我們可以獲得不同的精確度和召回率。在x軸上具有查全率,在y軸上具有查準(zhǔn)率,我們可以繪制一條精確的查全率曲線(xiàn),該曲線(xiàn)表示兩個(gè)指標(biāo)之間的關(guān)聯(lián)。圖1顯示了一個(gè)模擬圖。

圖一

請(qǐng)注意,隨著置信度分?jǐn)?shù)閾值的降低,召回率單調(diào)增加;精度可以上升和下降,但總體趨勢(shì)是下降。

除了精確召回曲線(xiàn)外,還有另一種稱(chēng)為召回-IoU曲線(xiàn)的曲線(xiàn)。傳統(tǒng)上,該曲線(xiàn)用于評(píng)估檢測(cè)框的有效性(Hosang等人,2016年),但它也是稱(chēng)為mAR的指標(biāo)的基礎(chǔ),該指標(biāo)將在下一部分中介紹。

通過(guò)將IoU的閾值設(shè)置為不同的級(jí)別,檢測(cè)器將相應(yīng)地實(shí)現(xiàn)不同的召回級(jí)別。利用這些值,我們可以繪制召回率-IoU曲線(xiàn)

圖2

曲線(xiàn)顯示召回率隨著IoU的增加而降低。

各種指標(biāo)的定義

本節(jié)介紹以下指標(biāo):平均精度(AP),類(lèi)別平均精度(mAP),平均召回率(AR)和類(lèi)別平均召回率(mAR)。

平均精度(AP)

盡管可以使用精確調(diào)用曲線(xiàn)來(lái)評(píng)估檢測(cè)器的性能,但是當(dāng)曲線(xiàn)彼此相交時(shí),在不同檢測(cè)器之間進(jìn)行比較并不容易。如果我們有一個(gè)可以直接用于比較的數(shù)值指標(biāo),那就更好了。這就是基于精度調(diào)用曲線(xiàn)的平均精度(AP)發(fā)揮作用的地方。本質(zhì)上,AP是所有唯一召回級(jí)別的平均精度。

需要注意的是,為了減少曲線(xiàn)上的擺動(dòng)的影響,在實(shí)際計(jì)算AP之前,我們首先在多個(gè)召回級(jí)別內(nèi)插精度。這里,有兩種方法可以選擇召回級(jí)別,傳統(tǒng)的方式是選擇11個(gè)等距的召回級(jí)別(即0.0、0.1、0.2,…1.0);而PASCAL VOC挑戰(zhàn)采用的新標(biāo)準(zhǔn)將選擇數(shù)據(jù)顯示的所有唯一召回級(jí)別。新標(biāo)準(zhǔn)具有更高的精度,可以測(cè)量低AP的方法之間的差異。圖3顯示了使用新標(biāo)準(zhǔn)如何在原始曲線(xiàn)上獲得內(nèi)插的精確調(diào)用曲線(xiàn)。

圖三

然后可以將AP定義為插值的精確調(diào)用曲線(xiàn)下的面積,可以使用以下公式計(jì)算:


類(lèi)別平均精度(mAP)

AP的計(jì)算僅涉及一類(lèi)。但是,在物體檢測(cè)中,通常有?個(gè)類(lèi)。平均平均精度(mAP)定義為?類(lèi)AP的平均值:

平均召回率(AR)

像AP一樣,平均召回率(AR)也是可用于比較檢測(cè)器性能的數(shù)值指標(biāo)。本質(zhì)上,AR是可以計(jì)算為召回-IoU曲線(xiàn)下面積的兩倍:

應(yīng)該注意的是,出于其最初的目的(Hosang等人,2016年),召回率-IoU曲線(xiàn)無(wú)法區(qū)分不同的類(lèi)別。但是,COCO挑戰(zhàn)做出了這樣的區(qū)分,并且其AR指標(biāo)是按類(lèi)別計(jì)算的,就像AP一樣。

類(lèi)別平均召回率(mAR)

平均召回率定義為所有k類(lèi)的AR平均值:

指標(biāo)之間的差異

Pascal VOC挑戰(zhàn)的mAP度量標(biāo)準(zhǔn)可以看作是評(píng)估對(duì)象檢測(cè)器性能的標(biāo)準(zhǔn)度量標(biāo)準(zhǔn)。其他兩個(gè)比賽采用的主要指標(biāo)可以視為上述指標(biāo)的變體。

COCO挑戰(zhàn)的變體

回想一下,Pascal VOC挑戰(zhàn)使用單個(gè)IoU閾值0.5定義了mAP指標(biāo)。但是,COCO挑戰(zhàn)使用不同的閾值定義了多個(gè)mAP指標(biāo),包括:

除了不同的IoU閾值外,還可以跨不同的對(duì)象尺度計(jì)算出mAP。這些mAP變體均在10 IoU閾值(即0.50、0.55、0.60,...,0.95)上取平均值:

Open Images挑戰(zhàn)的變體

Open Images挑戰(zhàn)的對(duì)象檢測(cè)度量標(biāo)準(zhǔn)是PASCAL VOC挑戰(zhàn)的mAP度量標(biāo)準(zhǔn)的變體,它對(duì)應(yīng)于數(shù)據(jù)集的三個(gè)關(guān)鍵特征,這些特征影響對(duì)正誤的判斷方式:

  • 非詳盡的圖像級(jí)標(biāo)簽;
  • 類(lèi)的語(yǔ)義層次;
  • 某些真相框可能包含對(duì)象組,并且單個(gè)對(duì)象在組內(nèi)的確切位置是未知的。

官方網(wǎng)站上提供了有關(guān)如何處理這些案件更詳細(xì)的說(shuō)明。

實(shí)現(xiàn)

所述Tensorflow目標(biāo)檢測(cè)API提供的各種度量的實(shí)施方式。

還有另一個(gè)開(kāi)源項(xiàng)目,該項(xiàng)目實(shí)現(xiàn)了尊重比賽規(guī)范的各種指標(biāo),具有統(tǒng)一輸入格式的優(yōu)勢(shì)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容