關(guān)于置信度的理解:
對(duì)于每個(gè)GT,都要找到負(fù)責(zé)預(yù)測(cè)它的單元,即確定圖像的cell和具體的anchor box。
YOLOv3分三個(gè)尺度預(yù)測(cè),一共9個(gè)anchor box,每個(gè)尺度的每個(gè)cell分別預(yù)測(cè)三個(gè)box。
那么對(duì)于給定的GT,將GT頂點(diǎn)平移到頂點(diǎn)處,選出最大IOu對(duì)應(yīng)的anchor。因?yàn)槊總€(gè)anchor都屬于一個(gè)尺度,所以就確定了圖像的尺度,然后根據(jù)GT中心位置坐標(biāo),即可確定cell,將對(duì)應(yīng)尺度對(duì)應(yīng)cell,對(duì)應(yīng)anchor,對(duì)應(yīng)的置信度單元設(shè)置為1。
該置信度除了反應(yīng)該cell是否有目標(biāo)(最匹配的cell和尺度),還反映box預(yù)測(cè)準(zhǔn)確度(每個(gè)box對(duì)應(yīng)一個(gè)anchor box,該anchor box就是事先挑選出的IOU最大的box,最匹配的box)。實(shí)際預(yù)測(cè)時(shí),該值越大,說明該box對(duì)應(yīng)的anchor box越匹配,根據(jù)該anchor box預(yù)測(cè)的box就可能越匹配。
整體過程:
得到多尺度特征圖后,每個(gè)位置對(duì)應(yīng)一個(gè)cell,每個(gè)cell提取該區(qū)域的高維、高語義特征,用于后續(xù)的分類和回歸任務(wù)。每個(gè)cell對(duì)應(yīng)三個(gè)box。,每個(gè)box對(duì)應(yīng)預(yù)測(cè)置信度、類別和坐標(biāo)偏移量。最后使用NMS得到最終預(yù)測(cè)結(jié)果。
記住一點(diǎn),最終的損失,都是在特征層的高維特征作為輸入計(jì)算的