
下面介紹常用目標(biāo)檢測算法
1 滑窗法
滑窗(Sliding Window)法的思路非常簡單,首先需要一個已經(jīng)訓(xùn)練好的分類器,然后把圖像按照一定間隔和不同的大小分成一個個窗口,在這些窗口上執(zhí)行分類器,如果得到了較高的分類分?jǐn)?shù),就認(rèn)為是檢測到了物體。把每個窗口都用分類器執(zhí)行了一遍后,再對得到的分?jǐn)?shù)做一些非極大值抑制等,最后就得到了物體類別和對應(yīng)區(qū)域。
滑窗法非常簡單,但是效率極其低下,尤其還要考慮物體的長寬比。如果執(zhí)行比較耗時的分類器,用滑窗法就不太現(xiàn)實(shí),常見的都是用一些小型分類網(wǎng)絡(luò)和滑窗法相結(jié)合的應(yīng)用。
2 PASCAL VOC ,mAP和IOU
PASCAL VOC是一套用于評估圖像分類、檢測、分割和人體姿勢動作等的數(shù)據(jù)集,PASCAL VOC包含4大類共20個細(xì)分類別,分別是人、動物(鳥、貓、牛、狗、馬、羊)、交通工具(飛機(jī)、自行車、船、大巴、轎車、摩托車、火車),室內(nèi)(瓶子、椅子、餐桌、盆栽、沙發(fā)、電視/顯示器等)。
預(yù)測檢測算法一般有兩個標(biāo)準(zhǔn),即是否正確預(yù)測了框內(nèi)的物體類別;預(yù)測的框和人工標(biāo)注的框的重合程度。這兩個標(biāo)準(zhǔn)的量化指標(biāo)分別mAP(mean Average Precision)和IOU(Intersection Over Union)。
IOU是用來衡量預(yù)測的物體框和真實(shí)框的重合程度。

圖中實(shí)線是人工標(biāo)注的框,虛線是模型預(yù)測的框。重合度的計(jì)算方法如圖中的灰色區(qū)域所示。評價一個算法的時候,一種常見的方法是先設(shè)定一個IOU的閾值,只要算法找到的框的IOU大于這個閾值,就是一個有效的檢測。
3 Selective Search和R-CNN
滑窗法相當(dāng)于是對一張圖像上的子區(qū)域進(jìn)行類似窮舉式的搜索,一般情況下這種低效率搜索到的區(qū)域里大部分都是沒有任何物體的。那么能不能找到一種方法只對圖像中包含物體的區(qū)域進(jìn)行搜索,如果能找到這樣的方法,就能提高物體檢測的效率。于是就有了廣為熟知的Selective Search。
Selective Search的思路是,可能存在物體的區(qū)域應(yīng)該有某種相似性的或是連續(xù)的區(qū)域。針對這兩個特點(diǎn),Selective Search采用的是超像素合并的想法(有分割算法在圖像上產(chǎn)生很多小區(qū)域,把這引起小區(qū)域看成是最基礎(chǔ)的小區(qū)域,于是這些小區(qū)域可以看成超像素),然后再對相似的區(qū)域進(jìn)行合并,形成更大一點(diǎn)的區(qū)域。衡量相似性的標(biāo)準(zhǔn)可以是顏色、紋理、大小等。不斷迭加小區(qū)域,最后合并為大區(qū)域,最后整張圖會合并成為一個區(qū)域。在不斷合并的過程中,給每個區(qū)域做一個外切的矩形,于是就得到了想當(dāng)數(shù)量的可能包含物體的矩形方框。
相比滑窗法,Selective Search不再是窮舉式的搜索。
Selective Search能夠更加高效的尋找找可能包含物體的方框,后來深度學(xué)習(xí)出現(xiàn)后,用來CNN提取特征,然后再做個分類不就相當(dāng)于檢測嗎?但是直接用Selective Search選出的框未必精確,所以R-CNN加入了一些改進(jìn),利用和物體標(biāo)準(zhǔn)框的位置的回歸來修正Selective Search提出的原始框。
4 SPP、ROI Pooling和Fast R-CNN
R-CNN雖然比滑窗法快了很多,但是可用性還是很差。一個簡單的檢測任務(wù)需要用Selective Search提出上千個框(R-CNN中是2000個)。這上千個區(qū)域都需要單獨(dú)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行一次前向計(jì)算,速度自然也就很慢了。(待續(xù))