Faster R-CNN 中 RPN 的總結(jié)和疑惑解答

RPN 的全稱為 Region Proposal Networks,提取用于目標(biāo)檢測的 regions,這一步驟意在取代傳統(tǒng) R-CNN中利用 selective search 提取候選框的過程。
Region Proposal Networks.png

特征圖中每個(gè)紅色框的中心點(diǎn)都可以對應(yīng)到原圖的某個(gè)點(diǎn),原圖中的這個(gè)點(diǎn)被稱為錨點(diǎn)(anchor)。對于每個(gè)錨點(diǎn),我們都會以它為中心點(diǎn)選擇 9 個(gè)不同大小和長寬比例的框(論文中為 128 * 128,256 * 256,512 * 512 的三種尺寸,每種尺寸按 1:1,1:2,2:1的長寬比例縮放,共 9 個(gè),它們在預(yù)測時(shí)的順序是固定的),作為 RPN 需要評估的候選框。RPN 的目標(biāo)就是對原圖中的每個(gè)錨點(diǎn)對應(yīng)的 9 個(gè)框,預(yù)測他是否是一個(gè)存在目標(biāo)的框(并不一定包含完整的目標(biāo),只要這個(gè)框與 groud truth 的 IoU>0.7就認(rèn)為這個(gè)框是一個(gè) region proposal)。并且對于預(yù)測為 region proposal 的框, RPN 還會預(yù)測一種長寬縮放和位置平移的位置修正,使得對這個(gè) anchor box 修正后與 groud truth 的位置盡可能重疊度越高,修正后的框作為真正的 region proposal。

RPN 的主要步驟如下:
1、利用 VGG16 等卷積神經(jīng)網(wǎng)絡(luò)的卷積層的到一些特征圖,例如圖中的 256 個(gè) H * W 的特征圖
2、在特征圖上用 3 * 3 的滑動窗口進(jìn)行卷積,得到進(jìn)一步的 256 * H * W 的特征圖,從特征的維度看可以看成 H * W 的特征圖上每個(gè)點(diǎn)都有一個(gè) 256 維的特征向量
3、將特征圖上每個(gè)點(diǎn)的 256 維特征與兩個(gè)全連接層連接。第一個(gè)全連接層輸出 2 * 9 個(gè)值,即這個(gè)錨點(diǎn)對應(yīng)的 9 個(gè) achor box,每個(gè) box 兩個(gè)值分別表示包含目標(biāo)的概率與不包含的概率(使用了 softmax loss 所以需要兩個(gè)值)。例如前兩個(gè)值表示 128 * 128 的 box 包含與不包含目標(biāo)的概率。第二個(gè)全連接層輸出 4 * 9 個(gè)值,每個(gè) anchor box 對應(yīng) 4 個(gè)值,它們分別表征對 groud truth 的長寬與x、y坐標(biāo)的預(yù)測。(訓(xùn)練時(shí)只有包含目標(biāo)(即與 groud truth 的 IoU>0.7)的 anchor box 對 groud truth 位置與大小預(yù)測的誤差才會對 loss 有貢獻(xiàn))
4、對步驟 3 中預(yù)測包含目標(biāo)的 anchor box,利用 4 個(gè)位置回歸值對 box 進(jìn)行平移和縮放,就能產(chǎn)生大量的候選框,此時(shí)利用非極大值抑制篩選一些預(yù)測分較高的候選框,作為最終的 region proposals

疑問一:為什么 RPN能夠預(yù)測 groud truth 的位置(輸入特征只有圖像像素的卷積特征,完全沒有位置信息)?
實(shí)際上步驟 3 中預(yù)測的 4 個(gè)值不是直接預(yù)測 H, W, x, y,很顯然由于特征圖上每個(gè)點(diǎn)都是共享權(quán)值的,它們根本沒法對不同的長寬和位置做出直接的預(yù)測(想象一下輸入的特征只是圖像的卷積特征,完全沒有當(dāng)前 anchor box 的位置大小信息,顯然不可能預(yù)測出 groud truth 的絕對位置和大?。_@ 4 個(gè)值是預(yù)測如何經(jīng)過平移與縮放使得當(dāng)前這個(gè) anchor box 能與 groud truth 盡可能重合(見 R-CNN 論文附錄C):

位置與大小修正公式.png
公式中 P 表示預(yù)測包含目標(biāo)的 region proposal,G 表示這個(gè) region proposal 對應(yīng)的 groud truth,x, y, w, h分別表示橫坐標(biāo)、縱坐標(biāo)、寬和高。dx(P), dy(P), dw(P), dh(P) 即 RPN 預(yù)測的 4 個(gè)值,它們表征的是對位置平移與大小縮放的系數(shù)。
由于 4 個(gè) G 值與 4 個(gè) P 值都是已知的,那么我們訓(xùn)練時(shí)就有了 dx(P), dy(P), dw(P), dh(P) 的目標(biāo)值如圖所示:
位置與大小回歸的目標(biāo)值.png
全連接層就是一個(gè)回歸函數(shù),用于預(yù)測 4 個(gè)系數(shù) d:
位置回歸目標(biāo)函數(shù).png

只有圖像像素卷積信息確實(shí)沒法預(yù)測 groud truth 的絕對位置和大小,但是利用圖像信息完全有可能預(yù)測當(dāng)前 region proposal 在 grouth truth 中的相對位置,我們也就可以預(yù)測怎么對當(dāng)前 anchor box 進(jìn)行平移與縮放得到包含整個(gè)目標(biāo)的候選框。例如一輛自行車,可能當(dāng)前的 anchor box 中包含著自行車的前輪與把手部分,當(dāng) cnn 檢測到這樣的特征時(shí),他就能預(yù)測將這個(gè) box 向右平移并且水平方向擴(kuò)大一倍就是整個(gè)自行車目標(biāo)的 groud truth部分。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容