R-FCN論文翻譯——中文版

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書

聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文,謝謝!

翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation

R-FCN: Object Detection via Region-based Fully Convolutional Networks

摘要

我們提出了基于區(qū)域的全卷積網(wǎng)絡(luò),以實(shí)現(xiàn)準(zhǔn)確和高效的目標(biāo)檢測(cè)。與先前的基于區(qū)域的檢測(cè)器(如Fast/Faster R-CNN [6,18])相比,這些檢測(cè)器應(yīng)用昂貴的每個(gè)區(qū)域子網(wǎng)絡(luò)數(shù)百次,我們的基于區(qū)域的檢測(cè)器是全卷積的,幾乎所有計(jì)算都在整張圖像上共享。為了實(shí)現(xiàn)這一目標(biāo),我們提出了位置敏感分?jǐn)?shù)圖,以解決圖像分類中的平移不變性與目標(biāo)檢測(cè)中的平移變化之間的困境。因此,我們的方法可以自然地采用全卷積圖像分類器的主干網(wǎng)絡(luò),如最新的殘差網(wǎng)絡(luò)(ResNets)[9],用于目標(biāo)檢測(cè)。我們使用101層ResNet在PASCAL VOC數(shù)據(jù)集上展示了具有競爭力的結(jié)果(例如,2007數(shù)據(jù)集上$83.6%$的mAP)。同時(shí),我們的測(cè)試結(jié)果是以每張圖像170ms的測(cè)試速度實(shí)現(xiàn)的,比Faster R-CNN對(duì)應(yīng)部分速度快2.5-20倍。代碼公開發(fā)布在:[https://github.com/daijifeng001/r-fcn](https://github.com/daijifeng001/r-fcn)。

1. 引言

流行的目標(biāo)檢測(cè)深度網(wǎng)絡(luò)家族[8,6,18]通過感興趣區(qū)域(RoI)池化層[6]可以劃分成兩個(gè)子網(wǎng)絡(luò):(1)獨(dú)立于RoI的共享“全卷積”子網(wǎng)絡(luò),(ii)不共享計(jì)算的RoI子網(wǎng)絡(luò)。這種分解[8]以往是由開創(chuàng)性的分類架構(gòu)產(chǎn)生的,例如AlexNet[10]和VGG Nets[23]等,在設(shè)計(jì)上它由兩個(gè)子網(wǎng)絡(luò)組成——一個(gè)卷積子網(wǎng)絡(luò)以空間池化層結(jié)束,后面是幾個(gè)全連接(fc)層。因此,圖像分類網(wǎng)絡(luò)中的(最后一個(gè))空間池化層在目標(biāo)檢測(cè)網(wǎng)絡(luò)中[8,6,18]自然地變成了RoI池化層。

但是最近最先進(jìn)的圖像分類網(wǎng)絡(luò),如ResNet(ResNets)[9]和GoogLeNets[24,26]是全卷積的。通過類比,在目標(biāo)檢測(cè)架構(gòu)中使用所有卷積層來構(gòu)建共享的卷積子網(wǎng)絡(luò)似乎是很自然的,使得RoI的子網(wǎng)絡(luò)沒有隱藏層。然而,在這項(xiàng)工作中通過經(jīng)驗(yàn)性的調(diào)查發(fā)現(xiàn),這個(gè)天真的解決方案有相當(dāng)差的檢測(cè)精度,不符合網(wǎng)絡(luò)的優(yōu)秀分類精度。為了解決這個(gè)問題,在ResNet論文[9]中,F(xiàn)aster R-CNN檢測(cè)器[18]的RoI池層不自然地插入在兩組卷積層之間——這創(chuàng)建了更深的RoI子網(wǎng)絡(luò),其改善了精度,由于非共享的RoI計(jì)算,因此是以更低的速度為代價(jià)。

我們認(rèn)為,前述的非自然設(shè)計(jì)是由于增加圖像分類的變換不變性與目標(biāo)檢測(cè)的平移可變性而導(dǎo)致的兩難境地。一方面,圖像級(jí)別的分類任務(wù)有利于平移不變性——圖像內(nèi)目標(biāo)的移動(dòng)應(yīng)該是無差別的。因此,深度(全)卷積架構(gòu)盡可能保持平移不變,這一點(diǎn)可以從ImageNet分類[9,24,26]的主要結(jié)果中得到證實(shí)。另一方面,目標(biāo)檢測(cè)任務(wù)的定位表示需要一定程度上的平移可變性。例如,在候選框內(nèi)目標(biāo)變換應(yīng)該產(chǎn)生有意義的響應(yīng),用于描述候選框與目標(biāo)的重疊程度。我們假設(shè)圖像分類網(wǎng)絡(luò)中較深的卷積層對(duì)平移不太敏感。為了解決這個(gè)困境,ResNet論文的檢測(cè)流程[9]將RoI池化層插入到卷積中——特定區(qū)域的操作打破了平移不變性,當(dāng)在不同區(qū)域進(jìn)行評(píng)估時(shí),RoI后卷積層不再是平移不變的。然而,這個(gè)設(shè)計(jì)犧牲了訓(xùn)練和測(cè)試效率,因?yàn)樗肓舜罅康膮^(qū)域?qū)樱ū?)。

表1:使用ResNet-101的基于區(qū)域的檢測(cè)器方法[9]。

Table 1

在本文中,我們開發(fā)了一個(gè)稱為基于區(qū)域的全卷積網(wǎng)絡(luò)(R-FCN)框架來進(jìn)行目標(biāo)檢測(cè)。我們的網(wǎng)絡(luò)由共享的全卷積架構(gòu)組成,就像FCN[15]一樣。為了將平移可變性并入FCN,我們通過使用一組專門的卷積層作為FCN輸出來構(gòu)建一組位置敏感的分?jǐn)?shù)圖。這些分?jǐn)?shù)圖中的每一個(gè)都對(duì)關(guān)于相對(duì)空間位置(的位置信息進(jìn)行編碼例如,“在目標(biāo)的左邊”)。在這個(gè)FCN之上,我們添加了一個(gè)位置敏感的RoI池化層,它從這些分?jǐn)?shù)圖中獲取信息,并且后面沒有權(quán)重(卷積/fc)層。整個(gè)架構(gòu)是端到端的學(xué)習(xí)。所有可學(xué)習(xí)的層都是卷積的,并在整個(gè)圖像上共享,但對(duì)目標(biāo)檢測(cè)所需的空間信息進(jìn)行編碼。圖1說明了關(guān)鍵思想,表1比較了基于區(qū)域的檢測(cè)器方法。

Figure 1

圖1:R-FCN目標(biāo)檢測(cè)的主要思想。在這個(gè)例子中,由全卷積網(wǎng)絡(luò)生成了k×k=3×3的位置敏感分?jǐn)?shù)圖。對(duì)于RoI中的每個(gè)k×k組塊,僅在$k^2$個(gè)映射中的一個(gè)上執(zhí)行池化(用不同的顏色標(biāo)記)。

使用101層殘余網(wǎng)絡(luò)(ResNet-101)[9]作為主干網(wǎng)絡(luò),我們的R-FCN在PASCAL VOC 2007數(shù)據(jù)集和2012數(shù)據(jù)集上分別獲得了$83.6%$ mAP和 $82.0%$ mAP。同時(shí),使用ResNet-101,我們的結(jié)果在測(cè)試時(shí)是以每張圖像170ms的速度實(shí)現(xiàn)的,比[9]中對(duì)應(yīng)的Faster R-CNN + ResNet-101快了2.5倍到20倍。這些實(shí)驗(yàn)表明,我們的方法設(shè)法解決平移不變性/可變性和全卷積圖像級(jí)分類器之間的困境,如ResNet可以有效地轉(zhuǎn)換為全卷積目標(biāo)檢測(cè)器。代碼公開發(fā)布在:https://github.com/daijifeng001/r-fcn。

2. 我們的方法

概述。根據(jù)R-CNN[7],我們采用了流行的兩階段目標(biāo)檢測(cè)策略[7,8,6,18,1,22],其中包括:(i)區(qū)域提議和(ii)區(qū)域分類。盡管不依賴區(qū)域提議的方法確實(shí)存在(例如,[17,14]),但是基于區(qū)域的系統(tǒng)在幾個(gè)基準(zhǔn)數(shù)據(jù)集中仍然具有領(lǐng)先的準(zhǔn)確性[5,13,20]。我們通過區(qū)域提議網(wǎng)絡(luò)(RPN)提取候選區(qū)域[18],其本身就是一個(gè)全卷積架構(gòu)。在[18]之后,我們?cè)赗PN和R-FCN之間的共享特征。圖2顯示了系統(tǒng)的概述。

Figure 2

圖2:R-FCN的總體架構(gòu)。區(qū)域建議網(wǎng)絡(luò)(RPN)[18]提出了候選RoI,然后將其應(yīng)用于評(píng)分圖上。所有可學(xué)習(xí)的權(quán)重層都是卷積的,并在整個(gè)圖像上計(jì)算;每個(gè)RoI的計(jì)算成本可以忽略不計(jì)。

R-FCN以位置敏感的RoI池化層結(jié)束。該層聚合最后一個(gè)卷積層的輸出,并為每個(gè)RoI生成分?jǐn)?shù)。與[8,6]不同的是,我們的位置敏感RoI層進(jìn)行選擇性池化,并且$k\times k$個(gè)組塊中的每一個(gè)僅聚合$k\times k$分?jǐn)?shù)圖中一個(gè)得分圖的響應(yīng)。通過端到端的訓(xùn)練,這個(gè)RoI層可以管理最后一個(gè)卷積層來學(xué)習(xí)專門的位置敏感分?jǐn)?shù)圖。圖1說明了這個(gè)想法。圖3和圖4顯示了一個(gè)例子。詳細(xì)介紹如下。

Figure 3

圖3:行人類別的R-FCN(k×k=3×3)可視化。

Figure 4

圖4:當(dāng)RoI不能正確重疊目標(biāo)時(shí)的可視化。

主干架構(gòu)。本文中典型的R-FCN是基于ResNet-101[9]的,但其他網(wǎng)絡(luò)[10,23]也適用。ResNet-101有100個(gè)卷積層,后面是全局平均池化和1000類的全連接層。我們刪除了平均池化層和全連接層,只使用卷積層來計(jì)算特征映射。我們使用由[9]的作者發(fā)布的ResNet-101,在ImageNet[20]上預(yù)訓(xùn)練。ResNet-101中的最后一個(gè)卷積塊是2048維,我們附加一個(gè)隨機(jī)初始化的1024維的1×1卷積層來降維(準(zhǔn)確地說,這增加了表1中的深度)。然后,我們應(yīng)用$k^2(C+1)$通道卷積層來生成分?jǐn)?shù)圖,如下所述。

位置敏感的分?jǐn)?shù)圖和位置敏感的RoI池化。為了將位置信息顯式地編碼到每個(gè)RoI中,我們用規(guī)則網(wǎng)格將每個(gè)RoI矩形分成$k \times k$的組塊。對(duì)于大小為$w \times h$的RoI矩形,組塊的大小為$\approx \frac{w}{k} \times \frac{h}{k}$[8,6]。在我們的方法中,構(gòu)建最后的卷積層為每個(gè)類別產(chǎn)生$k^2$分?jǐn)?shù)圖。在第$(i,j)$個(gè)組塊($0 \leq i,j \leq k-1$)中,我們定義了一個(gè)位置敏感的RoI池化操作,它只在第$(i,j)$個(gè)分?jǐn)?shù)映射中進(jìn)行池化:$$r_c(i,j | \Theta) = \sum_{(x,y)\in \text{bin}(i,j)} z_{i,j,c}(x+x_0, y+y_0 | \Theta)/n. $$ 其中$r_c(i,j)$是第$(i,j)$個(gè)組塊中第$c$個(gè)類別的池化響應(yīng),$z_{i,j,c}$是$k^2(C+1)$分?jǐn)?shù)圖中的一個(gè)分?jǐn)?shù)圖,$(x_0, y_0)$表示一個(gè)RoI的左上角,$n$是組塊中的像素?cái)?shù)量,$\Theta$表示網(wǎng)絡(luò)的所有可學(xué)習(xí)參數(shù)。第$(i,j)$個(gè)組塊跨越$\lfloor i\frac{w}{k} \rfloor \leq x < \lceil (i+1)\frac{w}{k} \rceil$和$\lfloor j\frac{h}{k} \rfloor \leq y < \lceil (j+1)\frac{h}{k} \rceil$。公式(1)的操作如圖1所示,其中顏色表示一對(duì)$(i,j)$。方程(1)執(zhí)行平均池化(正如我們?cè)诒疚闹惺褂玫哪菢樱?,但是也可以?zhí)行最大池化。

$k^2$位置敏感的分?jǐn)?shù)會(huì)在RoI上投票。在本文中,我們通過對(duì)分?jǐn)?shù)進(jìn)行平均來簡單地投票,為每個(gè)RoI產(chǎn)生一個(gè)$(C+1)$維向量:$r_c(\Theta)=\sum_{i,j}r_c(i,j | \Theta)$。然后,我們計(jì)算跨類別的softmax響應(yīng):$s_c(\Theta)=e^{r_c(\Theta)} / \sum_{c'=0}^C e^{r_{c'}(\Theta)}$。它們被用來評(píng)估訓(xùn)練期間的交叉熵?fù)p失以及在推斷期間的RoI名。

我們以類似的方式進(jìn)一步解決邊界框回歸[7,6]。除了上面的$k2(C+1)$維卷積層,我們?cè)谶吔缈蚧貧w上附加了一個(gè)$4k2$維兄弟卷積層。在這組$4k2$維映射上執(zhí)行位置敏感的RoI池化,為每個(gè)RoI生成一個(gè)$4k2$維的向量。然后通過平均投票聚合到$4$維向量中。這個(gè)$4$維向量將邊界框參數(shù)化為$t=(t_x, t_y, t_w, t_h)$,參見[6]中的參數(shù)化。我們注意到為簡單起見,我們執(zhí)行類別不可知的邊界框回歸,但類別特定的對(duì)應(yīng)部分(即,具有$4k^2C$維輸出層)是適用的。

位置敏感分?jǐn)?shù)圖的概念部分受到了[3]的啟發(fā),它開發(fā)了用于實(shí)例級(jí)語義分割的FCN。我們進(jìn)一步介紹了位置敏感的RoI池化層,它可以讓學(xué)習(xí)的分?jǐn)?shù)圖用于目標(biāo)檢測(cè)。RoI層之后沒有可學(xué)習(xí)的層,使得區(qū)域計(jì)算幾乎是零成本的,并加速訓(xùn)練和推斷。

訓(xùn)練。通過預(yù)先計(jì)算的區(qū)域提議,很容易端到端訓(xùn)練R-FCN架構(gòu)。根據(jù)[6],我們定義的損失函數(shù)是每個(gè)RoI的交叉熵?fù)p失和邊界框回歸損失的總和:$L(s, t_{x,y,w,h}) = L_{cls}(s_{c^{*}}) + \lambda [c^{*}>0] L_{reg}(t, t*)$。這里$c{*}$是RoI的真實(shí)標(biāo)簽($c{*}=0$表示背景)。$L_{cls}(s_{c{*}})=-\log(s_{c{*}})$是分類的交叉熵?fù)p失,$L_{reg}$是[6]中定義的邊界框回歸損失,$t*$表示真實(shí)的邊界框。$[c^{*}>0]$是一個(gè)指標(biāo),如果參數(shù)為true,則等于1,否則為0。我們將平衡權(quán)重設(shè)置為$\lambda=1$,如[6]中所示。我們將正樣本定義為與真實(shí)邊界框重疊的交并比(IoU)至少為0.5的ROI,否則為負(fù)樣本。

我們的方法很容易在訓(xùn)練期間采用在線難例挖掘(OHEM)[22]。我們可忽略的每個(gè)RoI計(jì)算使得幾乎零成本的樣例挖掘成為可能。假設(shè)每張圖像有$N$個(gè)提議,在前向傳播中,我們?cè)u(píng)估所有$N$個(gè)提議的損失。然后,我們按損失對(duì)所有的RoI(正例和負(fù)例)進(jìn)行分類,并選擇具有最高損失的$B$個(gè)RoI。反向傳播[11]是基于選定的樣例進(jìn)行的。由于我們每個(gè)RoI的計(jì)算可以忽略不計(jì),所以前向傳播時(shí)間幾乎不受$N$的影響,與[22]中的OHEM Fast R-CNN相比,這可能使訓(xùn)練時(shí)間加倍。我們?cè)谙乱还?jié)的表3中提供全面的時(shí)間統(tǒng)計(jì)。

我們使用0.0005的權(quán)重衰減和0.9的動(dòng)量。默認(rèn)情況下,我們使用單尺度訓(xùn)練:調(diào)整圖像的大小,使得尺度(圖像的較短邊)為600像素[6,18]。每個(gè)GPU擁有1張圖像,并為反向傳播選擇$B=128$個(gè)RoI。我們用8個(gè)GPU來訓(xùn)練模型(所以有效的最小批數(shù)據(jù)大小是$8\times$)。在VOC上我們對(duì)R-FCN進(jìn)行微調(diào),使用0.001學(xué)習(xí)率進(jìn)行2萬次迭代和使用0.0001學(xué)習(xí)率進(jìn)行1萬次迭代。為了使R-FCN與RPN共享特征(圖2),我們采用[18]中的四步交替訓(xùn)練,交替訓(xùn)練RPN和R-FCN。

推斷。如圖2所示,在RPN和R-FCN之間計(jì)算共享的特征映射(在一個(gè)單一尺度的圖像上)。然后,RPN部分提出RoI,R-FCN部分在其上評(píng)估類別分?jǐn)?shù)并回歸邊界框。在推斷過程中,我們?cè)u(píng)估了300個(gè)RoI進(jìn)行公平比較,如[18]中那樣。作為標(biāo)準(zhǔn)實(shí)踐,使用0.3的IoU閾值[7],通過非極大值抑制(NMS)對(duì)結(jié)果進(jìn)行后處理。

空洞和步長。我們的全卷積架構(gòu)享有FCN廣泛使用的語義分割的網(wǎng)絡(luò)修改的好處[15,2]。特別的是,我們將ResNet-101的有效步長從32像素降低到了16像素,增加了分?jǐn)?shù)圖的分辨率。conv$4$階段[9](stride = 16)之前和之后的所有層都保持不變;第一個(gè)conv$5$塊中的stride=2操作被修改為stride=1,并且conv$5$階段的所有卷積濾波器都被“hole algorithm”[15,2](“Algorithme atrous”[16])修改來彌補(bǔ)減少的步幅。為了進(jìn)行公平的比較,RPN是在conv$4$階段(與R-FCN共享)之上計(jì)算的,就像[9]中Faster R-CNN的情況那樣,所以RPN不會(huì)受空洞行為的影響。下表顯示了R-FCN的消融結(jié)果($k\times k = 7\times 7$,沒有難例挖掘)。這個(gè)空洞行為提高了2.6點(diǎn)的mAP。

Table

可視化。在圖3和圖4中,當(dāng)$k × k = 3 × 3$時(shí),我們可視化R-FCN學(xué)習(xí)的位置敏感分?jǐn)?shù)圖。期望這些專門的分?jǐn)?shù)圖將在目標(biāo)特定的相對(duì)位置被強(qiáng)烈激活。例如,“頂部中心敏感”分?jǐn)?shù)圖大致在目標(biāo)的頂部中心位置附近呈現(xiàn)高分?jǐn)?shù)。如果一個(gè)候選框與一個(gè)真實(shí)目標(biāo)精確重疊(圖3),則RoI中的大部分$k2$組塊都被強(qiáng)烈地激活,并且他們的投票導(dǎo)致高分。相反,如果一個(gè)候選框與一個(gè)真實(shí)的目標(biāo)沒有正確的重疊(圖4),那么RoI中的一些$k2$組塊沒有被激活,投票分?jǐn)?shù)也很低。

3. 相關(guān)工作

R-CNN[7]已經(jīng)證明了在深度網(wǎng)絡(luò)中使用區(qū)域提議[27,28]的有效性。R-CNN評(píng)估裁剪區(qū)域和變形區(qū)域的卷積網(wǎng)絡(luò),計(jì)算不在區(qū)域之間共享(表1)。SPPnet[8]Fast R-CNN[6]和Faster R-CNN[18]是“半卷積”的,卷積子網(wǎng)絡(luò)在整張圖像上進(jìn)行共享計(jì)算,另一個(gè)子網(wǎng)絡(luò)評(píng)估單個(gè)區(qū)域。

有可以被認(rèn)為是“全卷積”模型的目標(biāo)檢測(cè)器。OverFeat[21]通過在共享卷積特征映射上滑動(dòng)多尺度窗口來檢測(cè)目標(biāo);同樣地,在Fast R-CNN[6]和[12]中,研究了用滑動(dòng)窗口替代區(qū)域提議。在這些情況下,可以將一個(gè)單尺度的滑動(dòng)窗口重新設(shè)計(jì)為單個(gè)卷積層。Faster R-CNN [18]中的RPN組件是一個(gè)全卷積檢測(cè)器,它可以相對(duì)于多個(gè)尺寸的參考框(錨點(diǎn))預(yù)測(cè)邊界框。最初的RPN在[18]中是類不可知的,但是它的類特定的對(duì)應(yīng)部分也是適用的(參見[14]),我們?cè)谙旅孢M(jìn)行評(píng)估。

另一個(gè)目標(biāo)檢測(cè)器家族采用全連接(fc)層來在整張圖像上生成整體的目標(biāo)檢測(cè)結(jié)果,如[25,4,17]。

4. 實(shí)驗(yàn)

4.1 PASCAL VOC上的實(shí)驗(yàn)

我們?cè)谟?0個(gè)目標(biāo)類別的PASCAL VOC[5]上進(jìn)行實(shí)驗(yàn)。我們根據(jù)[6]對(duì)VOC 2007 trainval和VOC 2012 trainval(“07 + 12”)的聯(lián)合數(shù)據(jù)集進(jìn)行訓(xùn)練,并在VOC 2007測(cè)試集上進(jìn)行評(píng)估。目標(biāo)檢測(cè)精度通過平均精度均值(mAP)來度量。

與其它全卷積策略的比較

雖然全卷積檢測(cè)器是可用的,但是實(shí)驗(yàn)表明,它們要達(dá)到良好的精度是復(fù)雜的。我們使用ResNet-101研究以下全卷積策略(或“幾乎”全卷積策略,每個(gè)RoI只有一個(gè)分類器全連接層):

Nai?ve Faster R-CNN。如介紹中所討論的,可以使用ResNet-101中的所有卷積層來計(jì)算共享特征映射,并且在最后的卷積層(conv5之后)之后采用RoI池化。在每個(gè)RoI上評(píng)估一個(gè)廉價(jià)的21類全連接層(所以這個(gè)變體是“幾乎”全卷積的)??斩锤[門是用來進(jìn)行公平比較的。

類別特定的RPN。這個(gè)RPN按照[18]進(jìn)行訓(xùn)練,除了兩類(是目標(biāo)或不是)卷積分類器層被替換為21類卷積分類器層。為了公平的比較,對(duì)于這個(gè)類別特定的RPN,我們使用具有空洞竅門的ResNet-101的conv5層來處理。

沒有位置靈敏度的R-FCN。通過設(shè)置$k=1$,我們移除了R-FCN的位置靈敏度。這相當(dāng)于在每個(gè)RoI內(nèi)進(jìn)行全局池化。

分析。表2顯示了結(jié)果。我們注意到在ResNet論文[9]中的標(biāo)準(zhǔn)(非簡單)Faster R-CNN與ResNet-101(參見表3)達(dá)到了$76.4%$的mAP,在conv4和conv5之間插入了RoI池化層[9]。相比之下,簡單的Faster R-CNN(在conv5之后應(yīng)用RoI池化)具有$68.9%$的更低的mAP(表2)。這種比較通過在Faster R-CNN系統(tǒng)的層之間插入RoI池化在經(jīng)驗(yàn)上證明了尊重空間信息的重要性。在[19]中報(bào)道了類似的觀測(cè)結(jié)果。

表2:使用ResNet-101的全卷積(或“幾乎”全卷積)策略之間的比較。表中的所有競爭者都使用了空洞竅門。不執(zhí)行難例挖掘。

Table 2

表3:使用ResNet-101比較Faster R-CNN和R-FCN。實(shí)際是在單個(gè)Nvidia K40 GPU上評(píng)估的。使用OHEM,在前向傳播中計(jì)算每張圖像的N個(gè)RoI,并且選擇128個(gè)樣本用于反向傳播。在下面的[18]中使用了300個(gè)RoI進(jìn)行測(cè)試。

Table 3

類別特定的RPN具有$67.6%$(表2)的mAP,比標(biāo)準(zhǔn)Faster R-CNN的$76.4%$低約9個(gè)百分點(diǎn)。這個(gè)比較符合[6,12]中的觀測(cè)結(jié)果——實(shí)際上,類別特定的RPN類似于使用密集滑動(dòng)窗口作為提議的一種特殊形式的Fast R-CNN[6],如[6,12]中所報(bào)道的較差結(jié)果。

另一方面,我們的R-FCN系統(tǒng)具有更好的準(zhǔn)確性(表2)。其mAP($76.6%$)與標(biāo)準(zhǔn)Faster R-CNN($76.4%$,表3)相當(dāng)。這些結(jié)果表明,我們的位置敏感策略設(shè)法編碼有用的空間信息來定位目標(biāo),而在RoI池化之后不使用任何可學(xué)習(xí)的層。

位置靈敏度的重要性通過設(shè)置$k=1$來進(jìn)一步證明,其中R-FCN不能收斂。在這種退化的情況下,在RoI內(nèi)不能顯式捕獲空間信息。此外,我們還報(bào)告了,如果簡單Faster R-CNN的ROI池化輸出分辨率為1×1,其能夠收斂,但是mAP進(jìn)一步下降到$61.7%$(表2)。

與使用ResNet-101的Faster R-CNN的比較

接下來,我們與標(biāo)準(zhǔn)的“Faster R-CNN + ResNet-101”[9]進(jìn)行比較,它是PASCAL VOC,MS COCO和ImageNet基準(zhǔn)測(cè)試中最強(qiáng)勁的競爭對(duì)手和最佳表現(xiàn)者。我們?cè)谙旅媸褂?k×k = 7×7$。表3顯示了比較。Faster R-CNN評(píng)估了每個(gè)區(qū)域的10層子網(wǎng)絡(luò)以達(dá)到良好的精度,但是R-FCN每個(gè)區(qū)域的成本可以忽略不計(jì)。在測(cè)試時(shí)使用300個(gè)RoI,F(xiàn)aster R-CNN每張圖像花費(fèi)0.42s,比我們的R-FCN慢了2.5倍,R-FCN每張圖像只有0.17s(在K40 GPU上,這個(gè)數(shù)字在Titan X GPU上是0.11s)。R-FCN的訓(xùn)練速度也快于Faster R-CNN。此外,難例挖掘[22]沒有增加R-FCN的訓(xùn)練成本(表3)。當(dāng)從2000個(gè)RoI挖掘時(shí)訓(xùn)練R-FCN是可行的,在這種情況下,F(xiàn)aster R-CNN慢了6倍(2.9s vs. 0.46s)。但是實(shí)驗(yàn)表明,從更大的候選集(例如2000)中進(jìn)行挖掘沒有好處(表3)。所以我們?cè)诒疚牡钠渌糠质褂昧?00個(gè)RoI來進(jìn)行訓(xùn)練和推斷。

表4顯示了更多的比較。在[8]中的多尺度訓(xùn)練之后,我們?cè)诿看斡?xùn)練迭代中調(diào)整圖像大小,使得尺度從{400,500,600,700,800}像素中進(jìn)行隨機(jī)地采樣。我們?nèi)匀粶y(cè)試600像素的單尺度,所以不添加測(cè)試時(shí)間成本。mAP是$80.5%$。此外,我們?cè)贛S COCO [13]訓(xùn)練驗(yàn)證集上訓(xùn)練我們的模型,然后在PASCAL VOC數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。R-FCN達(dá)到$83.6%$mAP(表4),接近也使用ResNet-101的[9]中的“Faster R-CNN +++”系統(tǒng)。我們注意到,我們的競爭結(jié)果是在每張圖像0.17秒的測(cè)試速度下獲得的,比花費(fèi)3.36秒的Faster R-CNN +++快20倍,因?yàn)樗M(jìn)一步結(jié)合了迭代邊界框回歸,上下文和多尺度測(cè)試[9]。這些比較也可以在PASCAL VOC 2012測(cè)試集上觀察到(表5)。

表4:使用ResNet-101在PASCAL VOC 2007測(cè)試集上的比較?!癋aster R-CNN +++”[9]使用迭代邊界框回歸,上下文和多尺度測(cè)試。

Table 4

表5:使用ResNet-101在PASCAL VOC 2012測(cè)試集上的比較。“07 ++ 12”[6]表示07訓(xùn)練+測(cè)試和12訓(xùn)練的聯(lián)合數(shù)據(jù)集。?: http://host.robots.ox.ac.uk:8080/anonymous/44L5HI.html ?: http://host.robots.ox.ac.uk:8080/anonymous/MVCM2L.html

Table 5

關(guān)于深度的影響

下表顯示了使用不同深度的ResNets的R-FCN結(jié)果[9]。當(dāng)深度從50增加到101時(shí),我們的檢測(cè)精度增加了,但是深度達(dá)到了152。

Depth

關(guān)于區(qū)域提議的影響

R-FCN可以很容易地應(yīng)用于其它的區(qū)域提議方法,如選擇性搜索(SS)[27]和邊緣框(EB)[28]。下表顯示了使用不同提議的結(jié)果(使用ResNet-101)。R-FCN使用SS或EB運(yùn)行,競爭性地展示了我們方法的泛化性。

Region Proposals

4.2 MS COCO上的實(shí)驗(yàn)

接下來,我們?cè)u(píng)估MS COCO數(shù)據(jù)集[13]中的80個(gè)目標(biāo)類別。我們的實(shí)驗(yàn)包括8萬張訓(xùn)練集,4萬張驗(yàn)證集和2萬張測(cè)試開發(fā)集。我們將9萬次迭代的學(xué)習(xí)率設(shè)為0.001,接下來的3萬次迭代的學(xué)習(xí)率設(shè)為0.0001,有效的最小批數(shù)據(jù)大小為8。我們將交替訓(xùn)練[18]從4步擴(kuò)展到5步(即在RPN訓(xùn)練步驟后停止),當(dāng)共享特征時(shí)略微提高了在該數(shù)據(jù)集上的準(zhǔn)確性;我們還報(bào)告了兩步訓(xùn)練足以達(dá)到相當(dāng)好的準(zhǔn)確性,但不共享這些特征。

結(jié)果如表6所示。我們單尺度訓(xùn)練的R-FCN基準(zhǔn)模型的驗(yàn)證結(jié)果為$48.9%/27.6%$。這與Faster R-CNN的基準(zhǔn)模型相當(dāng)($48.4%/27.2%$),但我們的測(cè)試速度是Faster R-CNN的2.5倍。值得注意的是,我們的方法在小尺寸的目標(biāo)上表現(xiàn)更好(由[13]定義)。我們的多尺度訓(xùn)練(但是仍是單一尺度測(cè)試)的R-FCN在驗(yàn)證集上的結(jié)果為$49.1%/27.8%$,在測(cè)試開發(fā)集上的結(jié)果是$51.5%/29.2%$??紤]到COCO廣泛的目標(biāo)尺度,按照[9]我們進(jìn)一步評(píng)估多尺度的測(cè)試變種,并使用{200,400,600,800,1000}的測(cè)試尺度。mAP是$53.2%/31.5%$。這個(gè)結(jié)果在MS COCO 2015比賽中接近第一名的成績(Faster R-CNN+++和ResNet-101,$55.7%/34.9%$)。盡管如此,我們的方法更簡單,并沒有添加[9]中所使用的多樣功能例如上下文或迭代邊界框回歸,并且在訓(xùn)練和測(cè)試中都更快。

表6:使用ResNet-101在MS COCO數(shù)據(jù)集上比較。COCO式的AP在IoU∈[0.5,0.95]處評(píng)估。AP@0.5是PASCAL式的AP,在IoU=0.5處評(píng)估。

Table 6

5. 總結(jié)和將來的工作

我們提出了基于區(qū)域的全卷積網(wǎng)絡(luò),這是一個(gè)簡單但精確且高效的目標(biāo)檢測(cè)框架。我們的系統(tǒng)自然地采用了設(shè)計(jì)為全卷積的最先進(jìn)的圖像分類骨干網(wǎng)絡(luò),如ResNet。我們的方法實(shí)現(xiàn)了與Faster R-CNN對(duì)應(yīng)網(wǎng)絡(luò)相比更具競爭力的準(zhǔn)確性,但是在訓(xùn)練和推斷上都快得多。

我們故意保持R-FCN系統(tǒng)如論文中介紹的那樣簡單。已經(jīng)有一系列針對(duì)語義分割(例如,參見[2])開發(fā)的FCN的正交擴(kuò)展,以及用于目標(biāo)檢測(cè)的基于區(qū)域的方法的擴(kuò)展(例如參見[9,1,22])。我們期望我們的系統(tǒng)能夠輕松享有這個(gè)領(lǐng)域的進(jìn)步帶來的好處。

References

[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.

[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.

[3] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks.arXiv:1603.08678, 2016.

[4] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010.

[6] R. Girshick. Fast R-CNN. In ICCV, 2015.

[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection
and semantic segmentation. In CVPR, 2014.

[8] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual
recognition. In ECCV. 2014.

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[10] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.

[11] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropa- gation applied to handwritten zip code recognition. Neural computation, 1989.

[12] K. Lenc and A. Vedaldi. R-CNN minus R. In BMVC, 2015.

[13] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014.

[14] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. SSD: Single shot multibox detector. arXiv:1512.02325v2, 2015.

[15] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.

[16] S. Mallat. A wavelet tour of signal processing. Academic press, 1999.

[17] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.

[18] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.

[19] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. arXiv:1504.06066, 2015.

[20] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.

[21] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.

[22] A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.

[23] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.

[24] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.

[25] C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013.

[26] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In CVPR, 2016.

[27] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013.

[28] C. L. Zitnick and P. Dolla?r. Edge boxes: Locating object proposals from edges. In ECCV, 2014.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容