文章作者：Tyan
博客：noahsnail.com ?|? CSDN ?|? 簡書

聲明：作者翻譯論文僅為學(xué)習(xí)，如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文，謝謝！

翻譯論文匯總：https://github.com/SnailTyan/deep-learning-papers-translation

R-FCN: Object Detection via Region-based Fully Convolutional Networks

摘要

我們提出了基于區(qū)域的全卷積網(wǎng)絡(luò)，以實(shí)現(xiàn)準(zhǔn)確和高效的目標(biāo)檢測(cè)。與先前的基于區(qū)域的檢測(cè)器（如Fast/Faster R-CNN [6，18]）相比，這些檢測(cè)器應(yīng)用昂貴的每個(gè)區(qū)域子網(wǎng)絡(luò)數(shù)百次，我們的基于區(qū)域的檢測(cè)器是全卷積的，幾乎所有計(jì)算都在整張圖像上共享。為了實(shí)現(xiàn)這一目標(biāo)，我們提出了位置敏感分?jǐn)?shù)圖，以解決圖像分類中的平移不變性與目標(biāo)檢測(cè)中的平移變化之間的困境。因此，我們的方法可以自然地采用全卷積圖像分類器的主干網(wǎng)絡(luò)，如最新的殘差網(wǎng)絡(luò)（ResNets）[9]，用于目標(biāo)檢測(cè)。我們使用101層ResNet在PASCAL VOC數(shù)據(jù)集上展示了具有競爭力的結(jié)果（例如，2007數(shù)據(jù)集上$83.6%$的mAP）。同時(shí)，我們的測(cè)試結(jié)果是以每張圖像170ms的測(cè)試速度實(shí)現(xiàn)的，比Faster R-CNN對(duì)應(yīng)部分速度快2.5-20倍。代碼公開發(fā)布在：[https://github.com/daijifeng001/r-fcn](https://github.com/daijifeng001/r-fcn）。

1. 引言

流行的目標(biāo)檢測(cè)深度網(wǎng)絡(luò)家族[8，6，18]通過感興趣區(qū)域（RoI）池化層[6]可以劃分成兩個(gè)子網(wǎng)絡(luò)：（1）獨(dú)立于RoI的共享“全卷積”子網(wǎng)絡(luò)，（ii）不共享計(jì)算的RoI子網(wǎng)絡(luò)。這種分解[8]以往是由開創(chuàng)性的分類架構(gòu)產(chǎn)生的，例如AlexNet[10]和VGG Nets[23]等，在設(shè)計(jì)上它由兩個(gè)子網(wǎng)絡(luò)組成——一個(gè)卷積子網(wǎng)絡(luò)以空間池化層結(jié)束，后面是幾個(gè)全連接（fc）層。因此，圖像分類網(wǎng)絡(luò)中的（最后一個(gè)）空間池化層在目標(biāo)檢測(cè)網(wǎng)絡(luò)中[8，6，18]自然地變成了RoI池化層。

但是最近最先進(jìn)的圖像分類網(wǎng)絡(luò)，如ResNet（ResNets）[9]和GoogLeNets[24，26]是全卷積的。通過類比，在目標(biāo)檢測(cè)架構(gòu)中使用所有卷積層來構(gòu)建共享的卷積子網(wǎng)絡(luò)似乎是很自然的，使得RoI的子網(wǎng)絡(luò)沒有隱藏層。然而，在這項(xiàng)工作中通過經(jīng)驗(yàn)性的調(diào)查發(fā)現(xiàn)，這個(gè)天真的解決方案有相當(dāng)差的檢測(cè)精度，不符合網(wǎng)絡(luò)的優(yōu)秀分類精度。為了解決這個(gè)問題，在ResNet論文[9]中，F(xiàn)aster R-CNN檢測(cè)器[18]的RoI池層不自然地插入在兩組卷積層之間——這創(chuàng)建了更深的RoI子網(wǎng)絡(luò)，其改善了精度，由于非共享的RoI計(jì)算，因此是以更低的速度為代價(jià)。

我們認(rèn)為，前述的非自然設(shè)計(jì)是由于增加圖像分類的變換不變性與目標(biāo)檢測(cè)的平移可變性而導(dǎo)致的兩難境地。一方面，圖像級(jí)別的分類任務(wù)有利于平移不變性——圖像內(nèi)目標(biāo)的移動(dòng)應(yīng)該是無差別的。因此，深度（全）卷積架構(gòu)盡可能保持平移不變，這一點(diǎn)可以從ImageNet分類[9，24，26]的主要結(jié)果中得到證實(shí)。另一方面，目標(biāo)檢測(cè)任務(wù)的定位表示需要一定程度上的平移可變性。例如，在候選框內(nèi)目標(biāo)變換應(yīng)該產(chǎn)生有意義的響應(yīng)，用于描述候選框與目標(biāo)的重疊程度。我們假設(shè)圖像分類網(wǎng)絡(luò)中較深的卷積層對(duì)平移不太敏感。為了解決這個(gè)困境，ResNet論文的檢測(cè)流程[9]將RoI池化層插入到卷積中——特定區(qū)域的操作打破了平移不變性，當(dāng)在不同區(qū)域進(jìn)行評(píng)估時(shí)，RoI后卷積層不再是平移不變的。然而，這個(gè)設(shè)計(jì)犧牲了訓(xùn)練和測(cè)試效率，因?yàn)樗肓舜罅康膮^(qū)域?qū)樱ū?）。

表1：使用ResNet-101的基于區(qū)域的檢測(cè)器方法[9]。

Table 1

在本文中，我們開發(fā)了一個(gè)稱為基于區(qū)域的全卷積網(wǎng)絡(luò)（R-FCN）框架來進(jìn)行目標(biāo)檢測(cè)。我們的網(wǎng)絡(luò)由共享的全卷積架構(gòu)組成，就像FCN[15]一樣。為了將平移可變性并入FCN，我們通過使用一組專門的卷積層作為FCN輸出來構(gòu)建一組位置敏感的分?jǐn)?shù)圖。這些分?jǐn)?shù)圖中的每一個(gè)都對(duì)關(guān)于相對(duì)空間位置（的位置信息進(jìn)行編碼例如，“在目標(biāo)的左邊”）。在這個(gè)FCN之上，我們添加了一個(gè)位置敏感的RoI池化層，它從這些分?jǐn)?shù)圖中獲取信息，并且后面沒有權(quán)重（卷積/fc）層。整個(gè)架構(gòu)是端到端的學(xué)習(xí)。所有可學(xué)習(xí)的層都是卷積的，并在整個(gè)圖像上共享，但對(duì)目標(biāo)檢測(cè)所需的空間信息進(jìn)行編碼。圖1說明了關(guān)鍵思想，表1比較了基于區(qū)域的檢測(cè)器方法。

Figure 1

圖1：R-FCN目標(biāo)檢測(cè)的主要思想。在這個(gè)例子中，由全卷積網(wǎng)絡(luò)生成了k×k=3×3的位置敏感分?jǐn)?shù)圖。對(duì)于RoI中的每個(gè)k×k組塊，僅在$k^2$個(gè)映射中的一個(gè)上執(zhí)行池化（用不同的顏色標(biāo)記）。

使用101層殘余網(wǎng)絡(luò)（ResNet-101）[9]作為主干網(wǎng)絡(luò)，我們的R-FCN在PASCAL VOC 2007數(shù)據(jù)集和2012數(shù)據(jù)集上分別獲得了$83.6%$ mAP和 $82.0%$ mAP。同時(shí)，使用ResNet-101，我們的結(jié)果在測(cè)試時(shí)是以每張圖像170ms的速度實(shí)現(xiàn)的，比[9]中對(duì)應(yīng)的Faster R-CNN + ResNet-101快了2.5倍到20倍。這些實(shí)驗(yàn)表明，我們的方法設(shè)法解決平移不變性/可變性和全卷積圖像級(jí)分類器之間的困境，如ResNet可以有效地轉(zhuǎn)換為全卷積目標(biāo)檢測(cè)器。代碼公開發(fā)布在：https://github.com/daijifeng001/r-fcn。

2. 我們的方法

概述。根據(jù)R-CNN[7]，我們采用了流行的兩階段目標(biāo)檢測(cè)策略[7，8，6，18，1，22]，其中包括：（i）區(qū)域提議和（ii）區(qū)域分類。盡管不依賴區(qū)域提議的方法確實(shí)存在（例如，[17，14]），但是基于區(qū)域的系統(tǒng)在幾個(gè)基準(zhǔn)數(shù)據(jù)集中仍然具有領(lǐng)先的準(zhǔn)確性[5，13，20]。我們通過區(qū)域提議網(wǎng)絡(luò)（RPN）提取候選區(qū)域[18]，其本身就是一個(gè)全卷積架構(gòu)。在[18]之后，我們?cè)赗PN和R-FCN之間的共享特征。圖2顯示了系統(tǒng)的概述。

Figure 2

圖2：R-FCN的總體架構(gòu)。區(qū)域建議網(wǎng)絡(luò)（RPN）[18]提出了候選RoI，然后將其應(yīng)用于評(píng)分圖上。所有可學(xué)習(xí)的權(quán)重層都是卷積的，并在整個(gè)圖像上計(jì)算；每個(gè)RoI的計(jì)算成本可以忽略不計(jì)。

R-FCN以位置敏感的RoI池化層結(jié)束。該層聚合最后一個(gè)卷積層的輸出，并為每個(gè)RoI生成分?jǐn)?shù)。與[8，6]不同的是，我們的位置敏感RoI層進(jìn)行選擇性池化，并且$k\times k$個(gè)組塊中的每一個(gè)僅聚合$k\times k$分?jǐn)?shù)圖中一個(gè)得分圖的響應(yīng)。通過端到端的訓(xùn)練，這個(gè)RoI層可以管理最后一個(gè)卷積層來學(xué)習(xí)專門的位置敏感分?jǐn)?shù)圖。圖1說明了這個(gè)想法。圖3和圖4顯示了一個(gè)例子。詳細(xì)介紹如下。

Figure 3

圖3：行人類別的R-FCN(k×k=3×3)可視化。

Figure 4

圖4：當(dāng)RoI不能正確重疊目標(biāo)時(shí)的可視化。

主干架構(gòu)。本文中典型的R-FCN是基于ResNet-101[9]的，但其他網(wǎng)絡(luò)[10,23]也適用。ResNet-101有100個(gè)卷積層，后面是全局平均池化和1000類的全連接層。我們刪除了平均池化層和全連接層，只使用卷積層來計(jì)算特征映射。我們使用由[9]的作者發(fā)布的ResNet-101，在ImageNet[20]上預(yù)訓(xùn)練。ResNet-101中的最后一個(gè)卷積塊是2048維，我們附加一個(gè)隨機(jī)初始化的1024維的1×1卷積層來降維（準(zhǔn)確地說，這增加了表1中的深度）。然后，我們應(yīng)用$k^2(C+1)$通道卷積層來生成分?jǐn)?shù)圖，如下所述。

位置敏感的分?jǐn)?shù)圖和位置敏感的RoI池化。為了將位置信息顯式地編碼到每個(gè)RoI中，我們用規(guī)則網(wǎng)格將每個(gè)RoI矩形分成$k \times k$的組塊。對(duì)于大小為$w \times h$的RoI矩形，組塊的大小為$\approx \frac{w}{k} \times \frac{h}{k}$[8,6]。在我們的方法中，構(gòu)建最后的卷積層為每個(gè)類別產(chǎn)生$k^2$分?jǐn)?shù)圖。在第$(i,j)$個(gè)組塊（$0 \leq i,j \leq k-1$）中，我們定義了一個(gè)位置敏感的RoI池化操作，它只在第$(i,j)$個(gè)分?jǐn)?shù)映射中進(jìn)行池化：$$r_c(i,j _| \Theta) = \sum_{(x,y)\in \text{bin}(i,j)} z_{i,j,c}(x+x_0, y+y_0 _| \Theta)/n. $$ 其中$r_c(i,j)$是第$(i,j)$個(gè)組塊中第$c$個(gè)類別的池化響應(yīng)，$z_{i,j,c}$是$k^2(C+1)$分?jǐn)?shù)圖中的一個(gè)分?jǐn)?shù)圖，$(x_0, y_0)$表示一個(gè)RoI的左上角，$n$是組塊中的像素?cái)?shù)量，$\Theta$表示網(wǎng)絡(luò)的所有可學(xué)習(xí)參數(shù)。第$(i,j)$個(gè)組塊跨越$\lfloor i\frac{w}{k} \rfloor \leq x < \lceil (i+1)\frac{w}{k} \rceil$和$\lfloor j\frac{h}{k} \rfloor \leq y < \lceil (j+1)\frac{h}{k} \rceil$。公式（1）的操作如圖1所示，其中顏色表示一對(duì)$(i,j)$。方程（1）執(zhí)行平均池化（正如我們?cè)诒疚闹惺褂玫哪菢樱?，但是也可以?zhí)行最大池化。

$k^2$位置敏感的分?jǐn)?shù)會(huì)在RoI上投票。在本文中，我們通過對(duì)分?jǐn)?shù)進(jìn)行平均來簡單地投票，為每個(gè)RoI產(chǎn)生一個(gè)$(C+1)$維向量：$r_c(\Theta)=\sum_{i,j}r_c(i,j _| \Theta)$。然后，我們計(jì)算跨類別的softmax響應(yīng)：$s_c(\Theta)=e^{r_c(\Theta)} / \sum_{c'=0}^C e^{r_{c'}(\Theta)}$。它們被用來評(píng)估訓(xùn)練期間的交叉熵?fù)p失以及在推斷期間的RoI名。

我們以類似的方式進(jìn)一步解決邊界框回歸[7，6]。除了上面的$k^{2(C+1)$維卷積層，我們?cè)谶吔缈蚧貧w上附加了一個(gè)$4k}2$維兄弟卷積層。在這組$4k^{2$維映射上執(zhí)行位置敏感的RoI池化，為每個(gè)RoI生成一個(gè)$4k}2$維的向量。然后通過平均投票聚合到$4$維向量中。這個(gè)$4$維向量將邊界框參數(shù)化為$t=(t_x, t_y, t_w, t_h)$，參見[6]中的參數(shù)化。我們注意到為簡單起見，我們執(zhí)行類別不可知的邊界框回歸，但類別特定的對(duì)應(yīng)部分（即，具有$4k^2C$維輸出層）是適用的。

位置敏感分?jǐn)?shù)圖的概念部分受到了[3]的啟發(fā)，它開發(fā)了用于實(shí)例級(jí)語義分割的FCN。我們進(jìn)一步介紹了位置敏感的RoI池化層，它可以讓學(xué)習(xí)的分?jǐn)?shù)圖用于目標(biāo)檢測(cè)。RoI層之后沒有可學(xué)習(xí)的層，使得區(qū)域計(jì)算幾乎是零成本的，并加速訓(xùn)練和推斷。

訓(xùn)練。通過預(yù)先計(jì)算的區(qū)域提議，很容易端到端訓(xùn)練R-FCN架構(gòu)。根據(jù)[6]，我們定義的損失函數(shù)是每個(gè)RoI的交叉熵?fù)p失和邊界框回歸損失的總和：$L(s, t_{x,y,w,h}) = L_{cls}(s_{c^{*}}) + \lambda [c^{*}>0] L_{reg}(t, t^{*)$。這里$c}{*}$是RoI的真實(shí)標(biāo)簽（$c^{{*}=0$表示背景）。$L_{cls}(s_{c}{*}})=-\log(s_{c^{{*}})$是分類的交叉熵?fù)p失，$L_{reg}$是[6]中定義的邊界框回歸損失，$t}*$表示真實(shí)的邊界框。$[c^{*}>0]$是一個(gè)指標(biāo)，如果參數(shù)為true，則等于1，否則為0。我們將平衡權(quán)重設(shè)置為$\lambda=1$，如[6]中所示。我們將正樣本定義為與真實(shí)邊界框重疊的交并比（IoU）至少為0.5的ROI，否則為負(fù)樣本。

我們的方法很容易在訓(xùn)練期間采用在線難例挖掘（OHEM）[22]。我們可忽略的每個(gè)RoI計(jì)算使得幾乎零成本的樣例挖掘成為可能。假設(shè)每張圖像有$N$個(gè)提議，在前向傳播中，我們?cè)u(píng)估所有$N$個(gè)提議的損失。然后，我們按損失對(duì)所有的RoI（正例和負(fù)例）進(jìn)行分類，并選擇具有最高損失的$B$個(gè)RoI。反向傳播[11]是基于選定的樣例進(jìn)行的。由于我們每個(gè)RoI的計(jì)算可以忽略不計(jì)，所以前向傳播時(shí)間幾乎不受$N$的影響，與[22]中的OHEM Fast R-CNN相比，這可能使訓(xùn)練時(shí)間加倍。我們?cè)谙乱还?jié)的表3中提供全面的時(shí)間統(tǒng)計(jì)。

我們使用0.0005的權(quán)重衰減和0.9的動(dòng)量。默認(rèn)情況下，我們使用單尺度訓(xùn)練：調(diào)整圖像的大小，使得尺度（圖像的較短邊）為600像素[6，18]。每個(gè)GPU擁有1張圖像，并為反向傳播選擇$B=128$個(gè)RoI。我們用8個(gè)GPU來訓(xùn)練模型（所以有效的最小批數(shù)據(jù)大小是$8\times$）。在VOC上我們對(duì)R-FCN進(jìn)行微調(diào)，使用0.001學(xué)習(xí)率進(jìn)行2萬次迭代和使用0.0001學(xué)習(xí)率進(jìn)行1萬次迭代。為了使R-FCN與RPN共享特征（圖2），我們采用[18]中的四步交替訓(xùn)練，交替訓(xùn)練RPN和R-FCN。

推斷。如圖2所示，在RPN和R-FCN之間計(jì)算共享的特征映射（在一個(gè)單一尺度的圖像上）。然后，RPN部分提出RoI，R-FCN部分在其上評(píng)估類別分?jǐn)?shù)并回歸邊界框。在推斷過程中，我們?cè)u(píng)估了300個(gè)RoI進(jìn)行公平比較，如[18]中那樣。作為標(biāo)準(zhǔn)實(shí)踐，使用0.3的IoU閾值[7]，通過非極大值抑制（NMS）對(duì)結(jié)果進(jìn)行后處理。

空洞和步長。我們的全卷積架構(gòu)享有FCN廣泛使用的語義分割的網(wǎng)絡(luò)修改的好處[15，2]。特別的是，我們將ResNet-101的有效步長從32像素降低到了16像素，增加了分?jǐn)?shù)圖的分辨率。conv$4$階段[9]（stride = 16）之前和之后的所有層都保持不變；第一個(gè)conv$5$塊中的stride=2操作被修改為stride=1，并且conv$5$階段的所有卷積濾波器都被“hole algorithm”[15,2]（“Algorithme atrous”[16]）修改來彌補(bǔ)減少的步幅。為了進(jìn)行公平的比較，RPN是在conv$4$階段（與R-FCN共享）之上計(jì)算的，就像[9]中Faster R-CNN的情況那樣，所以RPN不會(huì)受空洞行為的影響。下表顯示了R-FCN的消融結(jié)果（$k\times k = 7\times 7$，沒有難例挖掘）。這個(gè)空洞行為提高了2.6點(diǎn)的mAP。

Table

可視化。在圖3和圖4中，當(dāng)$k × k = 3 × 3$時(shí)，我們可視化R-FCN學(xué)習(xí)的位置敏感分?jǐn)?shù)圖。期望這些專門的分?jǐn)?shù)圖將在目標(biāo)特定的相對(duì)位置被強(qiáng)烈激活。例如，“頂部中心敏感”分?jǐn)?shù)圖大致在目標(biāo)的頂部中心位置附近呈現(xiàn)高分?jǐn)?shù)。如果一個(gè)候選框與一個(gè)真實(shí)目標(biāo)精確重疊（圖3），則RoI中的大部分$k^{2$組塊都被強(qiáng)烈地激活，并且他們的投票導(dǎo)致高分。相反，如果一個(gè)候選框與一個(gè)真實(shí)的目標(biāo)沒有正確的重疊（圖4），那么RoI中的一些$k}2$組塊沒有被激活，投票分?jǐn)?shù)也很低。

3. 相關(guān)工作

R-CNN[7]已經(jīng)證明了在深度網(wǎng)絡(luò)中使用區(qū)域提議[27，28]的有效性。R-CNN評(píng)估裁剪區(qū)域和變形區(qū)域的卷積網(wǎng)絡(luò)，計(jì)算不在區(qū)域之間共享（表1）。SPPnet[8]Fast R-CNN[6]和Faster R-CNN[18]是“半卷積”的，卷積子網(wǎng)絡(luò)在整張圖像上進(jìn)行共享計(jì)算，另一個(gè)子網(wǎng)絡(luò)評(píng)估單個(gè)區(qū)域。

有可以被認(rèn)為是“全卷積”模型的目標(biāo)檢測(cè)器。OverFeat[21]通過在共享卷積特征映射上滑動(dòng)多尺度窗口來檢測(cè)目標(biāo)；同樣地，在Fast R-CNN[6]和[12]中，研究了用滑動(dòng)窗口替代區(qū)域提議。在這些情況下，可以將一個(gè)單尺度的滑動(dòng)窗口重新設(shè)計(jì)為單個(gè)卷積層。Faster R-CNN [18]中的RPN組件是一個(gè)全卷積檢測(cè)器，它可以相對(duì)于多個(gè)尺寸的參考框（錨點(diǎn)）預(yù)測(cè)邊界框。最初的RPN在[18]中是類不可知的，但是它的類特定的對(duì)應(yīng)部分也是適用的（參見[14]），我們?cè)谙旅孢M(jìn)行評(píng)估。

另一個(gè)目標(biāo)檢測(cè)器家族采用全連接（fc）層來在整張圖像上生成整體的目標(biāo)檢測(cè)結(jié)果，如[25，4，17]。

4. 實(shí)驗(yàn)

4.1 PASCAL VOC上的實(shí)驗(yàn)

我們?cè)谟?0個(gè)目標(biāo)類別的PASCAL VOC[5]上進(jìn)行實(shí)驗(yàn)。我們根據(jù)[6]對(duì)VOC 2007 trainval和VOC 2012 trainval（“07 + 12”）的聯(lián)合數(shù)據(jù)集進(jìn)行訓(xùn)練，并在VOC 2007測(cè)試集上進(jìn)行評(píng)估。目標(biāo)檢測(cè)精度通過平均精度均值（mAP）來度量。

與其它全卷積策略的比較

雖然全卷積檢測(cè)器是可用的，但是實(shí)驗(yàn)表明，它們要達(dá)到良好的精度是復(fù)雜的。我們使用ResNet-101研究以下全卷積策略（或“幾乎”全卷積策略，每個(gè)RoI只有一個(gè)分類器全連接層）：

Nai?ve Faster R-CNN。如介紹中所討論的，可以使用ResNet-101中的所有卷積層來計(jì)算共享特征映射，并且在最后的卷積層（conv5之后）之后采用RoI池化。在每個(gè)RoI上評(píng)估一個(gè)廉價(jià)的21類全連接層（所以這個(gè)變體是“幾乎”全卷積的）?？斩锤[門是用來進(jìn)行公平比較的。

類別特定的RPN。這個(gè)RPN按照[18]進(jìn)行訓(xùn)練，除了兩類（是目標(biāo)或不是）卷積分類器層被替換為21類卷積分類器層。為了公平的比較，對(duì)于這個(gè)類別特定的RPN，我們使用具有空洞竅門的ResNet-101的conv5層來處理。

沒有位置靈敏度的R-FCN。通過設(shè)置$k=1$，我們移除了R-FCN的位置靈敏度。這相當(dāng)于在每個(gè)RoI內(nèi)進(jìn)行全局池化。

分析。表2顯示了結(jié)果。我們注意到在ResNet論文[9]中的標(biāo)準(zhǔn)（非簡單）Faster R-CNN與ResNet-101（參見表3）達(dá)到了$76.4%$的mAP，在conv4和conv5之間插入了RoI池化層[9]。相比之下，簡單的Faster R-CNN（在conv5之后應(yīng)用RoI池化）具有$68.9%$的更低的mAP（表2）。這種比較通過在Faster R-CNN系統(tǒng)的層之間插入RoI池化在經(jīng)驗(yàn)上證明了尊重空間信息的重要性。在[19]中報(bào)道了類似的觀測(cè)結(jié)果。

表2：使用ResNet-101的全卷積（或“幾乎”全卷積）策略之間的比較。表中的所有競爭者都使用了空洞竅門。不執(zhí)行難例挖掘。

Table 2

表3：使用ResNet-101比較Faster R-CNN和R-FCN。實(shí)際是在單個(gè)Nvidia K40 GPU上評(píng)估的。使用OHEM，在前向傳播中計(jì)算每張圖像的N個(gè)RoI，并且選擇128個(gè)樣本用于反向傳播。在下面的[18]中使用了300個(gè)RoI進(jìn)行測(cè)試。

Table 3

類別特定的RPN具有$67.6%$（表2）的mAP，比標(biāo)準(zhǔn)Faster R-CNN的$76.4%$低約9個(gè)百分點(diǎn)。這個(gè)比較符合[6，12]中的觀測(cè)結(jié)果——實(shí)際上，類別特定的RPN類似于使用密集滑動(dòng)窗口作為提議的一種特殊形式的Fast R-CNN[6]，如[6，12]中所報(bào)道的較差結(jié)果。

另一方面，我們的R-FCN系統(tǒng)具有更好的準(zhǔn)確性（表2）。其mAP（$76.6%$）與標(biāo)準(zhǔn)Faster R-CNN（$76.4%$，表3）相當(dāng)。這些結(jié)果表明，我們的位置敏感策略設(shè)法編碼有用的空間信息來定位目標(biāo)，而在RoI池化之后不使用任何可學(xué)習(xí)的層。

位置靈敏度的重要性通過設(shè)置$k=1$來進(jìn)一步證明，其中R-FCN不能收斂。在這種退化的情況下，在RoI內(nèi)不能顯式捕獲空間信息。此外，我們還報(bào)告了，如果簡單Faster R-CNN的ROI池化輸出分辨率為1×1，其能夠收斂，但是mAP進(jìn)一步下降到$61.7%$（表2）。

與使用ResNet-101的Faster R-CNN的比較

接下來，我們與標(biāo)準(zhǔn)的“Faster R-CNN + ResNet-101”[9]進(jìn)行比較，它是PASCAL VOC，MS COCO和ImageNet基準(zhǔn)測(cè)試中最強(qiáng)勁的競爭對(duì)手和最佳表現(xiàn)者。我們?cè)谙旅媸褂?k×k = 7×7$。表3顯示了比較。Faster R-CNN評(píng)估了每個(gè)區(qū)域的10層子網(wǎng)絡(luò)以達(dá)到良好的精度，但是R-FCN每個(gè)區(qū)域的成本可以忽略不計(jì)。在測(cè)試時(shí)使用300個(gè)RoI，F(xiàn)aster R-CNN每張圖像花費(fèi)0.42s，比我們的R-FCN慢了2.5倍，R-FCN每張圖像只有0.17s（在K40 GPU上，這個(gè)數(shù)字在Titan X GPU上是0.11s）。R-FCN的訓(xùn)練速度也快于Faster R-CNN。此外，難例挖掘[22]沒有增加R-FCN的訓(xùn)練成本（表3）。當(dāng)從2000個(gè)RoI挖掘時(shí)訓(xùn)練R-FCN是可行的，在這種情況下，F(xiàn)aster R-CNN慢了6倍（2.9s vs. 0.46s）。但是實(shí)驗(yàn)表明，從更大的候選集（例如2000）中進(jìn)行挖掘沒有好處（表3）。所以我們?cè)诒疚牡钠渌糠质褂昧?00個(gè)RoI來進(jìn)行訓(xùn)練和推斷。

表4顯示了更多的比較。在[8]中的多尺度訓(xùn)練之后，我們?cè)诿看斡?xùn)練迭代中調(diào)整圖像大小，使得尺度從{400,500,600,700,800}像素中進(jìn)行隨機(jī)地采樣。我們?nèi)匀粶y(cè)試600像素的單尺度，所以不添加測(cè)試時(shí)間成本。mAP是$80.5%$。此外，我們?cè)贛S COCO [13]訓(xùn)練驗(yàn)證集上訓(xùn)練我們的模型，然后在PASCAL VOC數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。R-FCN達(dá)到$83.6%$mAP（表4），接近也使用ResNet-101的[9]中的“Faster R-CNN +++”系統(tǒng)。我們注意到，我們的競爭結(jié)果是在每張圖像0.17秒的測(cè)試速度下獲得的，比花費(fèi)3.36秒的Faster R-CNN +++快20倍，因?yàn)樗M(jìn)一步結(jié)合了迭代邊界框回歸，上下文和多尺度測(cè)試[9]。這些比較也可以在PASCAL VOC 2012測(cè)試集上觀察到（表5）。

表4：使用ResNet-101在PASCAL VOC 2007測(cè)試集上的比較?！癋aster R-CNN +++”[9]使用迭代邊界框回歸，上下文和多尺度測(cè)試。

Table 4

表5：使用ResNet-101在PASCAL VOC 2012測(cè)試集上的比較。“07 ++ 12”[6]表示07訓(xùn)練+測(cè)試和12訓(xùn)練的聯(lián)合數(shù)據(jù)集。?: http://host.robots.ox.ac.uk:8080/anonymous/44L5HI.html ?: http://host.robots.ox.ac.uk:8080/anonymous/MVCM2L.html

Table 5

關(guān)于深度的影響

下表顯示了使用不同深度的ResNets的R-FCN結(jié)果[9]。當(dāng)深度從50增加到101時(shí)，我們的檢測(cè)精度增加了，但是深度達(dá)到了152。

Depth

關(guān)于區(qū)域提議的影響

R-FCN可以很容易地應(yīng)用于其它的區(qū)域提議方法，如選擇性搜索（SS）[27]和邊緣框（EB）[28]。下表顯示了使用不同提議的結(jié)果（使用ResNet-101）。R-FCN使用SS或EB運(yùn)行，競爭性地展示了我們方法的泛化性。

Region Proposals

4.2 MS COCO上的實(shí)驗(yàn)

接下來，我們?cè)u(píng)估MS COCO數(shù)據(jù)集[13]中的80個(gè)目標(biāo)類別。我們的實(shí)驗(yàn)包括8萬張訓(xùn)練集，4萬張驗(yàn)證集和2萬張測(cè)試開發(fā)集。我們將9萬次迭代的學(xué)習(xí)率設(shè)為0.001，接下來的3萬次迭代的學(xué)習(xí)率設(shè)為0.0001，有效的最小批數(shù)據(jù)大小為8。我們將交替訓(xùn)練[18]從4步擴(kuò)展到5步（即在RPN訓(xùn)練步驟后停止），當(dāng)共享特征時(shí)略微提高了在該數(shù)據(jù)集上的準(zhǔn)確性；我們還報(bào)告了兩步訓(xùn)練足以達(dá)到相當(dāng)好的準(zhǔn)確性，但不共享這些特征。

結(jié)果如表6所示。我們單尺度訓(xùn)練的R-FCN基準(zhǔn)模型的驗(yàn)證結(jié)果為$48.9%/27.6%$。這與Faster R-CNN的基準(zhǔn)模型相當(dāng)（$48.4%/27.2%$），但我們的測(cè)試速度是Faster R-CNN的2.5倍。值得注意的是，我們的方法在小尺寸的目標(biāo)上表現(xiàn)更好（由[13]定義）。我們的多尺度訓(xùn)練（但是仍是單一尺度測(cè)試）的R-FCN在驗(yàn)證集上的結(jié)果為$49.1%/27.8%$，在測(cè)試開發(fā)集上的結(jié)果是$51.5%/29.2%$?？紤]到COCO廣泛的目標(biāo)尺度，按照[9]我們進(jìn)一步評(píng)估多尺度的測(cè)試變種，并使用{200，400，600，800，1000}的測(cè)試尺度。mAP是$53.2%/31.5%$。這個(gè)結(jié)果在MS COCO 2015比賽中接近第一名的成績（Faster R-CNN+++和ResNet-101，$55.7%/34.9%$）。盡管如此，我們的方法更簡單，并沒有添加[9]中所使用的多樣功能例如上下文或迭代邊界框回歸，并且在訓(xùn)練和測(cè)試中都更快。

表6：使用ResNet-101在MS COCO數(shù)據(jù)集上比較。COCO式的AP在IoU∈[0.5，0.95]處評(píng)估。AP@0.5是PASCAL式的AP，在IoU=0.5處評(píng)估。

Table 6

5. 總結(jié)和將來的工作

我們提出了基于區(qū)域的全卷積網(wǎng)絡(luò)，這是一個(gè)簡單但精確且高效的目標(biāo)檢測(cè)框架。我們的系統(tǒng)自然地采用了設(shè)計(jì)為全卷積的最先進(jìn)的圖像分類骨干網(wǎng)絡(luò)，如ResNet。我們的方法實(shí)現(xiàn)了與Faster R-CNN對(duì)應(yīng)網(wǎng)絡(luò)相比更具競爭力的準(zhǔn)確性，但是在訓(xùn)練和推斷上都快得多。

我們故意保持R-FCN系統(tǒng)如論文中介紹的那樣簡單。已經(jīng)有一系列針對(duì)語義分割（例如，參見[2]）開發(fā)的FCN的正交擴(kuò)展，以及用于目標(biāo)檢測(cè)的基于區(qū)域的方法的擴(kuò)展（例如參見[9，1，22]）。我們期望我們的系統(tǒng)能夠輕松享有這個(gè)領(lǐng)域的進(jìn)步帶來的好處。

References

[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.

[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.

[3] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks.arXiv:1603.08678, 2016.

[4] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010.

[6] R. Girshick. Fast R-CNN. In ICCV, 2015.

[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection
and semantic segmentation. In CVPR, 2014.

[8] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual
recognition. In ECCV. 2014.

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[10] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.

[11] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropa- gation applied to handwritten zip code recognition. Neural computation, 1989.

[12] K. Lenc and A. Vedaldi. R-CNN minus R. In BMVC, 2015.

[13] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014.

[14] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. SSD: Single shot multibox detector. arXiv:1512.02325v2, 2015.

[15] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.

[16] S. Mallat. A wavelet tour of signal processing. Academic press, 1999.

[17] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.

[18] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.

[19] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. arXiv:1504.06066, 2015.

[20] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.

[21] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.

[22] A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.

[23] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.

[24] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.

[25] C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013.

[26] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In CVPR, 2016.

[27] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013.

[28] C. L. Zitnick and P. Dolla?r. Edge boxes: Locating object proposals from edges. In ECCV, 2014.

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

R-FCN論文翻譯——中文版

R-FCN論文翻譯——中文版

R-FCN: Object Detection via Region-based Fully Convolutional Networks

摘要

1. 引言

2. 我們的方法

3. 相關(guān)工作

4. 實(shí)驗(yàn)

4.1 PASCAL VOC上的實(shí)驗(yàn)

4.2 MS COCO上的實(shí)驗(yàn)

5. 總結(jié)和將來的工作

References

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

R-FCN論文翻譯——中文版

R-FCN: Object Detection via Region-based Fully Convolutional Networks

摘要

1. 引言

2. 我們的方法

3. 相關(guān)工作

4. 實(shí)驗(yàn)

4.1 PASCAL VOC上的實(shí)驗(yàn)

4.2 MS COCO上的實(shí)驗(yàn)

5. 總結(jié)和將來的工作

References

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av