SCRDet:對(duì)小、雜亂和旋轉(zhuǎn)的目標(biāo)進(jìn)行更魯棒的檢測

論文原文:https://arxiv.org/abs/1811.07126
代碼地址:https://github.com/DetectionTeamUCAS

摘要

??目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域的基石。盡管現(xiàn)在目標(biāo)檢測領(lǐng)域已經(jīng)取得了巨大的進(jìn)步,但是對(duì)于小型目標(biāo)、雜亂密集分布和任意旋轉(zhuǎn)方向的目標(biāo)檢測依然存在巨大的挑戰(zhàn)。除了自然圖像外,對(duì)于遙感影響而言,此類問題尤為突出。本文提出了一種應(yīng)用于小型,混亂和旋轉(zhuǎn)目標(biāo)的新型多類別旋轉(zhuǎn)探測器,即SCRDet。具體來講,我們設(shè)計(jì)了一種采樣融合網(wǎng)絡(luò),該融合網(wǎng)絡(luò)將多層特征與有效的錨點(diǎn)采樣融合在一起,以提高對(duì)小物體的靈敏度。同時(shí),通過抑制噪聲并突出物體特征,共同探索了監(jiān)督像素注意力網(wǎng)絡(luò)和通道注意力網(wǎng)絡(luò),用于小而雜亂的物體檢測。為了更準(zhǔn)確地進(jìn)行旋轉(zhuǎn)估計(jì),將IoU常數(shù)因子添加到平滑L1 loss中以解決旋轉(zhuǎn)邊界框的邊界問題。在兩個(gè)遙感公共數(shù)據(jù)集DOTA,NWPU VHR-10以及自然圖像數(shù)據(jù)集COCO,VOC2007和場景文本數(shù)據(jù)ICDAR2015上進(jìn)行了大量實(shí)驗(yàn)表明了我們探測器的最新性能。

1. 簡介

??目標(biāo)檢測是計(jì)算機(jī)視覺中的基本任務(wù)之一,并且已經(jīng)有各種通用檢測器被提出來。它們在COCO和VOC2007等在內(nèi)的一些數(shù)據(jù)集上已經(jīng)取得了比較好的結(jié)果。但是,大多數(shù)現(xiàn)有的探測器并沒有特別在開放環(huán)境中進(jìn)行其他方面的目標(biāo)檢測:比如小物體,雜亂排列和任意方向物體的目標(biāo)檢測。
??在實(shí)際問題中,由于攝像機(jī)分辨率的限制和其他方面的影響,感興趣的對(duì)象的尺寸可能很小。例如用于檢測交通標(biāo)志,在街道上的公共攝像頭下的小臉;而且,物體會(huì)以非常密集的方式排列(在購物中心的貨物以一定的距離密集排列)。此外,對(duì)象不再像在COCO、VOC2007數(shù)據(jù)集圖片中那樣水平放置,而用于場景檢測的目標(biāo)可以在任何方向和位置。
??特別是,上述三個(gè)挑戰(zhàn)對(duì)于遙感圖像來說非常明顯,分析如下:
??1. 小目標(biāo),航拍影像中小目標(biāo)經(jīng)常被復(fù)雜的周圍場景圍繞而忽視掉。
??2. 雜亂的位置布置,用于檢測的物體通常密集地布置,例如車輛和輪船。
??3. 任意方向,航拍影像中的物體可以以不同的方向出現(xiàn),它也進(jìn)一步受到遙感中常見的大縱橫比問題的挑戰(zhàn)。
??在本文中,我們主要在遙感的背景下討論我們的方法,而這種方法和于其他問題而言可以通用,并且我們已經(jīng)用航拍影像以外的各種數(shù)據(jù)集進(jìn)行了測試,如實(shí)驗(yàn)所示。
??許多現(xiàn)有的通用檢測器,例如Faster RCNN,已被廣泛用于空中物體檢測。但是,這種檢測器的設(shè)計(jì)通?;陔[含的假設(shè),即邊界框基本上處于水平位置,而對(duì)于航空?qǐng)D像(以及其他檢測任務(wù),例如場景文本檢測)則不是這種情況。作為后處理,流行的非最大抑制(NMS)技術(shù)進(jìn)一步表明了這一局限性,因?yàn)樗鼘⒁种圃谒骄€上任意方向上密集排列的物體的檢測。此外,基于水平區(qū)域的方法在方向估計(jì)上具有粗糙的分辨率,這是要提取用于遙感的關(guān)鍵信息。
??許多現(xiàn)有的通用檢測器,例如Faster RCNN,已被廣泛用于空中物體檢測。但是,這種檢測器的設(shè)計(jì)通?;谝粋€(gè)假設(shè),即邊界框基本上處于水平位置,而對(duì)于航空?qǐng)D像(以及其他檢測任務(wù),例如場景文本檢測)則不是這種情況。作為后處理,采用最多的非極大值抑制(NMS)技術(shù)進(jìn)一步表明了這一局限性,因?yàn)樗鼘⒁种圃谒骄€上任意方向上密集排列的物體的檢測。(???)此外,基于水平區(qū)域的方法在方向估計(jì)上具有粗糙的分辨率,這是要提取用于遙感的關(guān)鍵信息。
??我們提出了一種新穎的多類別旋轉(zhuǎn)檢測器,用于檢測小型、混亂和旋轉(zhuǎn)的目標(biāo),并取名為SCRDet,旨在解決以下問題:1)小目標(biāo):設(shè)計(jì)了一種采樣融合網(wǎng)絡(luò)(SF-Net),其結(jié)合了特征融合和特征錨采樣;2)噪聲背景:開發(fā)了一種受監(jiān)督的多維注意力網(wǎng)絡(luò)(MDA-Net),它由像素注意力網(wǎng)絡(luò)和通道注意力網(wǎng)絡(luò)組成,用于抑制噪聲并突出前景;3)任意方向的雜亂且密集的物體:通過引入角度相關(guān)的參數(shù)進(jìn)行估計(jì),設(shè)計(jì)出角度敏感網(wǎng)絡(luò)。整體上我們將這三種技術(shù)結(jié)合在一起,該方法在包括兩個(gè)遙感基準(zhǔn)DOTA和NWPU VHR-10在內(nèi)的公共數(shù)據(jù)集上實(shí)現(xiàn)了最新的性能。本文的貢獻(xiàn)是:
??1. 針對(duì)小目標(biāo):設(shè)計(jì)了一種通過特征融合和錨點(diǎn)采樣的采樣融合網(wǎng)絡(luò)。
??2. 針對(duì)雜亂的小目標(biāo)檢測,開發(fā)了一種有監(jiān)督的多維注意網(wǎng)絡(luò),以減少背景噪聲的不利影響。
??3. 為了更魯棒地處理任意旋轉(zhuǎn)的物體,通過添加IoU常數(shù)因子來設(shè)計(jì)改進(jìn)的平滑L1損失,該因子被定制以解決旋轉(zhuǎn)邊界框回歸的邊界問題。
??4. 更重要的是,在4.2節(jié)中我們表明所提出的技術(shù)是通用的,也可以應(yīng)用于自然圖像并結(jié)合一般檢測算法,這些算法超越了最先進(jìn)的方法或通過組合進(jìn)一步改進(jìn)了現(xiàn)有方法。

2. 相關(guān)工作

??現(xiàn)有的檢測方法主要是假設(shè)檢測對(duì)象沿圖像中的水平線定位。 在這項(xiàng)工作中,提出了一個(gè)用于區(qū)域檢測的多階段R-CNN網(wǎng)絡(luò),隨后在準(zhǔn)確性和效率方面進(jìn)行了改進(jìn),包括 Fast R-CNN , Faster R-CNN 和基于區(qū)域的完全卷積網(wǎng)絡(luò)(R-FCN)。 另一方面,還有一系列最近的直接回歸邊界框的網(wǎng)絡(luò),例如: 單次物體探測器(SSD)并且您只需查看一次(YOLO)網(wǎng)絡(luò)即可提高速度。
??如上所述,存在關(guān)于小目標(biāo),密集布置和任意旋轉(zhuǎn)的這些具有挑戰(zhàn)性的場景,盡管它們在實(shí)際現(xiàn)實(shí)中很重要,但是上述檢測器并未對(duì)其進(jìn)行特別處理。特別是對(duì)于航拍圖像,由于其對(duì)國家和社會(huì)的戰(zhàn)略價(jià)值,因此還在努力開發(fā)量身定制的遙感方法。 RP-Faster R-CNN框架是針對(duì)小型對(duì)象開發(fā)的。同時(shí)兩個(gè)可變形卷積層和R-FCN被組合以提高檢測精度。最近,[40]中的作者采用自上而下和跳過的連接來生成單個(gè)具有高分辨率的高級(jí)特征圖,從而提高了可變形旋轉(zhuǎn)檢測框Faster R-CNN網(wǎng)絡(luò)的性能。即使這樣,基于水平區(qū)域的檢測器在規(guī)模、方向和密度方面仍然面臨上述瓶頸的挑戰(zhàn),這需要基于水平區(qū)域檢測的改進(jìn)以外的更多原理化方法。另一方面,遙感方面有很多工作要做,可以檢測任意方向的物體。但是,這些方法通常適合于特定的對(duì)象類別,例如車輛,輪船,飛機(jī)等。盡管最近有幾種方法用于多類別旋轉(zhuǎn)區(qū)域檢測模型,但它們?nèi)狈π〕叽绺呙芏鹊脑瓌t處理方式。
??與自然圖像的檢測方法相比,場景文本檢測的文獻(xiàn)往往更注重面向?qū)ο蟆?雖然這種方法在處理基于航空?qǐng)D像的物體檢測方面仍然存在困難:一個(gè)原因是大多數(shù)文本檢測方法僅限于單類物體檢測,而通常有許多不同的類別可以識(shí)別遠(yuǎn)程傳感。 另一個(gè)原因是航拍圖像中的物體通常比場景文本中的物體更接近,這限制了基于分割的檢測算法的適用性,否則它們可以在在場景文本上良好的運(yùn)行。 此外,通常存在大量密集分布的對(duì)象,這些對(duì)象需要有效的檢測。
??本文綜合考慮了上述各方面,提出了航空?qǐng)D像中多類任意導(dǎo)向目標(biāo)檢測的原理方法。

3. 提出的方法

??我們首先概括了如圖1所示的兩階段方法。在第一階段,通過添加SF-Net和MDA-Net,可以期望特征圖包含更多的特征信息和更少的噪聲。對(duì)于角度參數(shù)的位置敏感性,此階段仍使水平框回歸。通過改進(jìn)的五參數(shù)回歸和第二階段中每個(gè)提案的旋轉(zhuǎn)非最大抑制(R-NMS)操作,我們可以獲得任意旋轉(zhuǎn)下的最終檢測結(jié)果。


圖1:SCRDet網(wǎng)絡(luò)模型,其中包括針對(duì)小型雜物的SF-Net模塊,MDA-Net模塊和用于旋轉(zhuǎn)對(duì)象的旋轉(zhuǎn)分支。

3.1 更精細(xì)的采樣和特征融合網(wǎng)絡(luò)

??在我們的分析中,檢測小物體有兩個(gè)主要障礙:物體特征信息不足和錨點(diǎn)樣本不足。由于使用了池化層,因此小對(duì)象在深層中丟失了大部分特征信息。同時(shí),高級(jí)特征圖的較大采樣步幅傾向于直接跳過較小的對(duì)象,從而導(dǎo)致采樣不足。
?? 功能融合:通常認(rèn)為低級(jí)特征圖可以保留小對(duì)象的位置信息,而高級(jí)特征圖可以包含高級(jí)語義線索。特征金字塔網(wǎng)絡(luò)(FPN)、自上而下的調(diào)制(TDM)和與對(duì)象先驗(yàn)網(wǎng)絡(luò)的反向連接(RON)是常見的特征融合方法,涉及將高層次特征映射和低層次特征映射組合不同的形式。

圖2:具有不同錨跨度$S_A$的錨采樣。橙黃色的邊界框表示錨點(diǎn),綠色表示地面真相,紅色框表示具有最大IoU地面實(shí)況的錨點(diǎn)。

??更精細(xì)的采樣:訓(xùn)練樣本不足和不平衡會(huì)影響檢測性能,通過引入期望最大化交集得分(EMO Score:用于計(jì)算pred bbox與gt的IoU)作者計(jì)算出錨點(diǎn)和物體之間的期望的最大聯(lián)合交叉點(diǎn)(IoU)。他們發(fā)現(xiàn)錨點(diǎn)(S_A)的步幅越小,獲得的EMO得分越高,從統(tǒng)計(jì)上講導(dǎo)致所有對(duì)象的平均最大IoU均得到改善。圖2顯示了分別跨步16和8進(jìn)行小物體采樣的結(jié)果??梢钥闯觯^小的S_A可以捕獲更多高質(zhì)量的樣本,從而更好地捕獲小物體,這對(duì)于檢測器訓(xùn)練和推理均具有幫助。

圖3:SF-Net。F3的S_A較小,同時(shí)充分考慮了不同尺度的特征融合和適應(yīng)性。

?? 基于以上分析,我們設(shè)計(jì)了精細(xì)采樣和特征融合網(wǎng)絡(luò)(SF-Net),如圖3所示。在基于錨點(diǎn)的檢測框架中,S_A的值等于特征圖相對(duì)于原始圖像的縮減因子。換句話說,S_A的值只能是2的指數(shù)倍。SF-Net通過更改特征圖的大小來解決此問題,從而使S_A的設(shè)置更靈活以允許更多自適應(yīng)采樣。為了減少網(wǎng)絡(luò)參數(shù),SF-Net僅使用Resnet中的C3和C4進(jìn)行融合以平衡語義信息和位置信息,同時(shí)忽略其他不太相關(guān)的功能。簡單來說,SF-Net的第一個(gè)通道會(huì)對(duì)C4進(jìn)行上采樣,以使其S_A=S,其中S是預(yù)期的錨跨度。第二個(gè)通道還將C3上采樣到相同的大小。然后,我們將C3傳遞給起始結(jié)構(gòu),以擴(kuò)展C3的接受域并增加語義信息。初始結(jié)構(gòu)包含各種比率卷積核以捕獲對(duì)象形狀的多樣性。最后,通過將兩個(gè)通道逐個(gè)元素相加獲得新的特征圖F3。表1列出了不同S_A下DOTA的檢測精度和訓(xùn)練開銷。我們發(fā)現(xiàn)最佳的S_A依賴于特定的數(shù)據(jù)集,尤其是小對(duì)象的大小分布。在本文中,為了在精度和速度之間進(jìn)行權(quán)衡,通常將S_A的值設(shè)置為6。

anchor stride S_A 6 8 10 12 14 16
OBB mAP (%) 67.06 66.88 65.32 63.75 63.32 63.64
HBB mAP (%) 70.71 70.19 68.96 69.09 68.54 69.33
Training time (sec.) 1.18 0.99 0.76 0.46 0.39 0.33

表1:在不同的步伐S_A下,在DOTA數(shù)據(jù)集上進(jìn)行18k迭代時(shí),平均每張圖像的準(zhǔn)確性和訓(xùn)練時(shí)間。

3.2. 多維注意力網(wǎng)絡(luò)

??由于諸多航拍圖像之類的現(xiàn)實(shí)世界數(shù)據(jù)的復(fù)雜性,RPN網(wǎng)絡(luò)提供的建議區(qū)域可能會(huì)引入大量的噪聲信息,如圖4b所示。過多的噪聲信息會(huì)對(duì)網(wǎng)絡(luò)進(jìn)行干擾,對(duì)象之間的邊界變得模糊(請(qǐng)參見圖4a),從而導(dǎo)致漏檢和誤報(bào)數(shù)增加。因此,有必要增加目標(biāo)提示并消弱非目標(biāo)信息。已經(jīng)有許多注意力網(wǎng)絡(luò)解構(gòu)提出來以解決遮擋、噪聲和模糊的問題。但是,這些方法大多數(shù)都是無監(jiān)督的,難以指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)特定的目的。


圖4:多維注意力網(wǎng)絡(luò)的可視化。 (a)邊界模糊(b)輸入注意力網(wǎng)絡(luò)的特征圖(c)注意網(wǎng)絡(luò)的輸出特征圖(d)顯著性圖(e)二進(jìn)制圖(f)事實(shí)真相。

??為了更有效地捕獲復(fù)雜背景下的小物體的客觀性,我們設(shè)計(jì)了一個(gè)受監(jiān)督的多維注意力學(xué)習(xí)器(MDA-Net),如圖5所示。具體的說,在像素注意力網(wǎng)絡(luò)中,特征圖F3經(jīng)過一個(gè)具有不同比率卷積核的初始結(jié)構(gòu),然后通過卷積運(yùn)算學(xué)習(xí)兩通道顯著性圖(參見圖4d)。顯著性分別表示前景和背景的分?jǐn)?shù)。然后,在顯著圖上執(zhí)行Softmax操作,并選擇一個(gè)通道與F3相乘。最終,獲得新的信息特征圖A3,如圖4c所示。應(yīng)當(dāng)指出,Softmax函數(shù)之后的顯著性圖的值在[0,1]之間。換句話說,它可以減少噪聲并相對(duì)增強(qiáng)對(duì)象信息。由于顯著性圖是連續(xù)的,因此不會(huì)完全消除非對(duì)象信息,這對(duì)于保留某些上下文信息和提高魯棒性是有利的。為了知道網(wǎng)絡(luò)學(xué)習(xí)此過程,我們采用了監(jiān)督學(xué)習(xí)方法。首先,我們可以很容易地更具地面真實(shí)情況獲得一個(gè)二元圖作為標(biāo)簽(如圖4e所示),然后將二元圖的交叉熵?fù)p失和顯著性圖作為注意力損失。此為,我們還使用SENet作為輔助的頻道關(guān)注網(wǎng)絡(luò),減少率的值為16。


圖5:設(shè)計(jì)的MDA-Net由通道注意力網(wǎng)絡(luò)和像素注意力網(wǎng)絡(luò)組成。

3.3. 旋轉(zhuǎn)分支

??RPN網(wǎng)絡(luò)為第二階段提供了粗略的建議框。為了提高RPN的計(jì)算速度,我們在訓(xùn)練階段將NMS操作的最高得分12,000回歸框作為得分,并獲得2,000作為建議。在測試階段,NMS從10,000個(gè)回歸框中提取了300個(gè)建議。
?? 在第二階段,我們使用五個(gè)參數(shù)(x,y,w,h,\theta)來表示面向任意方向的矩形。 \theta定義為[\fracπ2,0),它是相對(duì)于x軸的銳角,在另一側(cè),我們將其表示為w。此定義與OpenCV一致。因此,軸對(duì)齊邊界框上的IoU計(jì)算可能會(huì)導(dǎo)致傾斜交互式邊界框的IoU不正確,從而進(jìn)一步破壞邊界框的預(yù)測。為了解決這個(gè)問題,提出了一種考慮三角剖分的偏斜IoU計(jì)算的實(shí)現(xiàn)。我們使用旋轉(zhuǎn)非最大抑制(R-NMS)作為基于偏斜IoU計(jì)算的后處理操作。 對(duì)于數(shù)據(jù)集中形狀的多樣性,我們?yōu)椴煌悇e設(shè)置了不同的R-NMS閾值。 此外,為了充分利用ResNet預(yù)訓(xùn)練權(quán)重,我們用C5塊和全局平均池(GAP)替換了兩個(gè)完全連接的層fc6和fc7。 旋轉(zhuǎn)邊界框的回歸為
\begin{equation} t_x=\frac {(x-x_a)}{w_a} , t_y=\frac {(y-y_a)}{h_a}, t_w=\log\frac ww_a,t_h=\log\frac hh_a,t_\theta=\theta-\theta_a \text{,(1)}\\ t_x'=\frac {(x'-x_a)}{w_a} , t_y'=\frac {(y'-y_a)}{h_a}, t_w'=\log\frac {w'}{w_a},t_h'=\log\frac {h'}{h_a},t_\theta'=\theta' - \theta_a \text{,(2)} \end{equation}

其中x,y,w,h\theta分別表示框的中心坐標(biāo),寬度,高度和角度。 變量x,x_ax’分別用于地面真實(shí)框,錨定框和預(yù)測框(同樣適用于y,w,h,\theta)。

3.4. 損失函數(shù)

??使用多任務(wù)損失定義如下所示:
L={\frac {\lambda_1}{N}} \sum_{n=1}^{N}{t_n' {\sum_{j\in\{x,y,w,h,\theta\}}{\frac {L_{reg} (v_{nj}',v_{nj})} {|L_{reg}(v_{nj}',v_{nj})|}}|-\log(IoU)|} + \frac {\lambda_2}{h \times w} \sum_i^h{ \sum_j^w{L_{att}(u_{ij}',u_{ij})}}+\frac {\lambda_3}{N}\sum_{n=1}^N{L_{cls}(p_n,t_n)}} \text{,(3)}
其中N表示建議框數(shù)量,t_n表示對(duì)象的標(biāo)簽,p_n是由Softmax函數(shù)計(jì)算的各種類別的概率分布,t_n'是一個(gè)二進(jìn)制值(對(duì)于前景t_n'= 1;對(duì)于背景t_n'=0,背景無回歸)。v_{*j}'表示預(yù)測的偏移矢量,v_{*j}表示地面真值的目標(biāo)矢量。u_ij,u_{ij}'分別代表遮掩像素的標(biāo)簽和預(yù)測。IoU表示預(yù)測框和地面真相的重疊。超參數(shù)λ_1,λ_2,λ_3控制權(quán)重。另外,分類損失L_{cls}是Softmax交叉熵?;貧w損失L_{reg}是定義的smooth L1損失函數(shù),以及注意力損失函數(shù)L_{att}是像素方向上的Softmax交叉熵。
??由于存在旋轉(zhuǎn)角度的邊界問題,如圖6所示。它表明了一種理想的回歸形式(藍(lán)色框相對(duì)于紅色框逆時(shí)針旋轉(zhuǎn)),但是由于這種情況的損失存在非常大角度的周期性。因此,模型必須以其他復(fù)雜形式回歸(例如,在縮放w和h時(shí)順時(shí)針旋轉(zhuǎn)藍(lán)框),從而增加了回歸的難度,如圖7a所示。為了更好地解決這個(gè)問題,如等式3中所示,我們引入了IoU常數(shù)因子\frac {|-\log(IoU)|}{|L{reg}(v_j',v_j)|}|在傳統(tǒng)的smooth L1損失中??梢钥闯觯谶吔缜闆r下,損失函數(shù)近似等于|-\log(IoU)|≈0,消除了損耗的突然增加,如圖7b所示。新的回歸損失可分為兩部分:\frac {L_{reg}(v_j',v_j)|}{L_{reg}(v_j',v_j)|}確定梯度傳播的方向,以及|?\log(IoU)|表示梯度的大小。另外,使用IoU優(yōu)化位置精度與IoU支配的度量標(biāo)準(zhǔn)一致,它比使用坐標(biāo)回歸更直接,更有效。

圖6:旋轉(zhuǎn)角的邊界不連續(xù)性

圖7:兩個(gè)損失的檢測結(jié)果比較

4. 實(shí)驗(yàn)

??我們的實(shí)驗(yàn)在具有Nvidia Geforce GTX 1080 GPU和8G內(nèi)存的服務(wù)器上基于TensorFlow實(shí)施測試。我們在航拍和自然圖像上進(jìn)行實(shí)驗(yàn)以驗(yàn)證我們技術(shù)的通用性。請(qǐng)注意,我們的技術(shù)與特定的骨干網(wǎng)絡(luò)正交,在實(shí)驗(yàn)中,我們使用Resnet-101作為遙感基準(zhǔn)的骨干網(wǎng)絡(luò),而FPN和R2CNN網(wǎng)絡(luò)分別用于COCO\VOC2007和ICDAR2015數(shù)據(jù)集上。

4.1. 航拍影像實(shí)驗(yàn)

4.1.1 數(shù)據(jù)集和協(xié)議

?? DOTA數(shù)據(jù)集作為基準(zhǔn)用于航拍影像中的物體檢測。它包含來自不同傳感器和平臺(tái)的2806張航拍圖像。圖像大小范圍從800×800到4,000×4,000像素不等,其中包含顯示各種比例、方向和形狀的對(duì)象。然后,專家使用15個(gè)常見對(duì)象類別對(duì)這些圖像進(jìn)行注釋。完全注釋的DOTA基準(zhǔn)包含188282個(gè)實(shí)例,每個(gè)實(shí)例都由任意四邊形標(biāo)注。 DOTA數(shù)據(jù)集有兩個(gè)檢測任務(wù):水平邊界框(HBB)和定向邊界框(OBB)。隨機(jī)選擇一半原始圖像作為訓(xùn)練集,將1/6作為驗(yàn)證集,將1/3作為測試集。我們將圖像劃分為800×800個(gè)子圖像,重疊200個(gè)像素。
??NWPU VHR-10數(shù)據(jù)集包含用于檢測的10類地理空間對(duì)象。 該數(shù)據(jù)集包含800個(gè)超高分辨率(VHR)遙感圖像,這些圖像是從Google Earth和Vaihingen數(shù)據(jù)集裁剪而來的,然后由專家手動(dòng)注釋。
?? 我們使用ResNet-101的預(yù)訓(xùn)練模型進(jìn)行初始化操作。對(duì)于DOTA數(shù)據(jù)集,該模型總共進(jìn)行了300k次迭代訓(xùn)練,且學(xué)習(xí)率在從3e-4到3e-6的100k和200k迭代期間發(fā)生了變化。 對(duì)于NWPU VHR-10數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集的分割率分別為60%,20%和20%。 該模型經(jīng)過總計(jì)20k次迭代訓(xùn)練,學(xué)習(xí)率與DOTA相同。 此外,重量衰減和動(dòng)量分別為0.0001和0.9。 我們使用Momentum Optimizer作為優(yōu)化器,除了訓(xùn)練過程中的隨機(jī)圖像翻轉(zhuǎn)外,沒有執(zhí)行任何數(shù)據(jù)增強(qiáng)。
??對(duì)于參數(shù)設(shè)置,如第3.1節(jié)中所述,預(yù)期錨定步幅S設(shè)置為6,將基本錨點(diǎn)大小設(shè)置為256,并將錨定標(biāo)度設(shè)置為2_-42_1。由于DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集中的多類別對(duì)象具有不同的形狀,因此我們將錨定比率設(shè)置為[1 / 1,1 / 2,1 / 3,1 / 4,1 / 5,1 / 6,1 / 7,1 / 9]。這些設(shè)置確保可以為每個(gè)真實(shí)標(biāo)簽分配正樣本。當(dāng)IoU> 0.7時(shí),將錨定為正樣本,如果IoU <0.3,則將錨定為負(fù)樣本。此外,由于大縱橫比矩形中的角度和IoU之間的靈敏度,第二階段中的兩個(gè)閾值都分別設(shè)置為0.4。對(duì)于訓(xùn)練,兩個(gè)階段的最小批量大小為512。等式3中的超參數(shù)設(shè)置為λ_1= 4,λ_2= 1,λ_3= 2。

表2:在DOTA數(shù)據(jù)集上對(duì)我們提出的方法中的每個(gè)組成部分進(jìn)行消融研究。類別的簡稱定義為:PL-飛機(jī),BD-棒球鉆石,BR-橋梁,GTF-地面賽道,SV-小型車,LV-大型車,SH-船,TC-網(wǎng)球場,BC-籃球球場,ST儲(chǔ)油罐,SBF-足球場,RA-環(huán)島公路,HA-港口,SP-游泳池和HC-直升機(jī)。

表3:DOTA數(shù)據(jù)集上的OBB和HBB任務(wù)的性能評(píng)估

4.1.2 消融研究

?? 基準(zhǔn)設(shè)置:我們選擇基于Faster R-CNN的R2CNN 作為消融研究的基線,但不僅限于此方法。為了公平起見,所有實(shí)驗(yàn)數(shù)據(jù)和參數(shù)設(shè)置均嚴(yán)格一致。我們使用平均平均精度(mAP)作為性能指標(biāo)。此處報(bào)告的DOTA的結(jié)果是通過將我們的預(yù)測提交給官方DOTA評(píng)估服務(wù)器(見引用1)獲得的。
??MDA-Net模塊的效果:如3.2節(jié)所述,注意結(jié)構(gòu)有利于抑制噪聲的影響并突出對(duì)象信息。從表2可以看出,加入像素注意力網(wǎng)絡(luò)后,大多數(shù)物體的檢測結(jié)果均有不同程度的提高,總mAP增加了3.67%。 MDA-Net進(jìn)一步提高了寬高比目標(biāo)的檢測精度,例如橋梁,大型車輛,船舶,港口等。與像素關(guān)注相比,MDANet使mAP增長約1%,達(dá)到65.33%。表5顯示了監(jiān)督學(xué)習(xí)是MDANet的主要貢獻(xiàn),而不是計(jì)算。
?? SF-Net模塊的效果:減小錨的步幅大小和特征融合是改進(jìn)對(duì)小物體的檢測的有效手段。在表2中,我們還研究了[45]中介紹的技術(shù)。移位錨點(diǎn)(SA)和移位抖動(dòng)(SJ)都遵循使用單個(gè)特征點(diǎn)使多個(gè)子區(qū)域的邊界框回歸的想法。實(shí)驗(yàn)表明,根據(jù)原始論文的觀察,這兩種策略幾乎無法提高準(zhǔn)確性。擴(kuò)大特征圖是減少SA的好策略,包括雙線性上采樣(BU),帶跳過連接的雙線性上采樣(BUS),膨脹卷積(DC)。盡管這些方法考慮了采樣對(duì)小物體檢測的重要性,并且其檢測性能已得到不同程度的改善,但S_A設(shè)置仍然不夠靈活,無法獲得最佳采樣結(jié)果。 SF-Net有效地改善了特征融合和S_A設(shè)置的靈活性,并實(shí)現(xiàn)了68.89%的最佳性能,這尤其得益于車輛,船舶和儲(chǔ)罐等小物體的改進(jìn)。
?? IoU平滑L1丟失的影響:IoU-Smooth L1損失消除了角度的邊界影響,使模型更容易回歸到對(duì)象坐標(biāo)。這個(gè)新的損失將檢測精度提高到69.83%。
?? 圖像金字塔的效果:基于圖像金字塔的訓(xùn)練和測試是提高性能的有效手段。ICN方法使用圖像級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),類似于圖像金字塔的概念。在這里,我們將原始圖像隨機(jī)縮放為[600×600、800×800、1,000×1,000、1,200×1,200],并將其發(fā)送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為了進(jìn)行測試,每個(gè)圖像均以四個(gè)比例進(jìn)行測試,并通過R-NMS進(jìn)行組合。如表2所示,圖像金字塔可以顯著提高檢測效率并達(dá)到72.61%的mAP。 DOTA數(shù)據(jù)集上每個(gè)類別的檢測結(jié)果如圖8所示。

圖8:關(guān)于DOTA的示例。我們的方法在尺寸較小,方向任意且密度較高的對(duì)象上表現(xiàn)更好。

4.1.3 對(duì)等方法比較

?? OBB任務(wù):除了DOTA提供的官方基準(zhǔn)外,我們還與RRPN [29],R2CNN,R-DFPN,ICN和RoI-Transformer進(jìn)行了比較,它們都適用于多類別旋轉(zhuǎn)目標(biāo)檢測。表3顯示了這些方法的性能。RoI-Transformer、ICN和SCRDet在小物體檢測中的出色性能歸因于特征融合。 SCRDet考慮了接收?qǐng)龅臄U(kuò)展和融合中噪聲的衰減,因此對(duì)于大型物體,它比ICN和RoI-Transformer更好。我們的方法在現(xiàn)有已發(fā)表結(jié)果中排名第一,達(dá)到mAP的72.61%。
?? HBB任務(wù):我們使用DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集來驗(yàn)證我們提出的方法并屏蔽代碼中的角度參數(shù)。表3和表4分別顯示了兩個(gè)數(shù)據(jù)集的性能。在DOTA文獻(xiàn)中,我們還在現(xiàn)有方法中排名第一,大約為75.35%。對(duì)于NWPU VHR-10數(shù)據(jù)集,我們將其與9種方法進(jìn)行比較,并以91.75%的質(zhì)量實(shí)現(xiàn)了最佳檢測性能。我們的方法可在一半以上的類別上實(shí)現(xiàn)最佳檢測精度。

表4:NWPU VHR-10數(shù)據(jù)集上HBB任務(wù)的性能。

表5:MDA-Net?表示沒有監(jiān)督學(xué)習(xí)的MDA-Net?;€?指在有監(jiān)督下的基線。

4.2. 自然圖像實(shí)驗(yàn)

?? 為了驗(yàn)證我們模型的通用性,我們進(jìn)一步驗(yàn)證了在通用數(shù)據(jù)集和通用檢測網(wǎng)絡(luò)FPN 和R2CNN上提出的技術(shù)。我們選擇COCO數(shù)據(jù)集和VOC2007數(shù)據(jù)集,因?yàn)樗鼈儼S多小對(duì)象。我們還使用ICDAR2015數(shù)據(jù)集,因?yàn)榇嬖谟糜趫鼍拔谋緳z測的旋轉(zhuǎn)文本。
?? 由表6可以看出,在COCO數(shù)據(jù)集和VOC2007數(shù)據(jù)集上,帶有MDA-Net的FPN*可以分別增加0.7%和2.22%。如圖9所示,MDA-Net在密集和小物體檢測方面均具有良好的性能。IoU-Smooth損失函數(shù)并沒有為水平區(qū)域??檢測帶來很大的改善,因此這也反映了其與旋轉(zhuǎn)檢測邊界問題的相關(guān)性。

圖9:COCO數(shù)據(jù)集的檢測結(jié)果。第一列是FPN * + MDA-Net的結(jié)果,第二列是FPN *。紅色框代表丟失的對(duì)象,橙色框代表誤報(bào)警。

表6:擬議結(jié)構(gòu)對(duì)通用數(shù)據(jù)集的有效性。 符號(hào)?表示我們自己的實(shí)現(xiàn)。 對(duì)于VOC 2007數(shù)據(jù)集,所有方法均在VOC2007訓(xùn)練集上進(jìn)行訓(xùn)練,并在VOC 2007測試集上進(jìn)行測試。 對(duì)于COCO數(shù)據(jù)集,所有結(jié)果都是在最小集合上獲得的。 對(duì)于ICDAR2015數(shù)據(jù)集,將結(jié)果提交到官方網(wǎng)站即可獲得結(jié)果

?? 根據(jù)[19],對(duì)于ICDAR2015數(shù)據(jù)集R2CNN-4的單一規(guī)模達(dá)到74.36%。因?yàn)樗皇情_源的,所以我們無法重新實(shí)現(xiàn)它,并根據(jù)論文中旋轉(zhuǎn)框的定義將其版本稱為R2CNN-4 *,而沒有多個(gè)合并大小的結(jié)構(gòu),我們的版本可以實(shí)現(xiàn)77.23%的mAP。然后,我們?yōu)镽2CNN-4 *配備我們提出的技術(shù),并將其稱為SCRDet-R2CNN。它在單個(gè)規(guī)模上實(shí)現(xiàn)了最高的性能80.08%。再次證明了本文提出的結(jié)構(gòu)的有效性。根據(jù)圖10,SCRDet-R2CNN實(shí)現(xiàn)了密集對(duì)象檢測的明顯更好的召回率。

圖10:COCO數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集的檢測結(jié)果。第一列是采用我們的技術(shù)(SCRDet-R<sup>2</sup>CNN)的R<sup>2</sup>CNN-4 *的結(jié)果,第二列是vanilla的R<sup>2</sup>CNN-4 *的結(jié)果。紅色箭頭表示錯(cuò)過的對(duì)象。

5. 結(jié)論

??我們提出了一種端到端的多類別檢測器用于檢測任意旋轉(zhuǎn)的物體,這類物體在航空影像中很常見??紤]到特征融合和錨點(diǎn)采樣的因素,添加了具有較小S_A的采樣融合網(wǎng)絡(luò)。同時(shí),該算法通過監(jiān)督的多維注意力網(wǎng)絡(luò)來減弱噪聲的影響并突出顯示對(duì)象信息。此外,我們實(shí)施旋轉(zhuǎn)檢測以保留方向信息并解決密集的問題。我們的方法在兩個(gè)公共遙感數(shù)據(jù)集上獲得了最先進(jìn)的性能:DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集。最后,我們在自然數(shù)據(jù)集(例如COCO,VOC2007和ICDAR2015)上進(jìn)一步驗(yàn)證了我們的結(jié)構(gòu)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容