911G人妻,国产美女在线免费观看,色国产区四四

論文原文：https://arxiv.org/abs/1811.07126
代碼地址：https://github.com/DetectionTeamUCAS

摘要

??目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域的基石。盡管現(xiàn)在目標(biāo)檢測領(lǐng)域已經(jīng)取得了巨大的進(jìn)步，但是對(duì)于小型目標(biāo)、雜亂密集分布和任意旋轉(zhuǎn)方向的目標(biāo)檢測依然存在巨大的挑戰(zhàn)。除了自然圖像外，對(duì)于遙感影響而言，此類問題尤為突出。本文提出了一種應(yīng)用于小型，混亂和旋轉(zhuǎn)目標(biāo)的新型多類別旋轉(zhuǎn)探測器，即SCRDet。具體來講，我們設(shè)計(jì)了一種采樣融合網(wǎng)絡(luò)，該融合網(wǎng)絡(luò)將多層特征與有效的錨點(diǎn)采樣融合在一起，以提高對(duì)小物體的靈敏度。同時(shí)，通過抑制噪聲并突出物體特征，共同探索了監(jiān)督像素注意力網(wǎng)絡(luò)和通道注意力網(wǎng)絡(luò)，用于小而雜亂的物體檢測。為了更準(zhǔn)確地進(jìn)行旋轉(zhuǎn)估計(jì)，將IoU常數(shù)因子添加到平滑L1 loss中以解決旋轉(zhuǎn)邊界框的邊界問題。在兩個(gè)遙感公共數(shù)據(jù)集DOTA，NWPU VHR-10以及自然圖像數(shù)據(jù)集COCO，VOC2007和場景文本數(shù)據(jù)ICDAR2015上進(jìn)行了大量實(shí)驗(yàn)表明了我們探測器的最新性能。

1. 簡介

??目標(biāo)檢測是計(jì)算機(jī)視覺中的基本任務(wù)之一，并且已經(jīng)有各種通用檢測器被提出來。它們在COCO和VOC2007等在內(nèi)的一些數(shù)據(jù)集上已經(jīng)取得了比較好的結(jié)果。但是，大多數(shù)現(xiàn)有的探測器并沒有特別在開放環(huán)境中進(jìn)行其他方面的目標(biāo)檢測：比如小物體，雜亂排列和任意方向物體的目標(biāo)檢測。
??在實(shí)際問題中，由于攝像機(jī)分辨率的限制和其他方面的影響，感興趣的對(duì)象的尺寸可能很小。例如用于檢測交通標(biāo)志，在街道上的公共攝像頭下的小臉；而且，物體會(huì)以非常密集的方式排列（在購物中心的貨物以一定的距離密集排列）。此外，對(duì)象不再像在COCO、VOC2007數(shù)據(jù)集圖片中那樣水平放置，而用于場景檢測的目標(biāo)可以在任何方向和位置。
??特別是，上述三個(gè)挑戰(zhàn)對(duì)于遙感圖像來說非常明顯，分析如下：
??1. 小目標(biāo)，航拍影像中小目標(biāo)經(jīng)常被復(fù)雜的周圍場景圍繞而忽視掉。
??2. 雜亂的位置布置，用于檢測的物體通常密集地布置，例如車輛和輪船。
??3. 任意方向，航拍影像中的物體可以以不同的方向出現(xiàn)，它也進(jìn)一步受到遙感中常見的大縱橫比問題的挑戰(zhàn)。
??在本文中，我們主要在遙感的背景下討論我們的方法，而這種方法和于其他問題而言可以通用，并且我們已經(jīng)用航拍影像以外的各種數(shù)據(jù)集進(jìn)行了測試，如實(shí)驗(yàn)所示。
??許多現(xiàn)有的通用檢測器，例如Faster RCNN，已被廣泛用于空中物體檢測。但是，這種檢測器的設(shè)計(jì)通?；陔[含的假設(shè)，即邊界框基本上處于水平位置，而對(duì)于航空?qǐng)D像（以及其他檢測任務(wù)，例如場景文本檢測）則不是這種情況。作為后處理，流行的非最大抑制（NMS）技術(shù)進(jìn)一步表明了這一局限性，因?yàn)樗鼘⒁种圃谒骄€上任意方向上密集排列的物體的檢測。此外，基于水平區(qū)域的方法在方向估計(jì)上具有粗糙的分辨率，這是要提取用于遙感的關(guān)鍵信息。
??許多現(xiàn)有的通用檢測器，例如Faster RCNN，已被廣泛用于空中物體檢測。但是，這種檢測器的設(shè)計(jì)通?；谝粋€(gè)假設(shè)，即邊界框基本上處于水平位置，而對(duì)于航空?qǐng)D像（以及其他檢測任務(wù)，例如場景文本檢測）則不是這種情況。作為后處理，采用最多的非極大值抑制（NMS）技術(shù)進(jìn)一步表明了這一局限性，因?yàn)樗鼘⒁种圃谒骄€上任意方向上密集排列的物體的檢測。（？？？）此外，基于水平區(qū)域的方法在方向估計(jì)上具有粗糙的分辨率，這是要提取用于遙感的關(guān)鍵信息。
??我們提出了一種新穎的多類別旋轉(zhuǎn)檢測器，用于檢測小型、混亂和旋轉(zhuǎn)的目標(biāo)，并取名為SCRDet，旨在解決以下問題：1）小目標(biāo)：設(shè)計(jì)了一種采樣融合網(wǎng)絡(luò)（SF-Net），其結(jié)合了特征融合和特征錨采樣；2）噪聲背景：開發(fā)了一種受監(jiān)督的多維注意力網(wǎng)絡(luò)（MDA-Net），它由像素注意力網(wǎng)絡(luò)和通道注意力網(wǎng)絡(luò)組成，用于抑制噪聲并突出前景；3）任意方向的雜亂且密集的物體：通過引入角度相關(guān)的參數(shù)進(jìn)行估計(jì)，設(shè)計(jì)出角度敏感網(wǎng)絡(luò)。整體上我們將這三種技術(shù)結(jié)合在一起，該方法在包括兩個(gè)遙感基準(zhǔn)DOTA和NWPU VHR-10在內(nèi)的公共數(shù)據(jù)集上實(shí)現(xiàn)了最新的性能。本文的貢獻(xiàn)是：
??1. 針對(duì)小目標(biāo)：設(shè)計(jì)了一種通過特征融合和錨點(diǎn)采樣的采樣融合網(wǎng)絡(luò)。
??2. 針對(duì)雜亂的小目標(biāo)檢測，開發(fā)了一種有監(jiān)督的多維注意網(wǎng)絡(luò)，以減少背景噪聲的不利影響。
??3. 為了更魯棒地處理任意旋轉(zhuǎn)的物體，通過添加IoU常數(shù)因子來設(shè)計(jì)改進(jìn)的平滑L1損失，該因子被定制以解決旋轉(zhuǎn)邊界框回歸的邊界問題。
??4. 更重要的是，在4.2節(jié)中我們表明所提出的技術(shù)是通用的，也可以應(yīng)用于自然圖像并結(jié)合一般檢測算法，這些算法超越了最先進(jìn)的方法或通過組合進(jìn)一步改進(jìn)了現(xiàn)有方法。

2. 相關(guān)工作

??現(xiàn)有的檢測方法主要是假設(shè)檢測對(duì)象沿圖像中的水平線定位。在這項(xiàng)工作中，提出了一個(gè)用于區(qū)域檢測的多階段R-CNN網(wǎng)絡(luò)，隨后在準(zhǔn)確性和效率方面進(jìn)行了改進(jìn)，包括 Fast R-CNN ， Faster R-CNN 和基于區(qū)域的完全卷積網(wǎng)絡(luò)（R-FCN）。另一方面，還有一系列最近的直接回歸邊界框的網(wǎng)絡(luò)，例如：單次物體探測器（SSD）并且您只需查看一次（YOLO）網(wǎng)絡(luò)即可提高速度。
??如上所述，存在關(guān)于小目標(biāo)，密集布置和任意旋轉(zhuǎn)的這些具有挑戰(zhàn)性的場景，盡管它們在實(shí)際現(xiàn)實(shí)中很重要，但是上述檢測器并未對(duì)其進(jìn)行特別處理。特別是對(duì)于航拍圖像，由于其對(duì)國家和社會(huì)的戰(zhàn)略價(jià)值，因此還在努力開發(fā)量身定制的遙感方法。 RP-Faster R-CNN框架是針對(duì)小型對(duì)象開發(fā)的。同時(shí)兩個(gè)可變形卷積層和R-FCN被組合以提高檢測精度。最近，[40]中的作者采用自上而下和跳過的連接來生成單個(gè)具有高分辨率的高級(jí)特征圖，從而提高了可變形旋轉(zhuǎn)檢測框Faster R-CNN網(wǎng)絡(luò)的性能。即使這樣，基于水平區(qū)域的檢測器在規(guī)模、方向和密度方面仍然面臨上述瓶頸的挑戰(zhàn)，這需要基于水平區(qū)域檢測的改進(jìn)以外的更多原理化方法。另一方面，遙感方面有很多工作要做，可以檢測任意方向的物體。但是，這些方法通常適合于特定的對(duì)象類別，例如車輛，輪船，飛機(jī)等。盡管最近有幾種方法用于多類別旋轉(zhuǎn)區(qū)域檢測模型，但它們?nèi)狈π〕叽绺呙芏鹊脑瓌t處理方式。
??與自然圖像的檢測方法相比，場景文本檢測的文獻(xiàn)往往更注重面向?qū)ο蟆?雖然這種方法在處理基于航空?qǐng)D像的物體檢測方面仍然存在困難：一個(gè)原因是大多數(shù)文本檢測方法僅限于單類物體檢測，而通常有許多不同的類別可以識(shí)別遠(yuǎn)程傳感。另一個(gè)原因是航拍圖像中的物體通常比場景文本中的物體更接近，這限制了基于分割的檢測算法的適用性，否則它們可以在在場景文本上良好的運(yùn)行。此外，通常存在大量密集分布的對(duì)象，這些對(duì)象需要有效的檢測。
??本文綜合考慮了上述各方面，提出了航空?qǐng)D像中多類任意導(dǎo)向目標(biāo)檢測的原理方法。

3. 提出的方法

??我們首先概括了如圖1所示的兩階段方法。在第一階段，通過添加SF-Net和MDA-Net，可以期望特征圖包含更多的特征信息和更少的噪聲。對(duì)于角度參數(shù)的位置敏感性，此階段仍使水平框回歸。通過改進(jìn)的五參數(shù)回歸和第二階段中每個(gè)提案的旋轉(zhuǎn)非最大抑制（R-NMS）操作，我們可以獲得任意旋轉(zhuǎn)下的最終檢測結(jié)果。

圖1：SCRDet網(wǎng)絡(luò)模型，其中包括針對(duì)小型雜物的SF-Net模塊，MDA-Net模塊和用于旋轉(zhuǎn)對(duì)象的旋轉(zhuǎn)分支。

3.1 更精細(xì)的采樣和特征融合網(wǎng)絡(luò)

??在我們的分析中，檢測小物體有兩個(gè)主要障礙：物體特征信息不足和錨點(diǎn)樣本不足。由于使用了池化層，因此小對(duì)象在深層中丟失了大部分特征信息。同時(shí)，高級(jí)特征圖的較大采樣步幅傾向于直接跳過較小的對(duì)象，從而導(dǎo)致采樣不足。
?? 功能融合：通常認(rèn)為低級(jí)特征圖可以保留小對(duì)象的位置信息，而高級(jí)特征圖可以包含高級(jí)語義線索。特征金字塔網(wǎng)絡(luò)（FPN）、自上而下的調(diào)制（TDM）和與對(duì)象先驗(yàn)網(wǎng)絡(luò)的反向連接（RON）是常見的特征融合方法，涉及將高層次特征映射和低層次特征映射組合不同的形式。

圖2：具有不同錨跨度$S_A$的錨采樣。橙黃色的邊界框表示錨點(diǎn)，綠色表示地面真相，紅色框表示具有最大IoU地面實(shí)況的錨點(diǎn)。

??更精細(xì)的采樣：訓(xùn)練樣本不足和不平衡會(huì)影響檢測性能，通過引入期望最大化交集得分（EMO Score：用于計(jì)算pred bbox與gt的IoU）作者計(jì)算出錨點(diǎn)和物體之間的期望的最大聯(lián)合交叉點(diǎn)（IoU）。他們發(fā)現(xiàn)錨點(diǎn)（ $S_A$ ）的步幅越小，獲得的EMO得分越高，從統(tǒng)計(jì)上講導(dǎo)致所有對(duì)象的平均最大IoU均得到改善。圖2顯示了分別跨步16和8進(jìn)行小物體采樣的結(jié)果?？梢钥闯觯^小的 $S_A$ 可以捕獲更多高質(zhì)量的樣本，從而更好地捕獲小物體，這對(duì)于檢測器訓(xùn)練和推理均具有幫助。

圖3：SF-Net。F3的S_A較小，同時(shí)充分考慮了不同尺度的特征融合和適應(yīng)性。

?? 基于以上分析，我們設(shè)計(jì)了精細(xì)采樣和特征融合網(wǎng)絡(luò)（SF-Net），如圖3所示。在基于錨點(diǎn)的檢測框架中，

S_A

的值等于特征圖相對(duì)于原始圖像的縮減因子。換句話說，

S_A

的值只能是2的指數(shù)倍。SF-Net通過更改特征圖的大小來解決此問題，從而使

S_A

的設(shè)置更靈活以允許更多自適應(yīng)采樣。為了減少網(wǎng)絡(luò)參數(shù)，SF-Net僅使用Resnet中的C3和C4進(jìn)行融合以平衡語義信息和位置信息，同時(shí)忽略其他不太相關(guān)的功能。簡單來說，SF-Net的第一個(gè)通道會(huì)對(duì)C4進(jìn)行上采樣，以使其

S_A=S

，其中S是預(yù)期的錨跨度。第二個(gè)通道還將C3上采樣到相同的大小。然后，我們將C3傳遞給起始結(jié)構(gòu)，以擴(kuò)展C3的接受域并增加語義信息。初始結(jié)構(gòu)包含各種比率卷積核以捕獲對(duì)象形狀的多樣性。最后，通過將兩個(gè)通道逐個(gè)元素相加獲得新的特征圖F3。表1列出了不同

S_A

下DOTA的檢測精度和訓(xùn)練開銷。我們發(fā)現(xiàn)最佳的

S_A

依賴于特定的數(shù)據(jù)集，尤其是小對(duì)象的大小分布。在本文中，為了在精度和速度之間進(jìn)行權(quán)衡，通常將

S_A

的值設(shè)置為6。

anchor stride $S_A$	6	8	10	12	14	16
OBB mAP (%)	67.06	66.88	65.32	63.75	63.32	63.64
HBB mAP (%)	70.71	70.19	68.96	69.09	68.54	69.33
Training time (sec.)	1.18	0.99	0.76	0.46	0.39	0.33

表1：在不同的步伐 $S_A$ 下，在DOTA數(shù)據(jù)集上進(jìn)行18k迭代時(shí)，平均每張圖像的準(zhǔn)確性和訓(xùn)練時(shí)間。

3.2. 多維注意力網(wǎng)絡(luò)

??由于諸多航拍圖像之類的現(xiàn)實(shí)世界數(shù)據(jù)的復(fù)雜性，RPN網(wǎng)絡(luò)提供的建議區(qū)域可能會(huì)引入大量的噪聲信息，如圖4b所示。過多的噪聲信息會(huì)對(duì)網(wǎng)絡(luò)進(jìn)行干擾，對(duì)象之間的邊界變得模糊（請(qǐng)參見圖4a），從而導(dǎo)致漏檢和誤報(bào)數(shù)增加。因此，有必要增加目標(biāo)提示并消弱非目標(biāo)信息。已經(jīng)有許多注意力網(wǎng)絡(luò)解構(gòu)提出來以解決遮擋、噪聲和模糊的問題。但是，這些方法大多數(shù)都是無監(jiān)督的，難以指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)特定的目的。

圖4：多維注意力網(wǎng)絡(luò)的可視化。（a）邊界模糊（b）輸入注意力網(wǎng)絡(luò)的特征圖（c）注意網(wǎng)絡(luò)的輸出特征圖（d）顯著性圖（e）二進(jìn)制圖（f）事實(shí)真相。

??為了更有效地捕獲復(fù)雜背景下的小物體的客觀性，我們設(shè)計(jì)了一個(gè)受監(jiān)督的多維注意力學(xué)習(xí)器（MDA-Net），如圖5所示。具體的說，在像素注意力網(wǎng)絡(luò)中，特征圖F3經(jīng)過一個(gè)具有不同比率卷積核的初始結(jié)構(gòu)，然后通過卷積運(yùn)算學(xué)習(xí)兩通道顯著性圖（參見圖4d）。顯著性分別表示前景和背景的分?jǐn)?shù)。然后，在顯著圖上執(zhí)行Softmax操作，并選擇一個(gè)通道與F3相乘。最終，獲得新的信息特征圖A3，如圖4c所示。應(yīng)當(dāng)指出，Softmax函數(shù)之后的顯著性圖的值在[0,1]之間。換句話說，它可以減少噪聲并相對(duì)增強(qiáng)對(duì)象信息。由于顯著性圖是連續(xù)的，因此不會(huì)完全消除非對(duì)象信息，這對(duì)于保留某些上下文信息和提高魯棒性是有利的。為了知道網(wǎng)絡(luò)學(xué)習(xí)此過程，我們采用了監(jiān)督學(xué)習(xí)方法。首先，我們可以很容易地更具地面真實(shí)情況獲得一個(gè)二元圖作為標(biāo)簽（如圖4e所示），然后將二元圖的交叉熵?fù)p失和顯著性圖作為注意力損失。此為，我們還使用SENet作為輔助的頻道關(guān)注網(wǎng)絡(luò)，減少率的值為16。

圖5：設(shè)計(jì)的MDA-Net由通道注意力網(wǎng)絡(luò)和像素注意力網(wǎng)絡(luò)組成。

3.3. 旋轉(zhuǎn)分支

??RPN網(wǎng)絡(luò)為第二階段提供了粗略的建議框。為了提高RPN的計(jì)算速度，我們在訓(xùn)練階段將NMS操作的最高得分12,000回歸框作為得分，并獲得2,000作為建議。在測試階段，NMS從10,000個(gè)回歸框中提取了300個(gè)建議。
?? 在第二階段，我們使用五個(gè)參數(shù) $(x,y,w,h,\theta)$ 來表示面向任意方向的矩形。 $\theta$ 定義為 $[\fracπ2,0)$ ，它是相對(duì)于 $x$ 軸的銳角，在另一側(cè)，我們將其表示為 $w$ 。此定義與OpenCV一致。因此，軸對(duì)齊邊界框上的IoU計(jì)算可能會(huì)導(dǎo)致傾斜交互式邊界框的IoU不正確，從而進(jìn)一步破壞邊界框的預(yù)測。為了解決這個(gè)問題，提出了一種考慮三角剖分的偏斜IoU計(jì)算的實(shí)現(xiàn)。我們使用旋轉(zhuǎn)非最大抑制（R-NMS）作為基于偏斜IoU計(jì)算的后處理操作。對(duì)于數(shù)據(jù)集中形狀的多樣性，我們?yōu)椴煌悇e設(shè)置了不同的R-NMS閾值。此外，為了充分利用ResNet預(yù)訓(xùn)練權(quán)重，我們用C5塊和全局平均池（GAP）替換了兩個(gè)完全連接的層fc6和fc7。旋轉(zhuǎn)邊界框的回歸為
$\begin{equation} t_x=\frac {(x-x_a)}{w_a} , t_y=\frac {(y-y_a)}{h_a}, t_w=\log\frac ww_a,t_h=\log\frac hh_a,t_\theta=\theta-\theta_a \text{，（1）}\\ t_x'=\frac {(x'-x_a)}{w_a} , t_y'=\frac {(y'-y_a)}{h_a}, t_w'=\log\frac {w'}{w_a},t_h'=\log\frac {h'}{h_a},t_\theta'=\theta' - \theta_a \text{，（2）} \end{equation}$

其中 $x,y,w,h$ 和 $\theta$ 分別表示框的中心坐標(biāo)，寬度，高度和角度。變量 $x$ , $x_a$ 和 $x’$ 分別用于地面真實(shí)框，錨定框和預(yù)測框（同樣適用于 $y,w,h,\theta$ ）。

3.4. 損失函數(shù)

??使用多任務(wù)損失定義如下所示：
$L={\frac {\lambda_1}{N}} \sum_{n=1}^{N}{t_n' {\sum_{j\in\{x,y,w,h,\theta\}}{\frac {L_{reg} (v_{nj}',v_{nj})} {|L_{reg}(v_{nj}',v_{nj})|}}|-\log(IoU)|} + \frac {\lambda_2}{h \times w} \sum_i^h{ \sum_j^w{L_{att}(u_{ij}',u_{ij})}}+\frac {\lambda_3}{N}\sum_{n=1}^N{L_{cls}(p_n,t_n)}} \text{，（3）}$
其中 $N$ 表示建議框數(shù)量， $t_n$ 表示對(duì)象的標(biāo)簽， $p_n$ 是由Softmax函數(shù)計(jì)算的各種類別的概率分布， $t_n'$ 是一個(gè)二進(jìn)制值（對(duì)于前景 $t_n'= 1$ ；對(duì)于背景 $t_n'=0$ ，背景無回歸）。 $v_{*j}'$ 表示預(yù)測的偏移矢量， $v_{*j}$ 表示地面真值的目標(biāo)矢量。 $u_ij,u_{ij}'$ 分別代表遮掩像素的標(biāo)簽和預(yù)測。 $IoU$ 表示預(yù)測框和地面真相的重疊。超參數(shù) $λ_1,λ_2,λ_3$ 控制權(quán)重。另外，分類損失 $L_{cls}$ 是Softmax交叉熵?；貧w損失 $L_{reg}$ 是定義的smooth L1損失函數(shù)，以及注意力損失函數(shù) $L_{att}$ 是像素方向上的Softmax交叉熵。
??由于存在旋轉(zhuǎn)角度的邊界問題，如圖6所示。它表明了一種理想的回歸形式（藍(lán)色框相對(duì)于紅色框逆時(shí)針旋轉(zhuǎn)），但是由于這種情況的損失存在非常大角度的周期性。因此，模型必須以其他復(fù)雜形式回歸（例如，在縮放w和h時(shí)順時(shí)針旋轉(zhuǎn)藍(lán)框），從而增加了回歸的難度，如圖7a所示。為了更好地解決這個(gè)問題，如等式3中所示，我們引入了IoU常數(shù)因子 $\frac {|-\log(IoU)|}{|L{reg}(v_j'，v_j)|}$ |在傳統(tǒng)的smooth L1損失中?？梢钥闯觯谶吔缜闆r下，損失函數(shù)近似等于 $|-\log(IoU)|≈0$ ，消除了損耗的突然增加，如圖7b所示。新的回歸損失可分為兩部分： $\frac {L_{reg}(v_j',v_j)|}{L_{reg}(v_j',v_j)|}$ 確定梯度傳播的方向，以及 $|?\log(IoU)|$ 表示梯度的大小。另外，使用IoU優(yōu)化位置精度與IoU支配的度量標(biāo)準(zhǔn)一致，它比使用坐標(biāo)回歸更直接，更有效。

圖6：旋轉(zhuǎn)角的邊界不連續(xù)性

圖7：兩個(gè)損失的檢測結(jié)果比較

4. 實(shí)驗(yàn)

??我們的實(shí)驗(yàn)在具有Nvidia Geforce GTX 1080 GPU和8G內(nèi)存的服務(wù)器上基于TensorFlow實(shí)施測試。我們在航拍和自然圖像上進(jìn)行實(shí)驗(yàn)以驗(yàn)證我們技術(shù)的通用性。請(qǐng)注意，我們的技術(shù)與特定的骨干網(wǎng)絡(luò)正交，在實(shí)驗(yàn)中，我們使用Resnet-101作為遙感基準(zhǔn)的骨干網(wǎng)絡(luò)，而FPN和R²CNN網(wǎng)絡(luò)分別用于COCO\VOC2007和ICDAR2015數(shù)據(jù)集上。

4.1. 航拍影像實(shí)驗(yàn)

4.1.1 數(shù)據(jù)集和協(xié)議

?? DOTA數(shù)據(jù)集作為基準(zhǔn)用于航拍影像中的物體檢測。它包含來自不同傳感器和平臺(tái)的2806張航拍圖像。圖像大小范圍從800×800到4,000×4,000像素不等，其中包含顯示各種比例、方向和形狀的對(duì)象。然后，專家使用15個(gè)常見對(duì)象類別對(duì)這些圖像進(jìn)行注釋。完全注釋的DOTA基準(zhǔn)包含188282個(gè)實(shí)例，每個(gè)實(shí)例都由任意四邊形標(biāo)注。 DOTA數(shù)據(jù)集有兩個(gè)檢測任務(wù)：水平邊界框（HBB）和定向邊界框（OBB）。隨機(jī)選擇一半原始圖像作為訓(xùn)練集，將1/6作為驗(yàn)證集，將1/3作為測試集。我們將圖像劃分為800×800個(gè)子圖像，重疊200個(gè)像素。
??NWPU VHR-10數(shù)據(jù)集包含用于檢測的10類地理空間對(duì)象。該數(shù)據(jù)集包含800個(gè)超高分辨率（VHR）遙感圖像，這些圖像是從Google Earth和Vaihingen數(shù)據(jù)集裁剪而來的，然后由專家手動(dòng)注釋。
?? 我們使用ResNet-101的預(yù)訓(xùn)練模型進(jìn)行初始化操作。對(duì)于DOTA數(shù)據(jù)集，該模型總共進(jìn)行了300k次迭代訓(xùn)練，且學(xué)習(xí)率在從3e-4到3e-6的100k和200k迭代期間發(fā)生了變化。對(duì)于NWPU VHR-10數(shù)據(jù)集，訓(xùn)練數(shù)據(jù)集，驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集的分割率分別為60％，20％和20％。該模型經(jīng)過總計(jì)20k次迭代訓(xùn)練，學(xué)習(xí)率與DOTA相同。此外，重量衰減和動(dòng)量分別為0.0001和0.9。我們使用Momentum Optimizer作為優(yōu)化器，除了訓(xùn)練過程中的隨機(jī)圖像翻轉(zhuǎn)外，沒有執(zhí)行任何數(shù)據(jù)增強(qiáng)。
??對(duì)于參數(shù)設(shè)置，如第3.1節(jié)中所述，預(yù)期錨定步幅S設(shè)置為6，將基本錨點(diǎn)大小設(shè)置為256，并將錨定標(biāo)度設(shè)置為 $2_-4$ 到 $2_1$ 。由于DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集中的多類別對(duì)象具有不同的形狀，因此我們將錨定比率設(shè)置為 $[1 / 1,1 / 2,1 / 3,1 / 4,1 / 5,1 / 6,1 / 7,1 / 9]$ 。這些設(shè)置確保可以為每個(gè)真實(shí)標(biāo)簽分配正樣本。當(dāng)IoU> 0.7時(shí)，將錨定為正樣本，如果IoU <0.3，則將錨定為負(fù)樣本。此外，由于大縱橫比矩形中的角度和IoU之間的靈敏度，第二階段中的兩個(gè)閾值都分別設(shè)置為0.4。對(duì)于訓(xùn)練，兩個(gè)階段的最小批量大小為512。等式3中的超參數(shù)設(shè)置為 $λ_1= 4，λ_2= 1，λ_3= 2$ 。

表2：在DOTA數(shù)據(jù)集上對(duì)我們提出的方法中的每個(gè)組成部分進(jìn)行消融研究。類別的簡稱定義為：PL-飛機(jī)，BD-棒球鉆石，BR-橋梁，GTF-地面賽道，SV-小型車，LV-大型車，SH-船，TC-網(wǎng)球場，BC-籃球球場，ST儲(chǔ)油罐，SBF-足球場，RA-環(huán)島公路，HA-港口，SP-游泳池和HC-直升機(jī)。

表3：DOTA數(shù)據(jù)集上的OBB和HBB任務(wù)的性能評(píng)估

4.1.2 消融研究

?? 基準(zhǔn)設(shè)置：我們選擇基于Faster R-CNN的R²CNN 作為消融研究的基線，但不僅限于此方法。為了公平起見，所有實(shí)驗(yàn)數(shù)據(jù)和參數(shù)設(shè)置均嚴(yán)格一致。我們使用平均平均精度（mAP）作為性能指標(biāo)。此處報(bào)告的DOTA的結(jié)果是通過將我們的預(yù)測提交給官方DOTA評(píng)估服務(wù)器（見引用1）獲得的。
??MDA-Net模塊的效果：如3.2節(jié)所述，注意結(jié)構(gòu)有利于抑制噪聲的影響并突出對(duì)象信息。從表2可以看出，加入像素注意力網(wǎng)絡(luò)后，大多數(shù)物體的檢測結(jié)果均有不同程度的提高，總mAP增加了3.67％。 MDA-Net進(jìn)一步提高了寬高比目標(biāo)的檢測精度，例如橋梁，大型車輛，船舶，港口等。與像素關(guān)注相比，MDANet使mAP增長約1％，達(dá)到65.33％。表5顯示了監(jiān)督學(xué)習(xí)是MDANet的主要貢獻(xiàn)，而不是計(jì)算。
?? SF-Net模塊的效果：減小錨的步幅大小和特征融合是改進(jìn)對(duì)小物體的檢測的有效手段。在表2中，我們還研究了[45]中介紹的技術(shù)。移位錨點(diǎn)（SA）和移位抖動(dòng)（SJ）都遵循使用單個(gè)特征點(diǎn)使多個(gè)子區(qū)域的邊界框回歸的想法。實(shí)驗(yàn)表明，根據(jù)原始論文的觀察，這兩種策略幾乎無法提高準(zhǔn)確性。擴(kuò)大特征圖是減少SA的好策略，包括雙線性上采樣（BU），帶跳過連接的雙線性上采樣（BUS），膨脹卷積（DC）。盡管這些方法考慮了采樣對(duì)小物體檢測的重要性，并且其檢測性能已得到不同程度的改善，但 $S_A$ 設(shè)置仍然不夠靈活，無法獲得最佳采樣結(jié)果。 SF-Net有效地改善了特征融合和 $S_A$ 設(shè)置的靈活性，并實(shí)現(xiàn)了68.89％的最佳性能，這尤其得益于車輛，船舶和儲(chǔ)罐等小物體的改進(jìn)。
?? IoU平滑L1丟失的影響：IoU-Smooth L1損失消除了角度的邊界影響，使模型更容易回歸到對(duì)象坐標(biāo)。這個(gè)新的損失將檢測精度提高到69.83％。
?? 圖像金字塔的效果：基于圖像金字塔的訓(xùn)練和測試是提高性能的有效手段。ICN方法使用圖像級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)，類似于圖像金字塔的概念。在這里，我們將原始圖像隨機(jī)縮放為[600×600、800×800、1,000×1,000、1,200×1,200]，并將其發(fā)送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為了進(jìn)行測試，每個(gè)圖像均以四個(gè)比例進(jìn)行測試，并通過R-NMS進(jìn)行組合。如表2所示，圖像金字塔可以顯著提高檢測效率并達(dá)到72.61％的mAP。 DOTA數(shù)據(jù)集上每個(gè)類別的檢測結(jié)果如圖8所示。

圖8：關(guān)于DOTA的示例。我們的方法在尺寸較小，方向任意且密度較高的對(duì)象上表現(xiàn)更好。

4.1.3 對(duì)等方法比較

?? OBB任務(wù)：除了DOTA提供的官方基準(zhǔn)外，我們還與RRPN [29]，R2CNN，R-DFPN，ICN和RoI-Transformer進(jìn)行了比較，它們都適用于多類別旋轉(zhuǎn)目標(biāo)檢測。表3顯示了這些方法的性能。RoI-Transformer、ICN和SCRDet在小物體檢測中的出色性能歸因于特征融合。 SCRDet考慮了接收?qǐng)龅臄U(kuò)展和融合中噪聲的衰減，因此對(duì)于大型物體，它比ICN和RoI-Transformer更好。我們的方法在現(xiàn)有已發(fā)表結(jié)果中排名第一，達(dá)到mAP的72.61％。
?? HBB任務(wù)：我們使用DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集來驗(yàn)證我們提出的方法并屏蔽代碼中的角度參數(shù)。表3和表4分別顯示了兩個(gè)數(shù)據(jù)集的性能。在DOTA文獻(xiàn)中，我們還在現(xiàn)有方法中排名第一，大約為75.35％。對(duì)于NWPU VHR-10數(shù)據(jù)集，我們將其與9種方法進(jìn)行比較，并以91.75％的質(zhì)量實(shí)現(xiàn)了最佳檢測性能。我們的方法可在一半以上的類別上實(shí)現(xiàn)最佳檢測精度。

表4：NWPU VHR-10數(shù)據(jù)集上HBB任務(wù)的性能。

表5：MDA-Net?表示沒有監(jiān)督學(xué)習(xí)的MDA-Net?；€?指在有監(jiān)督下的基線。

4.2. 自然圖像實(shí)驗(yàn)

?? 為了驗(yàn)證我們模型的通用性，我們進(jìn)一步驗(yàn)證了在通用數(shù)據(jù)集和通用檢測網(wǎng)絡(luò)FPN 和R²CNN上提出的技術(shù)。我們選擇COCO數(shù)據(jù)集和VOC2007數(shù)據(jù)集，因?yàn)樗鼈儼S多小對(duì)象。我們還使用ICDAR2015數(shù)據(jù)集，因?yàn)榇嬖谟糜趫鼍拔谋緳z測的旋轉(zhuǎn)文本。
?? 由表6可以看出，在COCO數(shù)據(jù)集和VOC2007數(shù)據(jù)集上，帶有MDA-Net的FPN*可以分別增加0.7％和2.22％。如圖9所示，MDA-Net在密集和小物體檢測方面均具有良好的性能。IoU-Smooth損失函數(shù)并沒有為水平區(qū)域??檢測帶來很大的改善，因此這也反映了其與旋轉(zhuǎn)檢測邊界問題的相關(guān)性。

圖9：COCO數(shù)據(jù)集的檢測結(jié)果。第一列是FPN * + MDA-Net的結(jié)果，第二列是FPN *。紅色框代表丟失的對(duì)象，橙色框代表誤報(bào)警。

表6：擬議結(jié)構(gòu)對(duì)通用數(shù)據(jù)集的有效性。符號(hào)?表示我們自己的實(shí)現(xiàn)。對(duì)于VOC 2007數(shù)據(jù)集，所有方法均在VOC2007訓(xùn)練集上進(jìn)行訓(xùn)練，并在VOC 2007測試集上進(jìn)行測試。對(duì)于COCO數(shù)據(jù)集，所有結(jié)果都是在最小集合上獲得的。對(duì)于ICDAR2015數(shù)據(jù)集，將結(jié)果提交到官方網(wǎng)站即可獲得結(jié)果

?? 根據(jù)[19]，對(duì)于ICDAR2015數(shù)據(jù)集R²CNN-4的單一規(guī)模達(dá)到74.36％。因?yàn)樗皇情_源的，所以我們無法重新實(shí)現(xiàn)它，并根據(jù)論文中旋轉(zhuǎn)框的定義將其版本稱為R²CNN-4 *，而沒有多個(gè)合并大小的結(jié)構(gòu)，我們的版本可以實(shí)現(xiàn)77.23％的mAP。然后，我們?yōu)镽²CNN-4 *配備我們提出的技術(shù)，并將其稱為SCRDet-R²CNN。它在單個(gè)規(guī)模上實(shí)現(xiàn)了最高的性能80.08％。再次證明了本文提出的結(jié)構(gòu)的有效性。根據(jù)圖10，SCRDet-R²CNN實(shí)現(xiàn)了密集對(duì)象檢測的明顯更好的召回率。

圖10：COCO數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集的檢測結(jié)果。第一列是采用我們的技術(shù)（SCRDet-R2CNN）的R2CNN-4 *的結(jié)果，第二列是vanilla的R2CNN-4 *的結(jié)果。紅色箭頭表示錯(cuò)過的對(duì)象。

5. 結(jié)論

??我們提出了一種端到端的多類別檢測器用于檢測任意旋轉(zhuǎn)的物體，這類物體在航空影像中很常見?？紤]到特征融合和錨點(diǎn)采樣的因素，添加了具有較小 $S_A$ 的采樣融合網(wǎng)絡(luò)。同時(shí)，該算法通過監(jiān)督的多維注意力網(wǎng)絡(luò)來減弱噪聲的影響并突出顯示對(duì)象信息。此外，我們實(shí)施旋轉(zhuǎn)檢測以保留方向信息并解決密集的問題。我們的方法在兩個(gè)公共遙感數(shù)據(jù)集上獲得了最先進(jìn)的性能：DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集。最后，我們在自然數(shù)據(jù)集（例如COCO，VOC2007和ICDAR2015）上進(jìn)一步驗(yàn)證了我們的結(jié)構(gòu)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

SCRDet:對(duì)小、雜亂和旋轉(zhuǎn)的目標(biāo)進(jìn)行更魯棒的檢測

SCRDet:對(duì)小、雜亂和旋轉(zhuǎn)的目標(biāo)進(jìn)行更魯棒的檢測

摘要

1. 簡介

2. 相關(guān)工作