獲取定位置信度實現(xiàn)精準目標識別 #論文 #ECCV 2018 #目標檢測

獲取定位置信度實現(xiàn)精準目標識別-論文筆記

“本文經(jīng)機器之心(微信公眾號:almosthuman2014)授權轉載,禁止二次轉載” (內容來源為機器之心)

作者:Borui Jiang、Ruixuan Luo等

機器之心編譯:almosthuman2014

參與:Panda

原文鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650746037&idx=3&sn=f8d0efeb1c1c4f08f6dfd2fa72d3ea9f&chksm=871ae8cbb06d61ddb5c0fc4a84cc580d4fe4aabb061051f4bd2193d8c62f250188b7f25cfdfc&mpshare=1&scene=1&srcid=08023ePcwSR5AY5TP7eVHxEh#rd


目標檢測簡介

目標檢測是很多下游應用的基礎,如實力分割,人體骨架繪制,人臉識別,和高級目標推理等。

目標檢測結合了目標分類和目標定位兩個任務。

當前大多數(shù)目標檢測器的框架是two-stage。

目標檢測是一個多任務學習問題:1)區(qū)分前景物體框與背景并為他們分配適當?shù)念悇e標簽;2)回歸一組系數(shù)使得最大化檢測框和目標框之間的交并比(IoU)或其他指標;3)最后,通過一個 NMS 過程移除冗余的邊界框(移除對同一目標的重復檢測)。

傳統(tǒng)流程中定位置信度的缺失

在這個流程中,分類和定位用不同方法解決。一般來說流程如下,給定一系列的提議框(proposal),對每個提議框進行分類得到各類別標簽的概率,這個概率可以用來做該提議框的 [分類置信度],而邊界框的回歸模塊卻只是預測針對該提議框的變換系數(shù),以擬合目標物體的位置。在這個流程中缺失了 [定位置信度]。

定位置信度的缺失帶來了兩個缺點:1)為了抑制重復檢測,會給檢測框進行排名。由于定位置信度的缺失,分類分數(shù)通常被用作給檢測狂排名的指標。如圖1(a)中的案例所示,綠色邊框相比紅色邊框擁有更高的分類置信度,然而相比紅色邊框卻擁有比綠色邊框更高的重疊度。因此就像 Gresham 著名的 [劣幣驅逐良幣] 理論一樣,分類置信度和定位準確度之間的不匹配可能會導致定位更準確的邊界框在NMS過程中反而被相對不準確的邊界框抑制了。2)定位置信度的缺失使得廣泛使用的邊界框回歸方法缺少可解釋性。例如,在之前的某研究中發(fā)現(xiàn),如果多次應用邊界框回歸,可能有損輸入邊界框的定位效果。

來自論文

IoU-Net

在這篇論文中,研究者使用 IoU-Net 預測檢測到的邊界框和他們對應的真實目標框之間的 IoU。這使得該網(wǎng)絡能對檢測框的定位精確程度有所掌握。

預測IoU值得方法可以提供前述問題的新解決方案:

1. IoU 是定位準確度的標準,可以用來代替分類置信度作為NMS的排名依據(jù)。這種方法被稱為 IoU 引導式 NMS (IoU-guided NMS),可以消除誤導性的分類置信度造成的錯誤。

2. 研究者提出一種基于優(yōu)化的邊界框修正流程,效果可比傳統(tǒng)的基于回歸的邊界框修正方法。在推理期間,預測得到的IoU可以作為定位置信度的指標量,也可作為優(yōu)化目標。研究者提出的精準 RoI 池化層 (Precise RoI Pooling layer) 使得可以通過梯度上升求解 IoU 優(yōu)化。研究表明,相比于基于回歸的方法,基于優(yōu)化的邊界框修正方法在實驗中能實現(xiàn)定位準確度的單調提升。這種方法可以兼容并整合進各種不同的基于 CNN 的檢測器。

邊界框修正示例:傳統(tǒng)方法與該文提出方法比較


來自論文

深入目標定位

分類準確度和定位準確度不匹配


來自論文


來自論文

基于優(yōu)化和基于回歸的 BBox 優(yōu)化


來自論文

IoU-Net 詳解

1. 訓練 IoU 預測器的方法


來自論文

2. IoU 引導式 NMS


來自論文

3. 將邊界框修正當作一個優(yōu)化過程


來自論文

精準 RoI 池化(Precise RoI Pooling)

研究者引入了精準 RoI 池化(簡寫成:PrRoI 池化)來助力研究者的邊界框修正。其沒有任何坐標量化,而且在邊界框坐標上有連續(xù)梯度。給定 RoI/PrRoI 池化前的特征圖 F(比如,來自 ResNet-50 中的 Conv4),設 wi,j 是該特征圖上一個離散位置 (i,j) 處的特征。使用雙線性插值,這個離散的特征圖可以被視為在任意連續(xù)坐標 (x,y) 處都是連續(xù)的:


來自論文

為更便于理解,研究者在圖 6 中可視化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在傳統(tǒng)的 RoI 池化中,連續(xù)坐標首先需要被量化(quantization),以計算該 bin 中激活的和;為了消除量化誤差,在 RoI Align 中,會采樣該 bin 中 N=4 個連續(xù)點,表示成 (a_i,b_i),而池化就是在這些采樣的點上執(zhí)行的。RoI Align 中的 N 是預定義的,而且不能根據(jù) bin 的大小進行調整;與此不同,研究者提出的 PrRoI 池化是直接基于連續(xù)特征圖計算二階積分。


來自論文

4. 聯(lián)合訓練

這種 IoU 預測器可集成到標準的 FPN 流程中,以進行端到端的訓練和推理。為了清楚說明,研究者將用于圖像特征提取的 CNN 架構稱為骨干(backbone),將應用于各個 RoI 的模塊稱為頭(head)。

如圖 5 所示,這個 IoU-Net 使用了 ResNet-FPN [16] 作為骨干網(wǎng)絡,其架構是自上而下的,可構建特征金字塔(feature pyramid)。FPN 能根據(jù) RoI 的特征的比例從這個特征金字塔的不同層級提取這些 RoI 的特征。其中原來的 RoI 池化層被換成了精準 RoI 池化層。至于該網(wǎng)絡的頭,這個 IoU 預測器根據(jù)來自骨干網(wǎng)絡的同一視覺特征而與 R-CNN 分支(包括分類和邊界框回歸)并行工作。

研究者根據(jù)在 ImageNet [25] 上預訓練的 ResNet 模型初始化了權重。所有新的層都使用了標準差為 0.01 或 0.001 的零均值高斯分布進行初始化。研究者使用了平滑 L1 損失來訓練 IoU 預測器。IoU 預測器的訓練數(shù)據(jù)是在一個訓練批中的圖像中單獨生成的,詳見 1 節(jié)。IoU 標簽進行了歸一化,因此其值分布在 [-1,1]。

輸入圖像的大小進行了調節(jié),短邊長度為 800 像素,長邊長度最大為 1200 像素。分類和回歸分支取來自 RPN 的每張圖像 512 RoI。研究者使用了 16 的批大小進行訓練。網(wǎng)絡為 16 萬次迭代進行了優(yōu)化,學習率設置為 0.01,并在 12 萬次迭代后減小 10 倍。研究者還為前 1 萬次迭代設置了 0.004 的學習率以進行預熱。研究者使用了 1e-4 的權重衰減和 0.9 的 momentum.

在推理過程中,研究者首先對初始坐標應用邊界框回歸。為了加快推理速度,研究者首先在所有檢測到的邊界框上應用 IoU 引導式 NMS。然后,使用基于優(yōu)化的算法進一步改進 100 個有最高分類置信度的邊界框。研究者設置步長為 λ=0.5,早停閾值為 Ω1=0.001,定位衰減容限 Ω2=?0.01,迭代次數(shù) T=5。

實驗

研究者在有 80 個類別的 MS-COCO 檢測數(shù)據(jù)集 [17] 上進行了實驗。遵照 [1,16],研究者在 8 萬張訓練圖像和 3.5 萬張驗證圖像的并集(trainval35k)上訓練了模型,并在包含 5000 張驗證圖像的集合(minival)上評估了模型。為驗證該方法,在 1 節(jié)和 2 節(jié),研究者與目標檢測器分開而訓練了一個獨立的 IoU-Net(沒有 R-CNN 模塊)。IoU-Net 助力的 IoU 引導式 NMS 和基于優(yōu)化的邊界框修正被應用在了檢測結果上。

1. IoU 引導式 NMS

表 1 總結了不同 NMS 方法的表現(xiàn)。盡管 Soft-NMS 能保留更多邊界框(其中沒有真正的「抑制」),但 IoU 引導式 NMS 還能通過改善檢測到的邊界框的定位來提升結果。因此,在高 IoU 指標(比如 AP_90)上,IoU 引導式 NMS 顯著優(yōu)于基準方法。


來自論文


來自論文

2. 基于優(yōu)化的邊界框修正

研究者提出的基于優(yōu)化的邊界框修正與大多數(shù)基于 CNN 的目標檢測器 [16,3,10] 都兼容,如表 2 所示。將這種邊界框修正方法應用在原來的使用單獨 IoU-Net 的流程之后還能通過更準確地定位目標而進一步提升表現(xiàn)。即使是對有三級邊界框回歸運算的 Cascade R-CNN,這種改進方法能進一步將 AP_90 提升 2.8%,將整體 AP 提升 0.8%。


來自論文

3. 聯(lián)合優(yōu)化

IoU-Net 可與目標檢測框架一起并行地端到端優(yōu)化。研究者發(fā)現(xiàn),將 IoU 預測器添加到網(wǎng)絡中有助于網(wǎng)絡學習更具判別性的特征,這能分別將 ResNet50-FPN 和 ResNet101-FPN 的整體 AP 提升 0.6% 和 0.4%。IoU 引導式 NMS 和邊界框修正還能進一步提升表現(xiàn)。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基準為 38.5%,提升了 2.1%。表 4 給出了推理速度,表明 IoU-Net 可在計算成本承受范圍之內實現(xiàn)檢測水平的提升。


來自論文

總結

本文提出一種用于準確目標定位的全新網(wǎng)絡架構 IoU-Net。通過學習預測與對應真實目標的 IoU,IoU-Net 可檢測到的邊界框的「定位置信度」,實現(xiàn)一種 IoU 引導式 NMS 流程,從而防止定位更準確的邊界框被抑制。IoU-Net 很直觀,可輕松集成到多種不同的檢測模型中,大幅提升定位準確度。MS-COCO 實驗結果表明了該方法的有效性和實際應用潛力。

從學術研究的角度,本文指出現(xiàn)代檢測流程中存在分類置信度和定位置信度不匹配的問題。更進一步,研究者將邊界框修正問題重定義為一個全新的優(yōu)化問題,并提出優(yōu)于基于回歸方法的解決方案。研究者希望這些新視角可以啟迪未來的目標檢測工作。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容