網(wǎng)絡優(yōu)化
????????不平衡問題妨礙了充分利用設計良好的架構,進而限制其總體性能。可概括如下:
? ? ? ? 1. 采樣級的不平衡:隨機采樣會使所選樣本受簡單樣本的支配;復雜采樣方法,如OHEM,會使注意力更向復雜樣本集中,但是卻對噪聲標簽敏感,并且會提升內存的占用和計算量。
? ? ? ? 2. 特征級的不平衡:深度高水平的特征具有更多語義,而淺層低水平特征更容易描述。近年來,基于橫向連接的特征整合如FPN和PANet的使用,使得目標檢測獲得了進步。 也就是說對于目標檢測來說,深層特征和淺層特征存在互補性。如何利用它們集成金字塔表示的方法決定了檢測性能。整合的特征應該擁有來自每個分辨率的平衡信息。但是,上述方法中的順序方式將使集成特性更多地關注相鄰分辨率,而較少關注其他分辨率。非相鄰層次中包含的語義信息在信息流中每次融合都會被稀釋一次。
? ? ? ? 3. 目標級的不同衡:檢測器需要完成兩個任務:分類和定位。這兩個任務在訓練的時候目的并不統(tǒng)一。如果不能平衡這一現(xiàn)象,就可能犧牲一個任務,導致次優(yōu)解。在訓練過程中,對涉及的樣本來說也一樣。如果平衡不好的話,簡單樣本產(chǎn)生的小梯度可能被復雜樣本的大梯度所淹沒,進而限制進一步的優(yōu)化。

本文提出Libra R-CNN, 可以簡潔而友好地解決上述問題。本框架集成了三個部分:
(1)? ??IoU平衡采樣: which mines hard samples according to their IoU with assigned ground-truth。?IoU等于基準框和預測框重疊的部分的面積除以兩者結合起來部分的面積
????假設需要從M個待選樣本之中,采樣N個負樣本。隨機采樣每個樣本被選中的概率為。為了增加復雜負樣本被選中的概率,根據(jù)IoU將采樣區(qū)間平均分為K份,需要的N個樣本名額將平均在K個子區(qū)間中產(chǎn)生。然后再依據(jù)正態(tài)分布選擇。那么在IoU平衡下,每個樣本被選中的概率為
,
是對應第k個子區(qū)間內的待選樣本數(shù)。
(2)平衡特征金字塔:根據(jù)相同的深度整合語義特征加強對層次的特征。包括四步,rescaling, integrating, re?ning and strengthening。
? ? ? ? 獲取平衡語義特征:分辨率的特征用
表示,多層次特征數(shù)為
。最低和最高特征的索引分別為
和
。為了整合多層次特征,并且同時保持每層的語義特征,首先將多層次特征
轉換到中間尺寸下,可以分別采用插值和最大池化方法。然后,通過簡單平均計算平衡語義特征,
。

? ? ? ? 改善平衡語義特征:直接卷積和非局部模塊都比較好,但是非局部模塊更穩(wěn)定。因此,使用嵌入式高斯非局部注意力模塊。使用這種方法, 高層次到低層次特征同時被聚合起來。輸出之后用來做目標檢測。可以和FPN流程一樣。
(3)平衡L1損失:產(chǎn)生關鍵梯度,來平衡涉及的分類和總體定位問題,并且精確定位。
? ? ? ? 自從Fast R-CNN 以來,基于多任務損失函數(shù),可以同時解決分類問題和定位問題。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? 平衡L1損失由卷積平滑L1損失中獲得。主要思想是凸顯關鍵的回歸梯度來重新涉及的樣本和任務。
? ??????????????????????????????????????
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ?根據(jù)上式,設計了梯度公式,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

圖五顯示,受alpha控制,平衡L1損失增加了inliers的梯度。小alpha使得inliers梯度顯著增加,但是outliers梯度則不受影響。gamma用來限制回歸上界,以避免誤差。
最終,

