GHM

titile Gradient Harmonized Single-stage Detector
url https://arxiv.org/pdf/1811.05181.pdf
動(dòng)機(jī) single-stage相比于two-stage更優(yōu)雅,但存在正負(fù)樣本間數(shù)量差異和easy、hard examples之間的矛盾
內(nèi)容 GHM:
從梯度的角度解決正負(fù)樣本間數(shù)量差異和easy、hard examples之間的矛盾。

傳統(tǒng)方法:
1、OHEM:直接放棄大量examples,訓(xùn)練效率較低。
2、Focal loss: 存在兩個(gè)超參需要設(shè)置,不能隨訓(xùn)練數(shù)據(jù)的變化動(dòng)態(tài)調(diào)整。
1、左圖:
(1) easy examples較多,可能淹沒(méi)少數(shù)hard examples貢獻(xiàn),訓(xùn)練效率低。
(2) 非常大的梯度范數(shù)examples(非常困難)密度略大于medium examples。視為outliers,outliers在模型收斂時(shí)也穩(wěn)定存在。可能影響模型的穩(wěn)定性。
3、右圖:
(1) 受梯度分布啟發(fā)提出GHM
(2) GHM訓(xùn)練easy examples和outliers產(chǎn)生的累積梯度權(quán)重均會(huì)降低。
(3) exampls貢獻(xiàn)平衡,訓(xùn)練有效且穩(wěn)定。

貢獻(xiàn):
整個(gè)過(guò)程分為四步:rescaling, integrating, refining and strengthening,將多層語(yǔ)義信息進(jìn)行整合。
1、提出single-stage樣本失衡的原理:gradient norm分布,提出GHM。
2、分類和回歸損失為GHM-C和GHM-R(根據(jù)分布動(dòng)態(tài)調(diào)整),證明gradient contribution of examples with different attributes,對(duì)超參魯棒。
3、加入GHM,得到state-of-the-art。

Gradient Harmonizing Mechanism:

Problem Description:
easy examples較多,淹沒(méi)hard,hard程度較大的也比較多,強(qiáng)行學(xué)習(xí)這些outlier,模型往往會(huì)不準(zhǔn)確。

Gradient Density:
有較大density的樣本會(huì)被降低權(quán)重。

GHM-C Loss:
和focal loss相比 曲線趨勢(shì)相似,outlier部分會(huì)降低權(quán)重,參數(shù)動(dòng)態(tài)變化的。

Unit Region Approximation:

Complexity Analysis:
1、naive algorithm計(jì)算所有樣本的gradient density復(fù)雜度:O(N2),并行計(jì)算,每個(gè)計(jì)算單元仍有N。
2、best algorithm先按梯度范數(shù)對(duì)樣本排序,復(fù)雜度O(NlogN),然后隊(duì)列掃描樣本,O(N)得到密度。這種排序在并行計(jì)算中不能收益。
3、single-stage N較大,直接計(jì)算比較耗時(shí)。通過(guò)另一種方法近似L1 smooth通過(guò)拐點(diǎn)來(lái)區(qū)別outlier和inlier。

Unit Region:
用統(tǒng)計(jì)直方圖的方式計(jì)算(設(shè)置bin)復(fù)雜的更低,且可以并行計(jì)算,GD=落在bin中的數(shù)量*bin的個(gè)數(shù),時(shí)間復(fù)雜度O(NM)

EMA:
momentum:smooth,避免mini-batch中的極限值。


GHM-R Loss:
L1smooth d 很大時(shí),g norm始終為1,依賴于g norm算loss不能體現(xiàn)差異。
更改loss,如依賴|d|計(jì)算loss,由于可以取無(wú)限大,無(wú)法應(yīng)用unit region原理。
新loss定義如下:
d很小的時(shí)候,近似平方函數(shù)(L2 loss),d很大的時(shí)候,近似線性函數(shù)(L1 loss)。
所以位置的梯度均存在且連續(xù)(L1 smooth 拐點(diǎn)處不存在)
回歸中均為正樣本,outliers占比例大(與分類不同)。loss函數(shù)如下:
分類中easy examples不是很重要,但是在回歸中全是正樣本,回歸target位置,easy的也很重要,最終測(cè)試指標(biāo)mAP是計(jì)算IOU0.5-0.95,說(shuō)明easy的example也計(jì)算在這個(gè)指標(biāo)中,所以easy同樣重要。
up-weighting the important part of easy examples and down-weighting the outliers
實(shí)驗(yàn) Implementation Details:
RetinaNet:ResNet backbone with FPN。 Anchors:3 scales,3 aspect ratios。SGD 8 GPUs(2 images on each GPU),14 epochs initial learning rate 0.01,9th epoch和12th epoch學(xué)習(xí)率乘0.1, weight decay 0.0001,momentum 0.9, EMA α = 0.75。

GHM-C Loss:

all adopt smooth L1 loss function with δ = 1/9 for the box regression branch
Baseline:Average Precision (AP) of 28.6
Number of Unit Region:
實(shí)驗(yàn)均不采用EMA。
M太小,密度在不同梯度范數(shù)上不能很好的變化,性能不是很好。
Speed:inference速度不變。
Comparison with Other Methods:

GHM-R Loss:

Comparison with Other Losses:
Two-Stage Detector:faster-RCNN with Res50-FPN

Main Results:
思考
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 準(zhǔn)備:如果不太了解網(wǎng)絡(luò)的朋友可以先看一下我之前寫的文章 需要了解的網(wǎng)絡(luò)協(xié)議 。 想必大家再做即時(shí)通訊業(yè)務(wù)或需要替代...
    QuincySx閱讀 3,450評(píng)論 1 2
  • 面部過(guò)敏最常見(jiàn)的原因是化妝品,其次是工作環(huán)境,或者長(zhǎng)期使用皮質(zhì)激素藥膏等。如果紅腫明顯,可以先用生理鹽水或者硼酸溶...
    李_5400閱讀 206評(píng)論 0 0
  • 我們?cè)谑篱g浮沉,曾想做正直的人,但心里雜念紛呈,于是,身體與靈魂分層。 最近,正在看一檔綜藝《中國(guó)有嘻哈》,覺(jué)得其...
    宅囡閱讀 745評(píng)論 4 4
  • 消息,一個(gè)壞消息,你要先聽(tīng)哪一個(gè)呢?好消息是怪少一事啊。沒(méi)有別的吃的動(dòng)作,只有屎可以吃。消息是。是有很多很多。當(dāng)然...
    水原素閱讀 55評(píng)論 0 0
  • 十幾年前第一次看青蛇,只記得小青與白娘子的風(fēng)月無(wú)邊、嫵媚癡纏,記得煙雨迷蒙的西湖,記得最后水漫金山的宏大與絕望。印...
    醉花陰123閱讀 939評(píng)論 1 6

友情鏈接更多精彩內(nèi)容