| titile | Gradient Harmonized Single-stage Detector |
|---|---|
| url | https://arxiv.org/pdf/1811.05181.pdf |
| 動(dòng)機(jī) | single-stage相比于two-stage更優(yōu)雅,但存在正負(fù)樣本間數(shù)量差異和easy、hard examples之間的矛盾 |
| 內(nèi)容 |
GHM: 從梯度的角度解決正負(fù)樣本間數(shù)量差異和easy、hard examples之間的矛盾。 傳統(tǒng)方法: 1、OHEM:直接放棄大量examples,訓(xùn)練效率較低。 2、Focal loss: 存在兩個(gè)超參需要設(shè)置,不能隨訓(xùn)練數(shù)據(jù)的變化動(dòng)態(tài)調(diào)整。 ![]() (1) easy examples較多,可能淹沒(méi)少數(shù)hard examples貢獻(xiàn),訓(xùn)練效率低。 (2) 非常大的梯度范數(shù)examples(非常困難)密度略大于medium examples。視為outliers,outliers在模型收斂時(shí)也穩(wěn)定存在。可能影響模型的穩(wěn)定性。 3、右圖: (1) 受梯度分布啟發(fā)提出GHM (2) GHM訓(xùn)練easy examples和outliers產(chǎn)生的累積梯度權(quán)重均會(huì)降低。 (3) exampls貢獻(xiàn)平衡,訓(xùn)練有效且穩(wěn)定。 貢獻(xiàn): 整個(gè)過(guò)程分為四步:rescaling, integrating, refining and strengthening,將多層語(yǔ)義信息進(jìn)行整合。 1、提出single-stage樣本失衡的原理:gradient norm分布,提出GHM。 2、分類和回歸損失為GHM-C和GHM-R(根據(jù)分布動(dòng)態(tài)調(diào)整),證明gradient contribution of examples with different attributes,對(duì)超參魯棒。 3、加入GHM,得到state-of-the-art。 ![]() Gradient Harmonizing Mechanism: Problem Description: ![]() ![]() Gradient Density: ![]() ![]() GHM-C Loss: ![]() ![]() Unit Region Approximation: Complexity Analysis: 1、naive algorithm計(jì)算所有樣本的gradient density復(fù)雜度:O(N2),并行計(jì)算,每個(gè)計(jì)算單元仍有N。 2、best algorithm先按梯度范數(shù)對(duì)樣本排序,復(fù)雜度O(NlogN),然后隊(duì)列掃描樣本,O(N)得到密度。這種排序在并行計(jì)算中不能收益。 3、single-stage N較大,直接計(jì)算比較耗時(shí)。通過(guò)另一種方法近似L1 smooth通過(guò)拐點(diǎn)來(lái)區(qū)別outlier和inlier。 Unit Region: ![]() ![]() EMA: momentum:smooth,避免mini-batch中的極限值。 ![]() GHM-R Loss: ![]() ![]() 更改loss,如依賴|d|計(jì)算loss,由于可以取無(wú)限大,無(wú)法應(yīng)用unit region原理。 新loss定義如下: ![]() 所以位置的梯度均存在且連續(xù)(L1 smooth 拐點(diǎn)處不存在) ![]() ![]() ![]() up-weighting the important part of easy examples and down-weighting the outliers |
| 實(shí)驗(yàn) |
Implementation Details: RetinaNet:ResNet backbone with FPN。 Anchors:3 scales,3 aspect ratios。SGD 8 GPUs(2 images on each GPU),14 epochs initial learning rate 0.01,9th epoch和12th epoch學(xué)習(xí)率乘0.1, weight decay 0.0001,momentum 0.9, EMA α = 0.75。 GHM-C Loss: all adopt smooth L1 loss function with δ = 1/9 for the box regression branch Baseline:Average Precision (AP) of 28.6 Number of Unit Region: 實(shí)驗(yàn)均不采用EMA。 M太小,密度在不同梯度范數(shù)上不能很好的變化,性能不是很好。 ![]() ![]() ![]() GHM-R Loss: Comparison with Other Losses: ![]() ![]() Main Results: ![]() |
| 思考 |
GHM
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 準(zhǔn)備:如果不太了解網(wǎng)絡(luò)的朋友可以先看一下我之前寫的文章 需要了解的網(wǎng)絡(luò)協(xié)議 。 想必大家再做即時(shí)通訊業(yè)務(wù)或需要替代...
- 我們?cè)谑篱g浮沉,曾想做正直的人,但心里雜念紛呈,于是,身體與靈魂分層。 最近,正在看一檔綜藝《中國(guó)有嘻哈》,覺(jué)得其...
- 消息,一個(gè)壞消息,你要先聽(tīng)哪一個(gè)呢?好消息是怪少一事啊。沒(méi)有別的吃的動(dòng)作,只有屎可以吃。消息是。是有很多很多。當(dāng)然...
- 十幾年前第一次看青蛇,只記得小青與白娘子的風(fēng)月無(wú)邊、嫵媚癡纏,記得煙雨迷蒙的西湖,記得最后水漫金山的宏大與絕望。印...






















