OneNet: Towards End-to-End One-Stage Object Detection

文章:Sun P, Jiang Y, Xie E, et al. OneNet: Towards End-to-End One-Stage Object Detection[J]. arXiv preprint arXiv:2012.05780, 2020.

最近detection方面開始探索如何減少手工設計,拋棄NMS后處理,一些比較典型的如detr、sparse rcnn等,通過稀疏的輸出(100個預測結(jié)果),使得網(wǎng)絡可以不用nms就能輸出少量正確的框。近期sparse rcnn的作者又搞了一篇基于anchor的onenet,也是一篇很有啟發(fā)的文章。
文章首先分析了為什么訓練中在把proposal分配給gt的時候,很難做到one-to-one匹配,原因是之前的方法在分配正樣本的時候是根據(jù)位置分配的,如計算proposal和gt之間的IoU或中心點的距離,這樣對于定位是有利的,又因為網(wǎng)絡的優(yōu)化目標是定位+分類,而在分配正樣本時只考慮了定位,因此兩者之間的不統(tǒng)一造成了性能問題。



文章提出了Minimum Cost Assignment,在分配正樣本的時候同時計算定位以及分類的cost,并且每個gt框只匹配cost最低的proposal。在inference的時候,只選擇cost最低的前100個框作為網(wǎng)絡輸出。這樣,就可以完成1對1匹配了。

分配的cost計算如下:



三部分組成,分別是分類cost(Focal Loss),中心點L1距離以及框的gIoU。

整體來看,文章的思路很清晰,提出的方法也非常簡單有效,onenet采用的主體網(wǎng)絡就是簡單的one-stage FPN+ResNet,每個位置預測C維分類logit以及4維bbox。不過在與centernet對比的實驗部分,在大輸入尺寸的情況下,APl和APm還是低一些。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容