文章:Sun P, Jiang Y, Xie E, et al. OneNet: Towards End-to-End One-Stage Object Detection[J]. arXiv preprint arXiv:2012.05780, 2020.
最近detection方面開始探索如何減少手工設計,拋棄NMS后處理,一些比較典型的如detr、sparse rcnn等,通過稀疏的輸出(100個預測結(jié)果),使得網(wǎng)絡可以不用nms就能輸出少量正確的框。近期sparse rcnn的作者又搞了一篇基于anchor的onenet,也是一篇很有啟發(fā)的文章。
文章首先分析了為什么訓練中在把proposal分配給gt的時候,很難做到one-to-one匹配,原因是之前的方法在分配正樣本的時候是根據(jù)位置分配的,如計算proposal和gt之間的IoU或中心點的距離,這樣對于定位是有利的,又因為網(wǎng)絡的優(yōu)化目標是定位+分類,而在分配正樣本時只考慮了定位,因此兩者之間的不統(tǒng)一造成了性能問題。

文章提出了Minimum Cost Assignment,在分配正樣本的時候同時計算定位以及分類的cost,并且每個gt框只匹配cost最低的proposal。在inference的時候,只選擇cost最低的前100個框作為網(wǎng)絡輸出。這樣,就可以完成1對1匹配了。
分配的cost計算如下:

三部分組成,分別是分類cost(Focal Loss),中心點L1距離以及框的gIoU。
整體來看,文章的思路很清晰,提出的方法也非常簡單有效,onenet采用的主體網(wǎng)絡就是簡單的one-stage FPN+ResNet,每個位置預測C維分類logit以及4維bbox。不過在與centernet對比的實驗部分,在大輸入尺寸的情況下,APl和APm還是低一些。