閱讀筆記 - A Simple Baselline for Multi-Object Tracking (FairMOT)

來源于華中科大的一篇anchor-free結(jié)構(gòu)同時detect和ReID的多目標(biāo)跟蹤方法,(和我們的方法撞車了把我們撞的稀碎。。。欲哭無淚)

image.png

摘要

目標(biāo)檢測和ReID近些年了發(fā)展較快,也促進了MOT任務(wù)的推進,但MOT領(lǐng)域?qū)θ绾螌z測和ReID融合成一個網(wǎng)絡(luò)的研究相對少的多。檢測和ReID放在一個網(wǎng)絡(luò)中的嘗試往往會導(dǎo)致跟蹤性能下降,這是因為ReID抽取的特征鑒別力較弱。所以這篇文章主要是研究了導(dǎo)致聯(lián)合網(wǎng)絡(luò)性能較差的背后原因,以及對應(yīng)的解決辦法。
文章方法的跟蹤速度能到達(dá)30FPS, 且跟蹤性能不錯。
開源代碼。github 代碼

簡介

當(dāng)前主流的多目標(biāo)跟蹤方法一般將MOT劃分成兩個子任務(wù):檢測和關(guān)聯(lián)。這兩子任務(wù)近些年都取得長足進步,但分離的操作嚴(yán)重拖累了MOT的推理速度。

一般我們認(rèn)為MOT分為三部分:檢測,特征抽取和數(shù)據(jù)關(guān)聯(lián)。這里把特征抽取作為了數(shù)據(jù)關(guān)聯(lián)中的一部分。相當(dāng)于把ReID認(rèn)為是一個關(guān)聯(lián)問題。

越來越多的研究開始采用one-shot的單任務(wù)學(xué)習(xí)中將檢測和ReID特征抽取一起處理的做法。目標(biāo)檢測和特征抽取其高層任務(wù)雖然不同,但底層可以共享基本的特征,通過共享底層結(jié)構(gòu),能夠較顯著的降低推理時間。但和two-stage方法相比,其精度一般較差,尤其是IDS較嚴(yán)重,這表明簡單的通過共享網(wǎng)絡(luò)將兩個任務(wù)融合起來是不可行的。

本文分析認(rèn)為one-shot方法性能下降的原因有三點:

  • anchors dont fit Re-ID. 現(xiàn)在的one-shot方法一般是基于anchor的,這就會帶來一個問題:多個不同的anchor會被用來估計同一個目標(biāo),導(dǎo)致網(wǎng)絡(luò)的歧義性,如圖1。另外在檢測任務(wù)中,一般圖像下采樣較大,這會給reID帶來嚴(yán)重的精度損失。


    image.png

個人認(rèn)為這個地方論述不夠準(zhǔn)確,雖然多個anchor會負(fù)責(zé)同一個目標(biāo),但經(jīng)過檢測回歸后這些anchor回歸的結(jié)果還是很相近的,并不會帶來歧義性。 雖然我們的方法也采用了anchor-free的思路,但我們的出發(fā)點是一個location上對應(yīng)多個anchor,于是回歸可能對應(yīng)不同目標(biāo)的多個bbox,但ReID分支一般在該location上僅抽取一個特征向量,于是這個特征向量的標(biāo)簽就會具有歧義性,導(dǎo)致ReID特征鑒別性下降。

  • 多層特征融合。 ReID特征需要同時利用到底層細(xì)節(jié)特征和高層的語義特征,因此針對于不同尺寸的目標(biāo),需要從不同的stage抽取特征,所以為了增強特征鑒別性,需要特征的融合。

  • 特征的維度。ReID方法所使用的數(shù)據(jù)集一般都是crop和resize之后的,對于跟蹤而言無法使用,所以跟蹤能使用的數(shù)據(jù)相對較少,為了避免模型過擬合,可以使用低維的鑒別特征。

文章的共享貢獻點:

  1. 陳述了目前one-shot的MOT方法背后存在的問題;
  2. 從其他領(lǐng)域借鑒了一些方法和概念處理這些存在的問題,提供了一個簡單卻強大的baseline。

方法介紹

本文方法的框架圖:


image.png
backbone

基干網(wǎng)絡(luò)采用的是ResNet-34,然后不同的stage之間采用修改版的Deep Layer Aggregation (DLA)進行融合,最終輸出的特征map相對于輸入下采用的4倍,而不是原來的32倍,能有效提升檢測的精度和特征抽取的精度。

目標(biāo)檢測分支

檢測分支采用的是基于center的目標(biāo)檢測,包含三個目標(biāo)頭:熱圖、中心點位置回歸、尺寸回歸。
熱圖用于選擇哪些位置對應(yīng)的正樣本,可以用來回歸檢測框,中心點位置回歸和尺寸回歸其實和傳統(tǒng)的bbox回歸作用是一樣的。

特征嵌入分支

通過一個卷積層在每個location上輸出128維的特征向量,用于特征匹配。

損失函數(shù)定義

熱圖 熱圖主要是用來確定正負(fù)樣本。其gt由bbox的中心點位置確定,
M_{xy} = \sum_{i=1}^N \exp{-\frac{(x-c_x^i)^22+(y-c_y^i)^2}{2\sigma_c^2}}
表示heatmap的gt,假設(shè)每個檢測的可能位置都是以檢測中心點為中心的高斯分布,于是M_{xy}就是其非參估計獲得的聯(lián)合分布。
于是采用FocalLoss計算heatmap的回歸損失:
L_h = -\frac{1}{N}\sum_{xy} \begin{cases} (1-\hat{M}_{xy})^\alpha \log(\hat{M}_{xy}), \text{if }M_{xy}=1,\\ (1-M_{xy})^\beta (\hat{M}_{xy})^\alpha \log(1-\hat{M}_{xy}), \text{otherwise} \end{cases}
其中(1-M_{xy})^\beta是負(fù)樣本的重要性加權(quán),顯然離中心點越近的點將其作為負(fù)樣本的置信度越小,于是其在負(fù)樣本的損失函數(shù)中起的作用讓其越小。\hat{M}是預(yù)測得到的heatmap。

位置偏差和尺寸回歸
簡單的采用L1損失函數(shù),值得注意的是這里中心點回歸的位置是相對于其取整后的小數(shù)部分作為offset。

鑒別損失
和傳統(tǒng)的ReID損失相同,直接將匹配問題轉(zhuǎn)化成了分類問題,采用交叉熵?fù)p失。

在線跟蹤

網(wǎng)絡(luò)推斷
由heatmap通過閾值篩選出可能是正樣本的位置,在該對應(yīng)位置中由回歸得到的offset和size組裝其回歸的bbox,然后進行NMS,對于保留的bbox,由其中心點選擇回歸得到的鑒別特征。

在線bbox關(guān)聯(lián)
標(biāo)準(zhǔn)的MOT流程,采用ReID進行關(guān)聯(lián),關(guān)聯(lián)失敗的采用IOU關(guān)聯(lián)。在關(guān)聯(lián)過程中通過kalman濾波剔除空間不合理的關(guān)聯(lián)。這里提到表觀跟蹤的策略是在每一幀中通過Correlation filters進行更新。

實驗部分

  • 數(shù)據(jù)和JDE中的數(shù)據(jù)集相同,用了額外的檢測和reid數(shù)據(jù)。度量方法也和JDE中相同,除了MOT的度量系統(tǒng)CLEAR之外,引入了檢測精度指標(biāo)AP和ReID特征鑒別性度量指標(biāo) True Positive Rate(TPR).

  • 實現(xiàn)細(xì)節(jié):DLA-34的變種作為backbone,現(xiàn)在COCO檢測數(shù)據(jù)集上進行了預(yù)訓(xùn)練。使用Adam優(yōu)化器訓(xùn)練了30個epoch(比JDE訓(xùn)練次數(shù)少),學(xué)習(xí)率由1e-4在20和27個epoch上分別降低10倍。 batchisize是12. 采用了旋轉(zhuǎn)、尺度縮放,顏色抖動的數(shù)據(jù)增強。輸入尺寸1088*608. 2張2080上訓(xùn)練了差不多30小時,速度還是挺快的。

  • 實驗組織:

    • 將anchor-free的檢測頭換成anchor-based,其他不變,驗證anchor-free的有效性。結(jié)論anchor-free能顯著增強特征鑒別性。

    • 采用不同的下采樣步長,發(fā)現(xiàn)相同步長下,anchor-free優(yōu)于anchor-based方法/ 分辨率較高的情形,anchor-based反而性能下降了,作者認(rèn)為是未對齊的anchors更多導(dǎo)致訓(xùn)練不充分。

    • 對比了不同backbone


      image.png
    • 不同的backbone對于不同尺寸目標(biāo)的檢測跟蹤對比


      image.png

      image.png

      實驗DLA性能優(yōu)勢主要體現(xiàn)在對于中小物體提取的特征鑒別性更好。

    • 不同的特征維度,維度的影響其實不大


      image.png
    • 最后是對SOTA的對比。
      這部分沒有給出FN的對比,F(xiàn)N對于MOTA一般影響最大。

總結(jié):實驗設(shè)置部分要緊緊圍繞著文章提出的創(chuàng)新點來做,依次證明宣稱的創(chuàng)新點是有效的。

總結(jié)

提出一個簡單有效的one-shot多目標(biāo)跟蹤。所以MOT聯(lián)合框架設(shè)計考慮的要素:anchor-free, 大分辨率,不同stage的特征融合。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容