2016AV视频天堂,一区二区小视频

來源于華中科大的一篇anchor-free結(jié)構(gòu)同時detect和ReID的多目標(biāo)跟蹤方法，（和我們的方法撞車了把我們撞的稀碎。。。欲哭無淚）

image.png

摘要

目標(biāo)檢測和ReID近些年了發(fā)展較快，也促進了MOT任務(wù)的推進，但MOT領(lǐng)域?qū)θ绾螌z測和ReID融合成一個網(wǎng)絡(luò)的研究相對少的多。檢測和ReID放在一個網(wǎng)絡(luò)中的嘗試往往會導(dǎo)致跟蹤性能下降，這是因為ReID抽取的特征鑒別力較弱。所以這篇文章主要是研究了導(dǎo)致聯(lián)合網(wǎng)絡(luò)性能較差的背后原因，以及對應(yīng)的解決辦法。
文章方法的跟蹤速度能到達(dá)30FPS, 且跟蹤性能不錯。
開源代碼。github 代碼

簡介

當(dāng)前主流的多目標(biāo)跟蹤方法一般將MOT劃分成兩個子任務(wù)：檢測和關(guān)聯(lián)。這兩子任務(wù)近些年都取得長足進步，但分離的操作嚴(yán)重拖累了MOT的推理速度。

一般我們認(rèn)為MOT分為三部分：檢測，特征抽取和數(shù)據(jù)關(guān)聯(lián)。這里把特征抽取作為了數(shù)據(jù)關(guān)聯(lián)中的一部分。相當(dāng)于把ReID認(rèn)為是一個關(guān)聯(lián)問題。

越來越多的研究開始采用one-shot的單任務(wù)學(xué)習(xí)中將檢測和ReID特征抽取一起處理的做法。目標(biāo)檢測和特征抽取其高層任務(wù)雖然不同，但底層可以共享基本的特征，通過共享底層結(jié)構(gòu)，能夠較顯著的降低推理時間。但和two-stage方法相比，其精度一般較差，尤其是IDS較嚴(yán)重，這表明簡單的通過共享網(wǎng)絡(luò)將兩個任務(wù)融合起來是不可行的。

本文分析認(rèn)為one-shot方法性能下降的原因有三點：

anchors dont fit Re-ID. 現(xiàn)在的one-shot方法一般是基于anchor的，這就會帶來一個問題：多個不同的anchor會被用來估計同一個目標(biāo)，導(dǎo)致網(wǎng)絡(luò)的歧義性，如圖1。另外在檢測任務(wù)中，一般圖像下采樣較大，這會給reID帶來嚴(yán)重的精度損失。

image.png

個人認(rèn)為這個地方論述不夠準(zhǔn)確，雖然多個anchor會負(fù)責(zé)同一個目標(biāo)，但經(jīng)過檢測回歸后這些anchor回歸的結(jié)果還是很相近的，并不會帶來歧義性。雖然我們的方法也采用了anchor-free的思路，但我們的出發(fā)點是一個location上對應(yīng)多個anchor，于是回歸可能對應(yīng)不同目標(biāo)的多個bbox，但ReID分支一般在該location上僅抽取一個特征向量，于是這個特征向量的標(biāo)簽就會具有歧義性，導(dǎo)致ReID特征鑒別性下降。

多層特征融合。 ReID特征需要同時利用到底層細(xì)節(jié)特征和高層的語義特征，因此針對于不同尺寸的目標(biāo)，需要從不同的stage抽取特征，所以為了增強特征鑒別性，需要特征的融合。
特征的維度。ReID方法所使用的數(shù)據(jù)集一般都是crop和resize之后的，對于跟蹤而言無法使用，所以跟蹤能使用的數(shù)據(jù)相對較少，為了避免模型過擬合，可以使用低維的鑒別特征。

文章的共享貢獻點：

陳述了目前one-shot的MOT方法背后存在的問題；
從其他領(lǐng)域借鑒了一些方法和概念處理這些存在的問題，提供了一個簡單卻強大的baseline。

方法介紹

本文方法的框架圖：

image.png

backbone

基干網(wǎng)絡(luò)采用的是ResNet-34，然后不同的stage之間采用修改版的Deep Layer Aggregation （DLA）進行融合，最終輸出的特征map相對于輸入下采用的4倍，而不是原來的32倍，能有效提升檢測的精度和特征抽取的精度。

目標(biāo)檢測分支

檢測分支采用的是基于center的目標(biāo)檢測，包含三個目標(biāo)頭：熱圖、中心點位置回歸、尺寸回歸。
熱圖用于選擇哪些位置對應(yīng)的正樣本，可以用來回歸檢測框，中心點位置回歸和尺寸回歸其實和傳統(tǒng)的bbox回歸作用是一樣的。

特征嵌入分支

通過一個卷積層在每個location上輸出128維的特征向量，用于特征匹配。

損失函數(shù)定義

熱圖熱圖主要是用來確定正負(fù)樣本。其gt由bbox的中心點位置確定，
$M_{xy} = \sum_{i=1}^N \exp{-\frac{(x-c_x^i)^22+(y-c_y^i)^2}{2\sigma_c^2}}$
表示heatmap的gt，假設(shè)每個檢測的可能位置都是以檢測中心點為中心的高斯分布，于是 $M_{xy}$ 就是其非參估計獲得的聯(lián)合分布。
于是采用FocalLoss計算heatmap的回歸損失：
$L_h = -\frac{1}{N}\sum_{xy} \begin{cases} (1-\hat{M}_{xy})^\alpha \log(\hat{M}_{xy}), \text{if }M_{xy}=1,\\ (1-M_{xy})^\beta (\hat{M}_{xy})^\alpha \log(1-\hat{M}_{xy}), \text{otherwise} \end{cases}$
其中 $(1-M_{xy})^\beta$ 是負(fù)樣本的重要性加權(quán)，顯然離中心點越近的點將其作為負(fù)樣本的置信度越小，于是其在負(fù)樣本的損失函數(shù)中起的作用讓其越小。 $\hat{M}$ 是預(yù)測得到的heatmap。

位置偏差和尺寸回歸
簡單的采用L1損失函數(shù)，值得注意的是這里中心點回歸的位置是相對于其取整后的小數(shù)部分作為offset。

鑒別損失
和傳統(tǒng)的ReID損失相同，直接將匹配問題轉(zhuǎn)化成了分類問題，采用交叉熵?fù)p失。

在線跟蹤

網(wǎng)絡(luò)推斷
由heatmap通過閾值篩選出可能是正樣本的位置，在該對應(yīng)位置中由回歸得到的offset和size組裝其回歸的bbox，然后進行NMS，對于保留的bbox，由其中心點選擇回歸得到的鑒別特征。

在線bbox關(guān)聯(lián)
標(biāo)準(zhǔn)的MOT流程，采用ReID進行關(guān)聯(lián)，關(guān)聯(lián)失敗的采用IOU關(guān)聯(lián)。在關(guān)聯(lián)過程中通過kalman濾波剔除空間不合理的關(guān)聯(lián)。這里提到表觀跟蹤的策略是在每一幀中通過Correlation filters進行更新。

實驗部分

數(shù)據(jù)和JDE中的數(shù)據(jù)集相同，用了額外的檢測和reid數(shù)據(jù)。度量方法也和JDE中相同，除了MOT的度量系統(tǒng)CLEAR之外，引入了檢測精度指標(biāo)AP和ReID特征鑒別性度量指標(biāo) True Positive Rate(TPR).
實現(xiàn)細(xì)節(jié)：DLA-34的變種作為backbone，現(xiàn)在COCO檢測數(shù)據(jù)集上進行了預(yù)訓(xùn)練。使用Adam優(yōu)化器訓(xùn)練了30個epoch（比JDE訓(xùn)練次數(shù)少），學(xué)習(xí)率由 $1e-4$ 在20和27個epoch上分別降低10倍。 batchisize是12. 采用了旋轉(zhuǎn)、尺度縮放，顏色抖動的數(shù)據(jù)增強。輸入尺寸1088*608. 2張2080上訓(xùn)練了差不多30小時，速度還是挺快的。
實驗組織：
- 將anchor-free的檢測頭換成anchor-based，其他不變，驗證anchor-free的有效性。結(jié)論anchor-free能顯著增強特征鑒別性。
- 采用不同的下采樣步長，發(fā)現(xiàn)相同步長下，anchor-free優(yōu)于anchor-based方法/ 分辨率較高的情形，anchor-based反而性能下降了，作者認(rèn)為是未對齊的anchors更多導(dǎo)致訓(xùn)練不充分。
- 對比了不同backbone
  
  image.png
- 不同的backbone對于不同尺寸目標(biāo)的檢測跟蹤對比
  
  image.png
  
  image.png
  
  實驗DLA性能優(yōu)勢主要體現(xiàn)在對于中小物體提取的特征鑒別性更好。
- 不同的特征維度，維度的影響其實不大
  
  image.png
- 最后是對SOTA的對比。
  這部分沒有給出FN的對比，F(xiàn)N對于MOTA一般影響最大。

總結(jié)：實驗設(shè)置部分要緊緊圍繞著文章提出的創(chuàng)新點來做，依次證明宣稱的創(chuàng)新點是有效的。

總結(jié)

提出一個簡單有效的one-shot多目標(biāo)跟蹤。所以MOT聯(lián)合框架設(shè)計考慮的要素：anchor-free，大分辨率，不同stage的特征融合。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

閱讀筆記 - A Simple Baselline for Multi-Object Tracking (FairMOT)