來源:arXiv:2101.02702v1
作者:慕尼黑科技大學(xué)和Facebook AI研究所

Facebook官方版本的基于transformer的MOT模型,蠻逗的,和我們上一篇介紹的TransTrack: Multi-Object Tracking with Transformer,題目很相似,提出時間也很相似,TransTrack和TrackFormer把Track異或掉就是Transformer。。。
這個方法和TransTrack思路上差別還是挺明顯的,顯然這個方法比TransTrack更加優(yōu)雅。
TrackFormer的重點(diǎn)是提出了一種track query的東西,也就是我們上次在TransTrack中提到的,把learned object query和track feature結(jié)合在一起的方法。
TrackFormer的框架圖如下圖所示:

a) 單獨(dú)看t-1幀,就是標(biāo)準(zhǔn)的DETR過程,其中白色的query框表示learnable object query,個數(shù)為
b) 后續(xù)幀可以看到其query不單有

需要解釋的是track query這個詞,是指在video中保持gt的id號的query,即只需要在第一次出現(xiàn)時利用二分匹配獲得標(biāo)簽,其后均使用第一次的id。
訓(xùn)練損失:DETR的檢測損失,主要不同點(diǎn)在于gt的分配。(訓(xùn)練過程采用兩幀作為一個樣本)
對于第一幀完全按照DETR中二值匹配的方式進(jìn)行g(shù)t的分配。第二幀在分為兩部分處理,即track query和detect query。track query部分在前一幀已經(jīng)分配了對應(yīng)gt的id,在當(dāng)前幀看gt中這些id是否依然存在,若存在,則繼續(xù)將該id的gt分配給該track query,否則將背景類分配給該track query,表示該軌跡在當(dāng)前幀沒有出現(xiàn)。剩下的未分配給track query的id,則和DETR一樣分配給object query。
數(shù)據(jù)增強(qiáng)策略:
- 時序上的增廣,不單單是相鄰幀,而是由一定range內(nèi)隨機(jī)選擇的兩幀構(gòu)成樣本;
- 在第二幀輸入track query時,對track query按一定比率進(jìn)行omit,這一步應(yīng)該非常關(guān)鍵,只有合適的drop out才能保證learned object query具有較好的學(xué)習(xí)結(jié)果。如果沒這一步擴(kuò)展,那DETR的訓(xùn)練更多的依賴于第一幀的數(shù)據(jù),對于track query和detect query聯(lián)合訓(xùn)練,包括映射到同一空間,會有很大不足;
- 主要是處理軌跡終止的情形,這一部分是從前一幀的background中選擇一定的query作為track query,那么對應(yīng)的第二幀類別就是background,但這其實(shí)是有些問題的,并不能真正的模擬軌跡終止問題。
推理過程:
- 新軌跡的產(chǎn)生: learned object query的cls score大于一定閾值認(rèn)為是新軌跡產(chǎn)生;
- 軌跡的增長:依據(jù)track query進(jìn)行增長;
- 軌跡的終止:track query的cls score小于某閾值,track_nms,主要為了處理embeddings of strongly overlapping cases.猜測過程應(yīng)該是對track query的box進(jìn)行nms處理。
- 軌跡的找回:無
實(shí)驗(yàn)細(xì)節(jié):
Backbone采用ResNet101,不使用DC5操作,其他的和DETR一致。
queries的數(shù)目一般遠(yuǎn)大于gt的個數(shù),因此會導(dǎo)致分類損失中前景和背景類別不均衡,因此對background類別的損失權(quán)重額外添加了權(quán)重0.1。
訓(xùn)練周期: DETR在COCO上按原始模型方式訓(xùn)練500個epoch,之后再crowdHuman數(shù)據(jù)集上訓(xùn)練200個epoch,再在MOT17上以降低后的學(xué)習(xí)率訓(xùn)練200個epoch。除了COCO預(yù)訓(xùn)練過程,后續(xù)訓(xùn)練在8張V100上訓(xùn)練了3天左右。。。對于散修好像很狠很狠有挑戰(zhàn)。
訓(xùn)練數(shù)據(jù)單獨(dú)利用video序列規(guī)模較小,因此對single圖像進(jìn)行了擴(kuò)展,即利用resize和crop進(jìn)行連續(xù)幀圖像的模擬。
Mask 的處理。這里不提了。
public detection。 為了更公平的與其他基于公共檢測結(jié)果的方法對比,該方法對track進(jìn)行了初始化的篩選,具體來說,如果一個track的初始化位置距離某個detection滿足條件則認(rèn)為是該detection初始化的track,其他的track不考慮。
消融實(shí)驗(yàn):

Table3中Track query attention即track embedding到detect query的映射學(xué)習(xí)模塊,Track augmentations包括前面提到的3點(diǎn)。最后一行是僅檢測,然后利用輸出的embedding進(jìn)行匹配。讓我想起來TransTrack里我們提到的他沒使用embedding,而只使用query的index匹配的缺陷。
Table4中
Table5.驗(yàn)證NMS作用。發(fā)現(xiàn)detection的NMS作用不大,因?yàn)镈ETR本身就能取代NMS作用。而NMS tracking作用明顯,因?yàn)楸苊饬藅rack query的混淆。
SOTA方法對比:

可以發(fā)現(xiàn)TrackFormer的可改進(jìn)方向應(yīng)該是IDs部分,也就是說增強(qiáng)特征的鑒別性。 FP這個指標(biāo)也很高,說明檢測精度還可以進(jìn)一步提升。
結(jié)論:
TrackFormer是官方版本的基于transformer的MOT框架,其最大的創(chuàng)新點(diǎn)在于trackquery的使用以及具體訓(xùn)練的實(shí)現(xiàn)。
改進(jìn)思路包括倆:
- 目標(biāo)的可區(qū)分性
- 丟失軌跡的找回