久久久久无码精,啪啪啪啪伊人网

來源：arXiv:2101.02702v1
作者：慕尼黑科技大學(xué)和Facebook AI研究所

Title

Facebook官方版本的基于transformer的MOT模型，蠻逗的，和我們上一篇介紹的TransTrack: Multi-Object Tracking with Transformer,題目很相似，提出時間也很相似，TransTrack和TrackFormer把Track異或掉就是Transformer。。。

這個方法和TransTrack思路上差別還是挺明顯的，顯然這個方法比TransTrack更加優(yōu)雅。

TrackFormer的重點(diǎn)是提出了一種track query的東西，也就是我們上次在TransTrack中提到的，把learned object query和track feature結(jié)合在一起的方法。

TrackFormer的框架圖如下圖所示：

TrackFormer

a) 單獨(dú)看t-1幀，就是標(biāo)準(zhǔn)的DETR過程，其中白色的query框表示learnable object query，個數(shù)為

N_{object}

, 一般應(yīng)該大于video中的軌跡個數(shù)。
b) 后續(xù)幀可以看到其query不單有

N_{object}

個learnable object query還有

N_{track}

個track query來自于上一幀，這里的track query是前一幀中跟蹤到的軌跡特征的變換，變換過程如下圖所示。為什么需要變換呢？因?yàn)榍耙粠@得的embedding主要用來cls和det，與learned object query并不在一個空間內(nèi)，因此若同時作為query，embedding需要進(jìn)行一定的空間變換，文章采用的是self-attention模塊實(shí)現(xiàn)。

TrackFormer encoder-decoder architecture

需要解釋的是track query這個詞，是指在video中保持gt的id號的query，即只需要在第一次出現(xiàn)時利用二分匹配獲得標(biāo)簽，其后均使用第一次的id。

訓(xùn)練損失：DETR的檢測損失，主要不同點(diǎn)在于gt的分配。（訓(xùn)練過程采用兩幀作為一個樣本）
對于第一幀完全按照DETR中二值匹配的方式進(jìn)行g(shù)t的分配。第二幀在分為兩部分處理，即track query和detect query。track query部分在前一幀已經(jīng)分配了對應(yīng)gt的id，在當(dāng)前幀看gt中這些id是否依然存在，若存在，則繼續(xù)將該id的gt分配給該track query，否則將背景類分配給該track query，表示該軌跡在當(dāng)前幀沒有出現(xiàn)。剩下的未分配給track query的id，則和DETR一樣分配給object query。

數(shù)據(jù)增強(qiáng)策略：

時序上的增廣，不單單是相鄰幀，而是由一定range內(nèi)隨機(jī)選擇的兩幀構(gòu)成樣本；
在第二幀輸入track query時，對track query按一定比率進(jìn)行omit，這一步應(yīng)該非常關(guān)鍵，只有合適的drop out才能保證learned object query具有較好的學(xué)習(xí)結(jié)果。如果沒這一步擴(kuò)展，那DETR的訓(xùn)練更多的依賴于第一幀的數(shù)據(jù)，對于track query和detect query聯(lián)合訓(xùn)練，包括映射到同一空間，會有很大不足；
主要是處理軌跡終止的情形，這一部分是從前一幀的background中選擇一定的query作為track query，那么對應(yīng)的第二幀類別就是background，但這其實(shí)是有些問題的，并不能真正的模擬軌跡終止問題。

推理過程：

新軌跡的產(chǎn)生： learned object query的cls score大于一定閾值認(rèn)為是新軌跡產(chǎn)生；
軌跡的增長：依據(jù)track query進(jìn)行增長；
軌跡的終止：track query的cls score小于某閾值，track_nms，主要為了處理embeddings of strongly overlapping cases.猜測過程應(yīng)該是對track query的box進(jìn)行nms處理。
軌跡的找回：無

實(shí)驗(yàn)細(xì)節(jié)：
Backbone采用ResNet101，不使用DC5操作，其他的和DETR一致。
queries的數(shù)目一般遠(yuǎn)大于gt的個數(shù)，因此會導(dǎo)致分類損失中前景和背景類別不均衡，因此對background類別的損失權(quán)重額外添加了權(quán)重0.1。

訓(xùn)練周期： DETR在COCO上按原始模型方式訓(xùn)練500個epoch，之后再crowdHuman數(shù)據(jù)集上訓(xùn)練200個epoch，再在MOT17上以降低后的學(xué)習(xí)率訓(xùn)練200個epoch。除了COCO預(yù)訓(xùn)練過程，后續(xù)訓(xùn)練在8張V100上訓(xùn)練了3天左右。。。對于散修好像很狠很狠有挑戰(zhàn)。
訓(xùn)練數(shù)據(jù)單獨(dú)利用video序列規(guī)模較小，因此對single圖像進(jìn)行了擴(kuò)展，即利用resize和crop進(jìn)行連續(xù)幀圖像的模擬。

Mask 的處理。這里不提了。

public detection。為了更公平的與其他基于公共檢測結(jié)果的方法對比，該方法對track進(jìn)行了初始化的篩選，具體來說，如果一個track的初始化位置距離某個detection滿足條件則認(rèn)為是該detection初始化的track，其他的track不考慮。

消融實(shí)驗(yàn)：

消融實(shí)驗(yàn)

Table3中Track query attention即track embedding到detect query的映射學(xué)習(xí)模塊，Track augmentations包括前面提到的3點(diǎn)。最后一行是僅檢測，然后利用輸出的embedding進(jìn)行匹配。讓我想起來TransTrack里我們提到的他沒使用embedding，而只使用query的index匹配的缺陷。
Table4中

\times

表示選擇.可以發(fā)現(xiàn)使用crowdHuman輔助數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練性能提升明顯。
Table5.驗(yàn)證NMS作用。發(fā)現(xiàn)detection的NMS作用不大，因?yàn)镈ETR本身就能取代NMS作用。而NMS tracking作用明顯，因?yàn)楸苊饬藅rack query的混淆。

SOTA方法對比：

SOTA

可以發(fā)現(xiàn)TrackFormer的可改進(jìn)方向應(yīng)該是IDs部分，也就是說增強(qiáng)特征的鑒別性。 FP這個指標(biāo)也很高，說明檢測精度還可以進(jìn)一步提升。

結(jié)論：
TrackFormer是官方版本的基于transformer的MOT框架，其最大的創(chuàng)新點(diǎn)在于trackquery的使用以及具體訓(xùn)練的實(shí)現(xiàn)。
改進(jìn)思路包括倆：

目標(biāo)的可區(qū)分性
丟失軌跡的找回

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

閱讀筆記-TrackFormer:Multi-Object Tracking with Transformers

閱讀筆記-TrackFormer:Multi-Object Tracking with Transformers

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

閱讀筆記-TrackFormer:Multi-Object Tracking with Transformers

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av