主流網(wǎng)絡(luò)模型之目標(biāo)跟蹤

什么是目標(biāo)追蹤(Visual Object Tracking)?

跟蹤就是在連續(xù)的視頻幀中定位某一物體。

? 跟蹤VS檢測(cè)

1.跟蹤速度比檢測(cè)快

當(dāng)你跟蹤在上一幀中檢測(cè)到的對(duì)象時(shí),你會(huì)非常了解目標(biāo)的外觀。你也知道在前一幀中的位置和它的運(yùn)動(dòng)的方向和速度。因此,在下一幀中,可以使用所有這些信息來預(yù)測(cè)下一幀中目標(biāo)的位置,并對(duì)對(duì)象的預(yù)期位置進(jìn)行小范圍搜索,以準(zhǔn)確定位目標(biāo)。因此,在設(shè)計(jì)高效的系統(tǒng)時(shí),通常在每n幀上運(yùn)行對(duì)象檢測(cè),而在其間的n-1幀中采用跟蹤算法。

2.當(dāng)檢測(cè)失敗時(shí)跟蹤來幫助

3.跟蹤保留身份信息

目標(biāo)檢測(cè)的輸出是包含目標(biāo)的矩形數(shù)組。?但是,沒有標(biāo)識(shí)附加到對(duì)象。

?幾大難點(diǎn)

外觀變形,光照變化,快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊,背景相似干擾:

平面外旋轉(zhuǎn),平面內(nèi)旋轉(zhuǎn),尺度變化,遮擋和出視野等情況:

? 數(shù)據(jù)集

? OTB50 & OTB100? (2013)

涉及到灰度圖像和彩色圖像,均可以免費(fèi)下載,涉及到目標(biāo)跟蹤的11個(gè)屬性,包括光照變化、尺度變化、遮擋、形變、運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、出視野、背景干擾、低像素。

OTB 50數(shù)據(jù)集


? VOT2013 - VOT2018 (競(jìng)賽數(shù)據(jù)集,Each Year)

每年公開的60個(gè)序列,官方會(huì)對(duì)公開序列的前10名在隱藏?cái)?shù)據(jù)集上測(cè)試,從而選出最終的winner,難度高于OTB。

VOT競(jìng)賽數(shù)據(jù)集


? 評(píng)價(jià)指標(biāo)

1、平均重疊期望(EAO)是對(duì)每個(gè)跟蹤器在一個(gè)短時(shí)圖像序列上的非重置重疊的期望值,是VOT評(píng)估跟蹤算法精度的最重要指標(biāo)。

2、準(zhǔn)確率(Accuracy)是指跟蹤器在單個(gè)測(cè)試序列下的平均重疊率(兩矩形框的相交部分面積除以兩矩形框的相并部分的面積。(MeanIOU)

3、魯棒性(Robustness)是指單個(gè)測(cè)試序列下的跟蹤器失敗次數(shù),當(dāng)重疊率為0時(shí)即可判定為失敗。

具體看一下這張圖就能明白:

EAO的含義


目標(biāo)追蹤的算法分類(Common Methods)

? 生成(generative)模型方法

生成類方法,在當(dāng)前幀對(duì)目標(biāo)區(qū)域建模,下一幀尋找與模型最相似的區(qū)域就是預(yù)測(cè)位置,比較著名的有卡爾曼濾波,粒子濾波,mean-shift等。舉個(gè)例子,從當(dāng)前幀知道了目標(biāo)區(qū)域80%是紅色,20%是綠色,然后在下一幀,搜索算法到處去找最符合這個(gè)顏色比例的區(qū)域。算法效果并不理想,因此現(xiàn)在用的很少。

?判別(discriminative)模型方法

OTB50里面的大部分方法都是這一類,經(jīng)典套路,圖像特征+機(jī)器學(xué)習(xí)。

當(dāng)前幀以目標(biāo)區(qū)域?yàn)檎龢颖?,背景區(qū)域?yàn)樨?fù)樣本,機(jī)器學(xué)習(xí)訓(xùn)練分類器,下一幀用訓(xùn)練好的分類器找最優(yōu)區(qū)域。

與生成類方法最大的區(qū)別,是分類器訓(xùn)練過程中用到了背景信息,這樣分類器專注區(qū)分前景和背景,判別類方法普遍都比生成類好。? 經(jīng)典判別類方法有Struck和TLD(Performace well in long-term task)。 判別類方法的最新發(fā)展就是相關(guān)濾波類方法,correlation filter簡(jiǎn)稱CF,或discriminative correlation filter簡(jiǎn)稱DCF,和深度學(xué)習(xí)(Deep ConvNet based)類方法,而DCF+CNN的做法成為最近VOT刷榜的標(biāo)配。2018年的VOT,基于全卷積孿生網(wǎng)絡(luò)(SiamNet)的方法大崛起,憑借超越DCF方法的準(zhǔn)確度和端到端訓(xùn)練的優(yōu)勢(shì),成為目標(biāo)追蹤新的研究方向。

CF算法示意圖

下圖是GitHub上發(fā)布的2018VOT系統(tǒng)分支結(jié)構(gòu),上述算法都含在其中了。

北京飛搜科技&北京郵電大學(xué)代表隊(duì)提交的結(jié)果(CFWCR)獲得VOT 2017競(jìng)賽公開的60個(gè)評(píng)測(cè)序列中第二名。方法基于業(yè)界流行的相關(guān)濾波的框架,使用了單CNN特征的多尺度追蹤方案。現(xiàn)有很多追蹤器融合了CNN特征和傳統(tǒng)的機(jī)器學(xué)習(xí)特征,如hog特征,CN顏色特征等。在他們的實(shí)驗(yàn)中,發(fā)現(xiàn)CNN的淺層特征具有物體輪廓的信息,高層的深度特征具有物體的語義信息,將CNN的淺層和高層特征進(jìn)行融合,能使追蹤器具有很好的性能。


VOT 2018 內(nèi)測(cè)結(jié)果

· 相關(guān)濾波算法(CF)

Correlation Filter 最早應(yīng)用于信號(hào)處理,用來描述兩個(gè)信號(hào)之間的相關(guān)性,或者說相似性,對(duì)于兩個(gè)數(shù)據(jù) f 和g,則兩個(gè)信號(hào)的相關(guān)性為:

其中 f?表示 f 的復(fù)共軛,這是和卷積的區(qū)別(相關(guān)性 與 卷積 類似,區(qū)別就在于里面的共軛)。

對(duì)于圖像來講,問題描述為要找到一個(gè) 濾波模版 h,與輸入圖像 f 求相關(guān)性,得到相關(guān)圖 g。

模板與圖形的相關(guān)運(yùn)算

為了加快計(jì)算速度,這里引入了傅里葉變換,根據(jù)卷積定理(correlation版本)可知,函數(shù)互相關(guān)的傅里葉變換等于函數(shù)傅里葉變換的乘積:

CF的流程圖



· HCF(CF+CNN,Since 2015)

2015開始,深度學(xué)習(xí)開始進(jìn)軍跟蹤領(lǐng)域,使用深度學(xué)習(xí)可以更好的提取目標(biāo)的特征,對(duì)目標(biāo)進(jìn)行更好的表達(dá)。低層特征有較高的分辨率能夠?qū)δ繕?biāo)進(jìn)行精準(zhǔn)的定位,高層特征包含更多的語義信息,能夠處理較大的目標(biāo)變化和防止跟蹤器漂移,能夠?qū)δ繕?biāo)進(jìn)行范圍定位。但是深度學(xué)習(xí)的缺點(diǎn)就在于網(wǎng)絡(luò)的訓(xùn)練和速度,即使如HCF等使用離線的訓(xùn)練速度仍然慢。

深度學(xué)習(xí)+CF



· SiamFC(Pure CNN)

SiamFC的結(jié)構(gòu)

上面一支可以看做是一個(gè)模板。其中z是第一幀所給出的目標(biāo)框,φ 表示一種特征提取方法,SiamFC提取的是深度特征,經(jīng)過全卷積網(wǎng)絡(luò)后得到一個(gè)6X6X128的feature map φ(z)。

下面一支x可以看為當(dāng)前幀的搜索區(qū)域,同樣提取了深度特征之后得到一個(gè)22X22X128的feature map φ(x)。

兩支的交匯是一個(gè)互相關(guān)層,可以看成是φ(z)在φ(x)上滑動(dòng)搜索,最后得到一個(gè)響應(yīng)圖,圖上最大值對(duì)應(yīng)的點(diǎn)就是算法認(rèn)為的目標(biāo)中心所在位置。


· FlowTrack

《End-to-end Flow Correlation Tracking with Spatial-temporal Attention》(2018CVPR,商湯)

閱讀筆記

背景:

①DCF方法很火(KCF、SAMF、LCT、MUSTer、SRDCF、CACF),但是? 應(yīng)用人工設(shè)定的特征使得這一類算法精度魯棒性都較差;

② 受深度學(xué)習(xí)影響,很多結(jié)合CNN的算法(DeepSRDCF、HCF、SiamFC)出現(xiàn),它們都只應(yīng)用到當(dāng)前幀的信息而很少關(guān)注幀間存在的互信息,并? 且CNN的機(jī)制導(dǎo)致了tracker在目標(biāo)遇到運(yùn)動(dòng)模糊或者部分遮擋的時(shí)候,? 性能只能依靠離線train的特征的質(zhì)量,魯棒性很難保證。

③?盡管一些追蹤器用到了光流特征,但是這些模型是離線的,非端到端? 的,所以結(jié)果是非最理想的。

? 本文提出FlowTrack網(wǎng)絡(luò),應(yīng)用到flow information和appearance features,有機(jī)結(jié)合到端對(duì)端的網(wǎng)絡(luò)中,在VOT2015和VOT2016任務(wù)中,EAO屬性排名第一,速度為12FPS。

FlowTrack的網(wǎng)絡(luò)架構(gòu)


結(jié)構(gòu)是一個(gè)基于Siamese的雙流訓(xùn)練網(wǎng)絡(luò)。分為historical branch和current branch. 在historical branch里面,進(jìn)行Flow的提取和warp操作融合階段,作者設(shè)計(jì)了一種spatial-temporal attention的機(jī)制。 在current branch,只提取feature. Siamese結(jié)構(gòu)兩支出來的feature送進(jìn)DCF layer, 得到相應(yīng)輸出。 總結(jié)來說,他們把Flow提取,warp操作,特征提取和融合,CF tracking都做成了網(wǎng)絡(luò)的layer,端到端地訓(xùn)練它們。其中需要注意的是,wrap是指的是一種點(diǎn)到點(diǎn)的映射關(guān)系,實(shí)現(xiàn)flownet出來的光流圖到高階特征的映射。在從t-1到t-n的特征融合階段,設(shè)計(jì)了一種spatial-temporal attention的機(jī)制。在spatial attention中,是對(duì)空間位置上每一個(gè)待融合的點(diǎn)分配權(quán)重,具體采用余弦距離衡量,結(jié)果就是和當(dāng)前幀越相似分配的權(quán)重越大,反之越??;這么做的問題是當(dāng)前幀的權(quán)重永遠(yuǎn)最大,所以本文借鑒SENet的思想進(jìn)而設(shè)計(jì)了temporal attention,即把每一幀看做一個(gè)channel,設(shè)計(jì)一個(gè)質(zhì)量判斷網(wǎng)絡(luò)。

(1)跟蹤使用的特征由Feature CNN提??;

Feature CNN:由三個(gè)卷積層構(gòu)成(3x3x128, 3x3x128, 3x3x96)。

特征提取

(2)光流信息由FlowNet提??;

FlowNet:2015年被提出,是用來提取光流場(chǎng)的深度網(wǎng)絡(luò),9層卷積。

FlowNet的9層光流提取模型

(3) Warp操作按特征通道進(jìn)行:

其中m表示通道,p表示原始圖像上點(diǎn)的坐標(biāo),δp表示點(diǎn)的光流,q表示特征圖上點(diǎn)的坐標(biāo),K是雙線性插值核。

?(4)Spatial-temporal attention給各通道特征賦予權(quán)值;

Spatial attention + Temporal attention

??? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ?? 空間???????????? +??????????? 時(shí)間

時(shí)空提取attention模塊

Spatial 的提取:

計(jì)算Spatial attention,并融合特征。其中上標(biāo)e表示通過Bottleneck結(jié)構(gòu)(降維到特定空間)找到的嵌入層特征,p表示原始Feature map上的點(diǎn)坐標(biāo)??偟膩碚f,這個(gè)部分的物理意義是,對(duì)與t-1幀特征不相似的特征賦予低權(quán)重,反之,與其相似的賦予高權(quán)重。

temporal的加入:Spatial Attention的問題是當(dāng)前幀的權(quán)重永遠(yuǎn)最大,解決方法引入Temporal 機(jī)制,設(shè)計(jì)一個(gè)質(zhì)量判斷網(wǎng)絡(luò):從Spatial attention輸出來的權(quán)重map,輸入Temporal attention結(jié)構(gòu),經(jīng)過一個(gè)類似SE-Net(ImageNet Classification Champion,2017,Momenta)的結(jié)構(gòu),得到通道重要性權(quán)值,可以看作是對(duì)Spatial attention的二次調(diào)整。

實(shí)驗(yàn)結(jié)果

多策略的對(duì)比

VOT 2016 1st

VOT 2017 2rd


可以看出提升效果相對(duì)于傳統(tǒng)的CF還是很明顯的,雖然2018年rank不到top 5,但是提供了我們一種新穎的思路,以后可以多多學(xué)習(xí)一波。


視頻來源:目標(biāo)跟蹤初探(DeepSORT)


DeepSORT Demo
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容