深度學(xué)習(xí)的目標跟蹤算法綜述

基本信息

作者:李璽, 查宇飛, 張?zhí)熘? 崔振, 左旺孟, 侯志強, 盧湖川, 王菡子.

關(guān)鍵詞:視覺目標跟蹤; 深度神經(jīng)網(wǎng)絡(luò); 相關(guān)濾波器; 深度孿生網(wǎng)絡(luò); 強化學(xué)習(xí); 生成對抗網(wǎng)絡(luò)

論文鏈接:http://www.cjig.cn/html/jig/2019/12/weixin/20191201.htm

論文看點

(1)闡述了目標跟蹤的基本研究框架,從深度判別模型、深度生成式模型等方面介紹了適用于目標跟蹤的深度學(xué)習(xí)方法;

(2)深入分析了網(wǎng)絡(luò)結(jié)構(gòu)、功能劃分和網(wǎng)絡(luò)訓(xùn)練等不同類別的深度目標跟蹤方法;

(3)簡要闡述了適用于深度學(xué)習(xí)目標跟蹤的視頻數(shù)據(jù)庫和評測方法;

(4)介紹了目標跟蹤的最新具體應(yīng)用情況;

(5)分析了深度學(xué)習(xí)方法在目標跟蹤中存在的訓(xùn)練數(shù)據(jù)不足、實時跟蹤和長程跟蹤等問題;

(6)對深度學(xué)習(xí)的目標跟蹤方法的未來發(fā)展進行展望。

目標跟蹤

LK Tracker(1981):假定目標灰度在短時間內(nèi)保持不變,同時目標鄰域內(nèi)的速度向量場變化緩慢

KLT(1994):KLT(Kanade Lucas Tomasi tracking method)通過匹配角點實現(xiàn)對目標的跟蹤

Condensation(1998):采用原始的外觀作為主要特征來描述目標

Mean Shift(2002):均值漂移成為當(dāng)時常用的視覺跟蹤系統(tǒng)的搜索策略

Feature Selection(2003):利用線性判別分析自適應(yīng)地選擇對當(dāng)前背景和目標最具鑒別性的顏色特征,從而分離出目標

IVT(2008):在線更新特征空間的基,直接將以前檢測到的目標作為樣本在線學(xué)習(xí)而無需大量的標注樣本

Boosting(2008):結(jié)合Haar特征和在線Boosting算法對目標進行跟蹤

TLD(2010):TLD(tracking learning detection)利用在線的Ferns檢測目標,同時利用在線隨機森林算法跟蹤目標

L1 Tracker(2011):L1跟蹤器把跟蹤看做一個稀疏近似問題,通過求解L1范數(shù)最小化問題,實現(xiàn)對目標的跟蹤

AlexNet(2012):以AlexNet網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法在圖像識別等領(lǐng)域獲得了巨大成功,迅速被引入到目標跟蹤領(lǐng)域中

CSK(2012):CSK(circulant structure of tracking by detection with kernels)算法,也稱為核相關(guān)濾波算法,采用循環(huán)移位進行密集采樣,并通過核函數(shù)將低維線性空間映射到高維空間,提高了相關(guān)濾波器的魯棒性

DLT(2013):直接利用ImageNet數(shù)據(jù)上的預(yù)訓(xùn)練模型提取深度特征

DSST(2014):DSST(accurate scale estimation for robustvisual tracking)則將目標跟蹤看成位置變化和尺度變化兩個獨立問題,首先訓(xùn)練位置平移相關(guān)濾波器以檢測目標中心平移,然后訓(xùn)練尺度相關(guān)濾波器來檢測目標的尺度變化

MDNet(2015):MDNet跟蹤算法設(shè)計一個輕量級的小型網(wǎng)絡(luò)學(xué)習(xí)卷積特征表示目標,利用SoftMax對采樣樣本分類,其性能表現(xiàn)非常優(yōu)異,但速度只有1幀/s

SRDCF(2015):SRDCF(learning spatially regularized correlation filters for visual tracking)采用了大的檢測區(qū)域,在濾波器系數(shù)上加入權(quán)重約束,越靠近邊緣權(quán)重越大,越靠近中心權(quán)重越小,從而使得濾波器系數(shù)主要集中在中心區(qū)域,有效地緩解了邊界效應(yīng)

SiamFC(2016):SiamFC算法利用孿生網(wǎng)絡(luò)(Siamese network),在視頻序列ILSVRC2015離線訓(xùn)練一個相似性度量函數(shù),在跟蹤過程中利用該模型,選擇與模板最相似的候選作為跟蹤結(jié)果

C-COT(2016):C-COT(continuous convolution operators for visual tracking)將淺層表觀信息和深層語義信息結(jié)合起來,根據(jù)不同空間分辨率的響應(yīng),在頻域進行插值得到連續(xù)空間分辨率的響應(yīng)圖,通過迭代求解最佳位置和尺度

Struck(2016):Struck利用結(jié)構(gòu)化的支持向量機(SVM)直接輸出跟蹤結(jié)果,避免中間分類環(huán)節(jié),取得了優(yōu)異的性能

CFNet(2017):CFNet將相關(guān)濾波改寫成可微分的神經(jīng)網(wǎng)絡(luò)層,將特征提取網(wǎng)絡(luò)整合到一起以實現(xiàn)端到端優(yōu)化,訓(xùn)練與相關(guān)濾波器相匹配的卷積特征

ECO(2017):為了解決C-COT速度慢的問題,高效卷積算子ECO(efficient convolution operators)通過卷積因式分解操作、樣本分組和更新策略對其改進,在不影響算法精確度的同時,算法速度提高了一個數(shù)量級

BACF(2017)BACF(background-aware correlation filters)通過補零操作獲取更大搜索域的樣本,進行循環(huán)采樣時保證了真實的負樣本

SiamRPN(2018):SiamRPN將目標跟蹤構(gòu)造成單樣本檢測任務(wù),其網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取Siamese子網(wǎng)絡(luò)和候選目標區(qū)域生成RPN子網(wǎng)絡(luò)。RPN子網(wǎng)絡(luò)又包含分類和回歸兩條分支。SiamRPN可以利用ILSVRC和YouTube-BB大量的標注數(shù)據(jù)進行離線端到端訓(xùn)練,從而取得了較好的性能和跟蹤速度

UPDT(2018):UPDT(unveiling the power of deep tracking)區(qū)別對待深度特征和淺層特征,利用數(shù)據(jù)增強和差異響應(yīng)函數(shù)提高魯棒性和準確性,同時利用提出的質(zhì)量評估方法自適應(yīng)融合響應(yīng)圖,得到最優(yōu)的目標跟蹤結(jié)果

SiamMask(2019):SiamMask是SiamRPN的后續(xù)之作。相比SiamRPN,SiamMask的網(wǎng)絡(luò)結(jié)構(gòu)增加了預(yù)測目標分割掩碼的分支,從而給出了視覺目標跟蹤(VOT)和視頻目標分割(VOS)統(tǒng)一框架。SiamMask很好地實現(xiàn)了目標跟蹤和目標分割任務(wù)之間的互相補充,不僅可以得到目標更精準的包圍框,還可以得到目標的像素級標注

DiMP(2019):DiMP針對Siamese跟蹤系列對于背景和目標區(qū)分性不足的問題,設(shè)計了一種魯棒的判別能力較強的Loss,并通過端到端的訓(xùn)練學(xué)習(xí)Loss重點的關(guān)鍵參數(shù)。同時結(jié)合提出的權(quán)重預(yù)測模塊對網(wǎng)絡(luò)進行良好的初始化,最終DiMP在速度和準確性上都有所提高

UpdateNet(2019):UpdateNet旨在解決Siamese跟蹤系列一直存在的模板更新難題,提出了用學(xué)習(xí)更新模板的方式來替代手工更新模板的方式。UpdateNet使用一個卷積神經(jīng)網(wǎng)絡(luò)根據(jù)初始幀模板、當(dāng)前幀模板以及上次計算出的模板直接生成下一幀可用的最優(yōu)模板,通過學(xué)習(xí)這樣一個網(wǎng)絡(luò)函數(shù)來實現(xiàn)模板更新功能

未來展望

現(xiàn)階段,基于深度學(xué)習(xí)的目標跟蹤方法仍主要停留在基于ImageNet預(yù)訓(xùn)練的特征應(yīng)用層面。隨著TrackingNet等大規(guī)模數(shù)據(jù)集的出現(xiàn),使得基于海量跟蹤視頻端對端地學(xué)習(xí)深度特征成為可能,有望進一步推進深度學(xué)習(xí)在視覺目標跟蹤中取得突破性進展。

相對而言,標注長程跟蹤視頻和構(gòu)建大規(guī)模數(shù)據(jù)集的難度更大,如何根據(jù)長程跟蹤任務(wù)的特點及其與短期跟蹤任務(wù)的聯(lián)系,結(jié)合遷移學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建合適的長期目標跟蹤模型,也是未來視覺目標跟蹤研究值得關(guān)注的一個重要方向。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容