基本信息
作者:李璽, 查宇飛, 張?zhí)熘? 崔振, 左旺孟, 侯志強, 盧湖川, 王菡子.
關鍵詞:視覺目標跟蹤; 深度神經網絡; 相關濾波器; 深度孿生網絡; 強化學習; 生成對抗網絡
論文鏈接:http://www.cjig.cn/html/jig/2019/12/weixin/20191201.htm
論文看點
闡述了目標跟蹤的基本研究框架,從深度判別模型、深度生成式模型等方面介紹了適用于目標跟蹤的深度學習方法;
(1)深入分析了網絡結構、功能劃分和網絡訓練等不同類別的深度目標跟蹤方法;
(2)簡要闡述了適用于深度學習目標跟蹤的視頻數(shù)據(jù)庫和評測方法;
(3)介紹了目標跟蹤的最新具體應用情況;
(4)分析了深度學習方法在目標跟蹤中存在的訓練數(shù)據(jù)不足、實時跟蹤和長程跟蹤等問題;
(4)對深度學習的目標跟蹤方法的未來發(fā)展進行展望。
目標跟蹤
LK Tracker(1981):假定目標灰度在短時間內保持不變,同時目標鄰域內的速度向量場變化緩慢;
KLT(1994):KLT(Kanade Lucas Tomasi tracking method)通過匹配角點實現(xiàn)對目標的跟蹤;
Condensation(1998):采用原始的外觀作為主要特征來描述目標;
Mean Shift(2002):均值漂移成為當時常用的視覺跟蹤系統(tǒng)的搜索策略;
Feature Selection(2003):利用線性判別分析自適應地選擇對當前背景和目標最具鑒別性的顏色特征,從而分離出目標;
IVT(2008):在線更新特征空間的基,直接將以前檢測到的目標作為樣本在線學習而無需大量的標注樣本;
Boosting(2008):結合Haar特征和在線Boosting算法對目標進行跟蹤;
TLD(2010):TLD(tracking learning detection)利用在線的Ferns檢測目標,同時利用在線隨機森林算法跟蹤目標;
L1 Tracker(2011):L1跟蹤器把跟蹤看做一個稀疏近似問題,通過求解L1范數(shù)最小化問題,實現(xiàn)對目標的跟蹤;
AlexNet(2012):以AlexNet網絡為代表的深度學習方法在圖像識別等領域獲得了巨大成功,迅速被引入到目標跟蹤領域中;
CSK(2012):CSK(circulant structure of tracking by detection with kernels)算法,也稱為核相關濾波算法,采用循環(huán)移位進行密集采樣,并通過核函數(shù)將低維線性空間映射到高維空間,提高了相關濾波器的魯棒性;
DLT(2013):直接利用ImageNet數(shù)據(jù)上的預訓練模型提取深度特征;
DSST(2014):DSST(accurate scale estimation for robustvisual tracking)則將目標跟蹤看成位置變化和尺度變化兩個獨立問題,首先訓練位置平移相關濾波器以檢測目標中心平移,然后訓練尺度相關濾波器來檢測目標的尺度變化;
MDNet(2015):MDNet跟蹤算法設計一個輕量級的小型網絡學習卷積特征表示目標,利用SoftMax對采樣樣本分類,其性能表現(xiàn)非常優(yōu)異,但速度只有1幀/s;
SRDCF(2015):SRDCF(learning spatially regularized correlation filters for visual tracking)采用了大的檢測區(qū)域,在濾波器系數(shù)上加入權重約束,越靠近邊緣權重越大,越靠近中心權重越小,從而使得濾波器系數(shù)主要集中在中心區(qū)域,有效地緩解了邊界效應;
SiamFC(2016):SiamFC算法利用孿生網絡(Siamese network),在視頻序列ILSVRC2015離線訓練一個相似性度量函數(shù),在跟蹤過程中利用該模型,選擇與模板最相似的候選作為跟蹤結果;
C-COT(2016):C-COT(continuous convolution operators for visual tracking)將淺層表觀信息和深層語義信息結合起來,根據(jù)不同空間分辨率的響應,在頻域進行插值得到連續(xù)空間分辨率的響應圖,通過迭代求解最佳位置和尺度;
Struck(2016):Struck利用結構化的支持向量機(SVM)直接輸出跟蹤結果,避免中間分類環(huán)節(jié),取得了優(yōu)異的性能;
CFNet(2017):CFNet將相關濾波改寫成可微分的神經網絡層,將特征提取網絡整合到一起以實現(xiàn)端到端優(yōu)化,訓練與相關濾波器相匹配的卷積特征;
ECO(2017):為了解決C-COT速度慢的問題,高效卷積算子ECO(efficient convolution operators)通過卷積因式分解操作、樣本分組和更新策略對其改進,在不影響算法精確度的同時,算法速度提高了一個數(shù)量級;
BACF(2017)BACF(background-aware correlation filters)通過補零操作獲取更大搜索域的樣本,進行循環(huán)采樣時保證了真實的負樣本;
SiamRPN(2018):SiamRPN將目標跟蹤構造成單樣本檢測任務,其網絡結構分為特征提取Siamese子網絡和候選目標區(qū)域生成RPN子網絡。RPN子網絡又包含分類和回歸兩條分支。SiamRPN可以利用ILSVRC和YouTube-BB大量的標注數(shù)據(jù)進行離線端到端訓練,從而取得了較好的性能和跟蹤速度;
UPDT(2018):UPDT(unveiling the power of deep tracking)區(qū)別對待深度特征和淺層特征,利用數(shù)據(jù)增強和差異響應函數(shù)提高魯棒性和準確性,同時利用提出的質量評估方法自適應融合響應圖,得到最優(yōu)的目標跟蹤結果;
SiamMask(2019):SiamMask是SiamRPN的后續(xù)之作。相比SiamRPN,SiamMask的網絡結構增加了預測目標分割掩碼的分支,從而給出了視覺目標跟蹤(VOT)和視頻目標分割(VOS)統(tǒng)一框架。SiamMask很好地實現(xiàn)了目標跟蹤和目標分割任務之間的互相補充,不僅可以得到目標更精準的包圍框,還可以得到目標的像素級標注;
DiMP(2019):DiMP針對Siamese跟蹤系列對于背景和目標區(qū)分性不足的問題,設計了一種魯棒的判別能力較強的Loss,并通過端到端的訓練學習Loss重點的關鍵參數(shù)。同時結合提出的權重預測模塊對網絡進行良好的初始化,最終DiMP在速度和準確性上都有所提高;
UpdateNet(2019):UpdateNet旨在解決Siamese跟蹤系列一直存在的模板更新難題,提出了用學習更新模板的方式來替代手工更新模板的方式。UpdateNet使用一個卷積神經網絡根據(jù)初始幀模板、當前幀模板以及上次計算出的模板直接生成下一幀可用的最優(yōu)模板,通過學習這樣一個網絡函數(shù)來實現(xiàn)模板更新功能;
未來展望
現(xiàn)階段,基于深度學習的目標跟蹤方法仍主要停留在基于ImageNet預訓練的特征應用層面。隨著TrackingNet等大規(guī)模數(shù)據(jù)集的出現(xiàn),使得基于海量跟蹤視頻端對端地學習深度特征成為可能,有望進一步推進深度學習在視覺目標跟蹤中取得突破性進展。相對而言,標注長程跟蹤視頻和構建大規(guī)模數(shù)據(jù)集的難度更大,如何根據(jù)長程跟蹤任務的特點及其與短期跟蹤任務的聯(lián)系,結合遷移學習和深度學習構建合適的長期目標跟蹤模型,也是未來視覺目標跟蹤研究值得關注的一個重要方向。