目標(biāo)跟蹤檢測算法(四)——多目標(biāo)擴展

姓名:劉帆;學(xué)號:20021210609;學(xué)院:電子工程學(xué)院

轉(zhuǎn)載于:

https://blog.csdn.net/qq_34919792/article/details/89893665

【嵌牛導(dǎo)讀】基于深度學(xué)習(xí)的算法在圖像和視頻識別任務(wù)中取得了廣泛的應(yīng)用和突破性的進展。從圖像分類問題到行人重識別問題,深度學(xué)習(xí)方法相比傳統(tǒng)方法表現(xiàn)出極大的優(yōu)勢。與行人重識別問題緊密相關(guān)的是行人的多目標(biāo)跟蹤問題。

【嵌牛鼻子】深度多目標(biāo)跟蹤算法

【嵌牛提問】深度多目標(biāo)跟蹤算法有哪些?

【嵌牛正文】

第一階段(概率統(tǒng)計最大化的追蹤)

1)多假設(shè)多目標(biāo)追蹤算法(MHT,基于kalman在多目標(biāo)上的拓展)

多假設(shè)跟蹤算法(MHT)是非常經(jīng)典的多目標(biāo)跟蹤算法,由Reid在對雷達信號的自動跟蹤研究中提出,本質(zhì)上是基于Kalman濾波跟蹤算法在多目標(biāo)跟蹤問題中的擴展。

卡爾曼濾波實際上是一種貝葉斯推理的應(yīng)用,通過歷史關(guān)聯(lián)的預(yù)測量和k時刻的預(yù)測量來計算后驗概率:

關(guān)聯(lián)假設(shè)的后驗分布是歷史累計概率密度的連乘,轉(zhuǎn)化為對數(shù)形式,可以看出總體后驗概率的對數(shù)是每一步觀察似然和關(guān)聯(lián)假設(shè)似然的求和。但是若同時出現(xiàn)多個軌跡的時候,則需要考慮可能存在的多個假設(shè)關(guān)聯(lián)。

左圖為k-3時刻三個檢測觀察和兩條軌跡的可能匹配。對于這種匹配關(guān)系,可以繼續(xù)向前預(yù)測兩幀,如圖右。得到一種三層的假設(shè)樹結(jié)構(gòu),對于假設(shè)樹根枝干的剪枝,得到k-3時刻的最終關(guān)聯(lián)結(jié)果。隨著可能性增加,假設(shè)組合會爆炸性增多,為此,只為了保留最大關(guān)聯(lián)性,我們需要對其他的節(jié)點進行裁剪。下式為選擇方程

實際上MHT不會單獨使用,一般作為單目標(biāo)追蹤的擴展添加。

2)基于檢測可信度的粒子濾波算法

這個算法分為兩個步驟:

1、對每一幀的檢測結(jié)果,利用貪心匹配算法與已有的對象軌跡進行關(guān)聯(lián)。

其中tr表示一個軌跡,d是某一個檢測,他們的匹配親和度計算包含三個部分:在線更新的分類學(xué)習(xí)模型(d),用來判斷檢測結(jié)果是不是屬于軌跡tr; 軌跡的每個粒子與檢測的匹配度,采用中心距離的高斯密度函數(shù)求和(d-p)表示;與檢測尺寸大小相關(guān)的閾值函數(shù)g(tr,d),表示檢測與軌跡尺度的符合程度, 而α是預(yù)設(shè)的一個超參數(shù)。

計算出匹配親和度矩陣之后,可以采用二部圖匹配的Hungarian算法計算匹配結(jié)果。不過作者采用了近似的貪心匹配算法,即首先找到親和度最大的那個匹配,然后刪除這個親和度,尋找下一個匹配,依次類推。貪心匹配算法復(fù)雜度是線性,大部分情況下,也能得到最優(yōu)匹配結(jié)果。

2、利用關(guān)聯(lián)結(jié)果,計算每個對象的粒子群權(quán)重,作為粒子濾波框架中的觀察似然概率。

其中tr表示需要跟蹤的對象軌跡,p是某個粒子。指示函數(shù)I(tr)表示第一步關(guān)聯(lián)中,軌跡tr是不是關(guān)聯(lián)到某個檢測結(jié)果,當(dāng)存在關(guān)聯(lián)時,計算與關(guān)聯(lián)的檢測d的高斯密度P{n}(p-d);C{tr}§是對這個粒子的分類概率;§是粒子通過檢測算法得到的檢測可信度,(tr)是一個加權(quán)函數(shù),計算如下:

3)基于馬爾科夫決策的多目標(biāo)跟蹤算法

作者把目標(biāo)跟蹤看作為狀態(tài)轉(zhuǎn)移的過程,轉(zhuǎn)移的過程用馬爾科夫決策過程(MDP)建模。一個馬爾科夫決策過程包括下面四個元素:(S, A, T(.),R(.))。其中S表示狀態(tài)集合,A表示動作集合,T表示狀態(tài)轉(zhuǎn)移集合,R表示獎勵函數(shù)集合。一個決策是指根據(jù)狀態(tài)s確定動作a, 即 π: SA。一個對象的跟蹤過程包括如下決策過程:

從Active狀態(tài)轉(zhuǎn)移到Tracked或者Inactive狀態(tài):即判斷新出現(xiàn)的對象是否是真。

從Tracked狀態(tài)轉(zhuǎn)移到Tracked或者Lost狀態(tài):即判斷對象是否是持續(xù)跟蹤或者暫時處于丟失狀態(tài)。

從Lost狀態(tài)轉(zhuǎn)移到Lost或者Tracked或者Inactive狀態(tài):即判斷丟失對象是否重新被跟蹤,被終止,或者繼續(xù)處于丟失狀態(tài)。

作者設(shè)計了三個獎勵函數(shù)來描述上述決策過程:

第一個是:

即判斷新出現(xiàn)的對象是否為真,y(a)=1時表示轉(zhuǎn)移到跟蹤狀態(tài),反之轉(zhuǎn)移到終止?fàn)顟B(tài)。這是一個二分類問題,采用2類SVM模型學(xué)習(xí)得到。這里用了5維特征向量:包括x-y坐標(biāo)、寬、高和檢測的分?jǐn)?shù)。

第二個是:

這個函數(shù)用來判斷跟蹤對象下一時刻狀態(tài)是否是出于繼續(xù)跟蹤,還是處于丟失,即跟蹤失敗。這里作者用了5個歷史模板,每個模板和當(dāng)前圖像塊做光流匹配,emedFB表示光流中心偏差, 表示平均重合率。 和 是閾值。

第三個是:

這個函數(shù)用來判斷丟失對象是否重新跟蹤,或者終止,或者保持丟失狀態(tài)不變。這里當(dāng)丟失狀態(tài)連續(xù)保持超過 (=50)時,則轉(zhuǎn)向終止,其他情況下通過計算M個檢測匹配,來判斷是否存在最優(yōu)的匹配使上式(3-14)獎勵最大,并大于0。這里涉及兩個問題如何設(shè)計特征以及如何學(xué)習(xí)參數(shù)。這里作者構(gòu)造了12維與模板匹配相關(guān)的統(tǒng)計值。而參數(shù)的學(xué)習(xí)采用強化學(xué)習(xí)過程,主要思想是在犯錯時候更新二類分類器值。

第二階段 深度學(xué)習(xí)應(yīng)用

1)基于對稱網(wǎng)絡(luò)的多目標(biāo)跟蹤算法

關(guān)于Siamese網(wǎng)絡(luò)在單目標(biāo)跟蹤深度學(xué)習(xí)中有了介紹,在這里不再介紹,可以向前參考。

2)基于最小多割圖模型的多目標(biāo)跟蹤算法

上述算法中為了匹配兩個檢測采用LUV圖像格式以及光流圖像。Tang等人在文獻中發(fā)現(xiàn)采用深度學(xué)習(xí)計算的類光流特征(DeepMatching),結(jié)合表示能力更強的模型也可以得到效果很好的多目標(biāo)跟蹤結(jié)果。

基于DeepMatching特征,可以構(gòu)造下列5維特征:

其中MI,MU表示檢測矩形框中匹配的點的交集大小以及并集大小,ξv和ξw表示檢測信任度。利用這5維特征可以學(xué)習(xí)一個邏輯回歸分類器。

同樣,為了計算邊的匹配代價,需要設(shè)計匹配特征。這里,作者采用結(jié)合姿態(tài)對齊的疊加Siamese網(wǎng)絡(luò)計算匹配相似度,如圖9,采用的網(wǎng)絡(luò)模型StackNetPose具有最好的重識別性能。

綜合StackNetPose網(wǎng)絡(luò)匹配信任度、深度光流特征(deepMatching)和時空相關(guān)度,作者設(shè)計了新的匹配特征向量。類似于[2], 計算邏輯回歸匹配概率。最終的跟蹤結(jié)果取得了非常突出的進步。在MOT2016測試數(shù)據(jù)上的結(jié)果如下表:

3)通過時空域關(guān)注模型學(xué)習(xí)多目標(biāo)跟蹤算法

除了采用解決目標(biāo)重識別問題的深度網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)檢測匹配特征,還可以根據(jù)多目標(biāo)跟蹤場景的特點,設(shè)計合適的深度網(wǎng)絡(luò)模型來學(xué)習(xí)檢測匹配特征。Chu等人對行人多目標(biāo)跟蹤問題中跟蹤算法發(fā)生漂移進行統(tǒng)計分析,發(fā)現(xiàn)不同行人發(fā)生交互時,互相遮擋是跟蹤算法產(chǎn)生漂移的重要原因[4]。如圖10。

在這里插入圖片描述

針對這個問題,文獻[4]提出了基于空間時間關(guān)注模型(STAM)用于學(xué)習(xí)遮擋情況,并判別可能出現(xiàn)的干擾目標(biāo)。如圖11,空間關(guān)注模型用于生成遮擋發(fā)生時的特征權(quán)重,當(dāng)候選檢測特征加權(quán)之后,通過分類器進行選擇得到估計的目標(biāo)跟蹤結(jié)果,時間關(guān)注模型加權(quán)歷史樣本和當(dāng)前樣本,從而得到加權(quán)的損失函數(shù),用于在線更新目標(biāo)模型。

該過程分三步,第一步是學(xué)習(xí)特征可見圖:

第二步是根據(jù)特征可見圖,計算空間關(guān)注圖(Spatial Attention):

其中fatt是一個局部連接的卷積和打分操作。wtji是學(xué)習(xí)到的參數(shù)。

第三步根據(jù)空間注意圖加權(quán)原特征圖:

對生成的加權(quán)特征圖進行卷積和全連接網(wǎng)絡(luò)操作,生成二元分類器判別是否是目標(biāo)自身。最后用得到分類打分選擇最優(yōu)的跟蹤結(jié)果。

4)基于循環(huán)網(wǎng)絡(luò)判別融合表觀運動交互的多目標(biāo)跟蹤算法

上面介紹的算法采用的深度網(wǎng)絡(luò)模型都是基于卷積網(wǎng)絡(luò)結(jié)構(gòu),由于目標(biāo)跟蹤是通過歷史軌跡信息來判斷新的目標(biāo)狀態(tài),因此,設(shè)計能夠記憶歷史信息并根據(jù)歷史信息來學(xué)習(xí)匹配相似性度量的網(wǎng)絡(luò)結(jié)構(gòu)來增強多目標(biāo)跟蹤的性能也是比較可行的算法框架。

考慮從三個方面特征計算軌跡歷史信息與檢測的匹配:表觀特征,運動特征,以及交互模式特征。這三個方面的特征融合以分層方式計算。

在底層的特征匹配計算中,三個特征都采用了長短期記憶模型(LSTM)。對于表觀特征,首先采用VGG-16卷積網(wǎng)絡(luò)生成500維的特征?tA,以這個特征作為LSTM的輸入計算循環(huán)。

對于運動特征,取相對位移vit為基本輸入特征,直接輸入LSTM模型計算沒時刻的輸出?i,對于下一時刻的檢測同樣計算相對位移vjt+1,通過全連接網(wǎng)絡(luò)計算特征?j,類似于表觀特征計算500維特征?m,并利用二元匹配分類器進行網(wǎng)絡(luò)的預(yù)訓(xùn)練。

對于交互特征,取以目標(biāo)中心位置周圍矩形領(lǐng)域內(nèi)其他目標(biāo)所占的相對位置映射圖作為LSTM模型的輸入特征,計算輸出特征?i,對于t+1時刻的檢測計算類似的相對位置映射圖為特征,通過全連接網(wǎng)絡(luò)計算特征?j,類似于運動模型,通過全連接網(wǎng)絡(luò)計算500維特征?I,進行同樣的分類訓(xùn)練。

當(dāng)三個特征?A,?M,?I都計算之后拼接為完整的特征,輸入到上層的LSTM網(wǎng)絡(luò),對輸出的向量進行全連接計算,然后用于匹配分類,匹配正確為1,否則為0。對于最后的網(wǎng)絡(luò)結(jié)構(gòu),還需要進行微調(diào),以優(yōu)化整體網(wǎng)絡(luò)性能。最后的分類打分看作為相似度用于檢測與軌跡目標(biāo)的匹配計算。最終的跟蹤框架采用在線的檢測與軌跡匹配方法進行計算。

5)基于雙線性長短期循環(huán)網(wǎng)絡(luò)模型的多目標(biāo)跟蹤算法

在對LSTM中各個門函數(shù)的設(shè)計進行分析之后,Kim等人認(rèn)為僅僅用基本的LSTM模型對于表觀特征并不是最佳的方案,在文獻[10]中,Kim等人設(shè)計了基于雙線性LSTM的表觀特征學(xué)習(xí)網(wǎng)絡(luò)模型。

除了利用傳統(tǒng)的LSTM進行匹配學(xué)習(xí),或者類似[5]中的算法,拼接LSTM輸出與輸入特征,作者設(shè)計了基于乘法的雙線性LSTM模型,利用LSTM的隱含層特征(記憶)信息與輸入的乘積作為特征,進行匹配分類器的學(xué)習(xí)。

這里對于隱含層特征ht-1,必須先進行重新排列(reshape)操作,然后才能乘以輸入的特征向量xt。

其中f表示非線性激活函數(shù),mt是新的特征輸入。而原始的檢測圖像采用ResNet50提取2048維的特征,并通過全連接降為256維。下表中對于不同網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)特征維度、以及不同LSTM歷史長度時,表觀特征的學(xué)習(xí)對跟蹤性能的影響做了驗證。

可以看出采用雙線性LSTM(bilinear LSTM)的表觀特征性能最好,此時的歷史相關(guān)長度最佳為40,這個值遠遠超過文獻[5]中的2-4幀歷史長度。相對來說40幀歷史信息影響更接近人類的直覺。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容