標(biāo)題:NetTrack: Tracking Highly Dynamic Objects with a Net
作者:Guangze Zheng, Shijie Lin, Haobo Zuo, Changhong Fu, Jia Pan
機(jī)構(gòu):香港大學(xué)、同濟(jì)大學(xué)
原文鏈接:https://arxiv.org/abs/2403.11186
代碼鏈接:https://github.com/George-Zhuang/NetTrack
數(shù)據(jù)集鏈接:https://pan.baidu.com/s/1Ztu8-JJLFHmMkJyWrJQ8lQ?pwd=bft5
官方主頁(yè):https://george-zhuang.github.io/nettrack/
摘要
開(kāi)放世界目標(biāo)復(fù)雜的動(dòng)態(tài)特性對(duì)多目標(biāo)跟蹤提出了不可忽視的挑戰(zhàn),通常表現(xiàn)為嚴(yán)重的變形、快速運(yùn)動(dòng)和遮擋。大多數(shù)方法只依賴粗粒度的對(duì)象提示,例如方框和對(duì)象的整體外觀,由于動(dòng)態(tài)對(duì)象的內(nèi)部關(guān)系扭曲,容易退化。為了解決這個(gè)問(wèn)題,這項(xiàng)工作提出了NetTrack,一個(gè)高效、通用和負(fù)擔(dān)得起的跟蹤框架,引入了對(duì)動(dòng)態(tài)健壯的細(xì)粒度學(xué)習(xí)。具體地說(shuō),NetTrack利用點(diǎn)級(jí)視覺(jué)提示,構(gòu)建了與細(xì)粒度網(wǎng)絡(luò)的動(dòng)態(tài)感知關(guān)聯(lián)。相應(yīng)地,結(jié)合了細(xì)粒采樣器和匹配方法。此外,NetTrack還學(xué)習(xí)對(duì)象與文本的對(duì)應(yīng)關(guān)系,以實(shí)現(xiàn)細(xì)粒度本地化。為了評(píng)估MOT在極其動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中的性能,構(gòu)建了一個(gè)鳥(niǎo)群跟蹤(BFT)數(shù)據(jù)集,該數(shù)據(jù)集在物種多樣性和開(kāi)放世界場(chǎng)景下表現(xiàn)出高度的動(dòng)態(tài)性。對(duì)BFT的綜合評(píng)估驗(yàn)證了細(xì)粒度學(xué)習(xí)在對(duì)象動(dòng)態(tài)性上的有效性,并在TAO、TAO-OW、AnimalTrack和GMOT-40等開(kāi)放世界基準(zhǔn)測(cè)試上進(jìn)行了深入的遷移實(shí)驗(yàn),驗(yàn)證了NetTrack即使在沒(méi)有微調(diào)的情況下也具有很強(qiáng)的泛化能力。
1 引言
多目標(biāo)跟蹤(MOT)的目的是在視頻和現(xiàn)實(shí)世界中保持對(duì)感興趣對(duì)象的連續(xù)視覺(jué)感知。傳統(tǒng)的MOT方法往往假設(shè)對(duì)象是粗粒度的實(shí)體,因?yàn)樵诮?jīng)典的MOT任務(wù)中,特定對(duì)象類別[10]和場(chǎng)景的動(dòng)態(tài)性并不顯著,并且對(duì)象內(nèi)部的關(guān)系相對(duì)穩(wěn)定。然而,在開(kāi)放世界MOT任務(wù)中跟蹤任意對(duì)象,特別是高動(dòng)態(tài)對(duì)象的需求嚴(yán)重挑戰(zhàn)了這一假設(shè)。
開(kāi)放世界物體的高度動(dòng)態(tài)性,表現(xiàn)為嚴(yán)重的變形、快速的運(yùn)動(dòng)和頻繁的遮擋,在兩個(gè)主要方面對(duì)現(xiàn)有的方法提出了挑戰(zhàn):
1)關(guān)聯(lián)對(duì)于大多數(shù)方法來(lái)說(shuō),僅僅依賴于粗粒度的視覺(jué)表示,高的動(dòng)態(tài)性使得時(shí)間連續(xù)性在關(guān)聯(lián)方面變得脆弱,因?yàn)閷?duì)象中的內(nèi)部關(guān)系被扭曲。這些方法通常將整個(gè)對(duì)象表示為粗粒度邊界框或相應(yīng)的特征,并且動(dòng)態(tài)性顯著降低了這些表示跨越不同時(shí)間步長(zhǎng)的相似性,如圖1-b所示。
2)本地化高度動(dòng)態(tài)化也對(duì)建立準(zhǔn)確的文本-對(duì)象對(duì)應(yīng)關(guān)系進(jìn)行本地化提出了挑戰(zhàn)。最新的(SOTA)方法通常在預(yù)訓(xùn)練中學(xué)習(xí)整個(gè)圖像和文本之間的粗粒度對(duì)應(yīng)。對(duì)于嚴(yán)重變形或遮擋的對(duì)象,這些方法通常難以定位。

在這項(xiàng)工作中,我們提出了NetTrack,引入細(xì)粒度學(xué)習(xí)來(lái)解決上述兩個(gè)方面的問(wèn)題。關(guān)于關(guān)聯(lián),NetTrack利用對(duì)象外觀上的物理點(diǎn),這些點(diǎn)不太容易受到對(duì)象動(dòng)態(tài)化的影響,并形成細(xì)粒度的視覺(jué)提示。對(duì)于定位,使用扎根的預(yù)訓(xùn)練來(lái)學(xué)習(xí)對(duì)象和文本之間的細(xì)粒度對(duì)應(yīng)。因此,我們的主要貢獻(xiàn)概述如下:
i. 用于動(dòng)態(tài)感知關(guān)聯(lián)的細(xì)粒度網(wǎng)絡(luò)而不是將對(duì)象視為粗粒度實(shí)體,該工作使用細(xì)粒度網(wǎng)絡(luò)跟蹤對(duì)象,該網(wǎng)絡(luò)利用對(duì)象外觀表面上的興趣點(diǎn)(POI)。形變等動(dòng)態(tài)性通過(guò)改變?nèi)窒鄬?duì)位置和外觀特征分布扭曲了POI之間的內(nèi)在關(guān)系,而點(diǎn)本身的細(xì)粒度表示,如局部外觀顏色和與鄰接點(diǎn)的關(guān)系,幾乎不受影響,并表現(xiàn)出健壯性,如圖1-b所示。根據(jù)這一觀點(diǎn),我們?cè)O(shè)計(jì)了一個(gè)細(xì)粒度采樣器來(lái)發(fā)現(xiàn)潛在的POI,并利用這些點(diǎn)的細(xì)粒度視覺(jué)線索,以及新興的物理點(diǎn)跟蹤方法[12,22,28],進(jìn)行穩(wěn)健的跟蹤。隨后,提出了一種簡(jiǎn)單有效的細(xì)粒度相似度計(jì)算方法來(lái)確定被跟蹤的POI與候選對(duì)象之間的包容關(guān)系。提出的細(xì)粒度相似度評(píng)分與已有的粗粒度相似度評(píng)分相結(jié)合,實(shí)現(xiàn)了更穩(wěn)健的動(dòng)態(tài)對(duì)象關(guān)聯(lián)。
ii. 用于動(dòng)態(tài)感知關(guān)聯(lián)的細(xì)粒度網(wǎng)絡(luò)而不是將對(duì)象視為粗粒度實(shí)體,該工作使用細(xì)粒度網(wǎng)絡(luò)跟蹤對(duì)象,該網(wǎng)絡(luò)利用對(duì)象外觀表面上的興趣點(diǎn)(POI)。形變等動(dòng)態(tài)性通過(guò)改變?nèi)窒鄬?duì)位置和外觀特征分布扭曲了POI之間的內(nèi)在關(guān)系,而點(diǎn)本身的細(xì)粒度表示,如局部外觀顏色和與鄰接點(diǎn)的關(guān)系,幾乎不受影響,并表現(xiàn)出健壯性,如圖1-b所示。根據(jù)這一觀點(diǎn),我們?cè)O(shè)計(jì)了一個(gè)細(xì)粒度采樣器來(lái)發(fā)現(xiàn)潛在的POI,并利用這些點(diǎn)的細(xì)粒度視覺(jué)線索,以及新興的物理點(diǎn)跟蹤方法[12,22,28],進(jìn)行穩(wěn)健的跟蹤。隨后,提出了一種簡(jiǎn)單有效的細(xì)粒度相似度計(jì)算方法來(lái)確定被跟蹤的POI與候選對(duì)象之間的包容關(guān)系。提出的細(xì)粒度相似度評(píng)分與已有的粗粒度相似度評(píng)分相結(jié)合,實(shí)現(xiàn)了更穩(wěn)健的動(dòng)態(tài)對(duì)象關(guān)聯(lián)。對(duì)象-文本對(duì)應(yīng)細(xì)粒度定位為了發(fā)現(xiàn)和定位跟蹤中高度動(dòng)態(tài)的對(duì)象,本工作采用預(yù)訓(xùn)練方法通過(guò)短語(yǔ)基礎(chǔ)[32,41,68]進(jìn)行跟蹤,以實(shí)現(xiàn)細(xì)粒度對(duì)象-文本對(duì)應(yīng)。與使用粗粒度圖文對(duì)應(yīng)的基于剪輯的跟蹤方法[23,34]相比,NetTrack可以更有效地區(qū)分高度動(dòng)態(tài)的對(duì)象,如圖2所示。此外,通過(guò)在框架內(nèi)嵌入描述符(圖2中的GPT-3.5[6]),所提出的框架學(xué)習(xí)上下文信息,例如提供的專業(yè)應(yīng)用和知識(shí)上下文,以減輕背景干擾,并實(shí)現(xiàn)用于高效動(dòng)態(tài)目標(biāo)跟蹤的實(shí)際應(yīng)用。
iii. 不同場(chǎng)景下的高動(dòng)態(tài)基準(zhǔn)測(cè)試和傳輸實(shí)驗(yàn)本工作引入了一個(gè)高動(dòng)態(tài)的開(kāi)放世界MOT數(shù)據(jù)集,名為鳥(niǎo)群跟蹤(BFT),以評(píng)估跟蹤方法在跟蹤高動(dòng)態(tài)目標(biāo)方面的性能。BFT特別值得注意的是22種鳥(niǎo)類的復(fù)雜和不可預(yù)測(cè)的動(dòng)態(tài),主要原因有三:
1)三維活動(dòng)空間造成的快速運(yùn)動(dòng)。
2)頻繁拍打翅膀造成的變形[37]。
3)由于鳥(niǎo)群中鳥(niǎo)類的集體行為而引起的閉塞[38,39]。
此外,BFT包括14個(gè)不同的開(kāi)放場(chǎng)景和106個(gè)序列中的22個(gè)物種,展示了豐富的多樣性,如圖1-c所示。經(jīng)測(cè)試,本文提出的NetTrack框架在跟蹤BFT中的高動(dòng)態(tài)目標(biāo)方面達(dá)到了SOTA性能。此外,全面的零鏡頭傳輸實(shí)驗(yàn)表明,NetTrack在幾個(gè)具有挑戰(zhàn)性的開(kāi)放世界 MOT基準(zhǔn)上超過(guò)了跟蹤基線,例如TAO、TAO-OW、AnimalTrack和GMOT-40。引入的細(xì)粒度學(xué)習(xí)有助于增強(qiáng)NetTrack的泛化能力,即使沒(méi)有細(xì)調(diào)。作為一個(gè)高效、通用且經(jīng)濟(jì)實(shí)惠的跟蹤框架,NetTrack在開(kāi)放世界應(yīng)用場(chǎng)景中也顯示出潛力,進(jìn)一步突顯了其對(duì)下游任務(wù)的適用性。

2. 相關(guān)工作
開(kāi)放世界多目標(biāo)跟蹤方法按檢測(cè)跟蹤是MOT中最流行的框架,它包括定位潛在目標(biāo)并隨著時(shí)間的推移將它們關(guān)聯(lián)起來(lái)。傳統(tǒng)的MOT方法通常關(guān)注有限的場(chǎng)景和對(duì)象類別,如公共場(chǎng)所的行人或自動(dòng)駕駛場(chǎng)景中的車輛。相比之下,開(kāi)放世界的跟蹤任務(wù)要求跟蹤者能夠在復(fù)雜和動(dòng)態(tài)的場(chǎng)景中跟蹤任何對(duì)象?;贑LIP的開(kāi)放場(chǎng)景目標(biāo)檢測(cè)的興起促進(jìn)了這一任務(wù),促使先進(jìn)的開(kāi)放世界跟蹤基線利用CLIP風(fēng)格的預(yù)訓(xùn)練,通過(guò)利用文本和圖像之間的對(duì)應(yīng)關(guān)系來(lái)實(shí)現(xiàn)泛化。然而,這些主流的跟蹤方法通常將目標(biāo)視為粗粒度的包圍盒,但開(kāi)放世界對(duì)象的高動(dòng)態(tài)性往往會(huì)擾亂這種粗略表示的時(shí)間相似性。此外,與剪貼式預(yù)訓(xùn)練中使用的淺融合視覺(jué)語(yǔ)言特征相比,定位動(dòng)態(tài)對(duì)象通常需要在對(duì)象和文本之間建立細(xì)粒度的對(duì)應(yīng)關(guān)系,以抵消對(duì)象的外觀扭曲或損害。
最近出現(xiàn)的物理點(diǎn)跟蹤方法啟發(fā)了這項(xiàng)工作,引入了對(duì)象的細(xì)粒度視覺(jué)線索。這些方法的目標(biāo)是跟蹤視頻片段上的任意物理點(diǎn),依賴于點(diǎn)級(jí)外觀表示,而不是粗略地傳播整個(gè)對(duì)象,因此有望保持對(duì)動(dòng)態(tài)對(duì)象的良好泛化。此外,基于短語(yǔ)基礎(chǔ)的預(yù)訓(xùn)練方法也被應(yīng)用于開(kāi)放集合對(duì)象檢測(cè)任務(wù),由于對(duì)象級(jí)別、語(yǔ)言感知和語(yǔ)義豐富的視覺(jué)表示,預(yù)計(jì)其對(duì)于動(dòng)態(tài)對(duì)象跟蹤的潛在益處。
開(kāi)放世界多目標(biāo)跟蹤基準(zhǔn)經(jīng)典MOT基準(zhǔn)主要關(guān)注有限的對(duì)象類別和場(chǎng)景,其中對(duì)象通常保持穩(wěn)定的外觀或姿勢(shì)并經(jīng)歷相對(duì)簡(jiǎn)單的運(yùn)動(dòng),例如跟蹤行人或車輛。隨著對(duì)開(kāi)放世界跟蹤應(yīng)用的需求不斷增加,關(guān)注更廣泛場(chǎng)景和對(duì)象類的MOT基準(zhǔn)應(yīng)運(yùn)而生。TAO在海量數(shù)據(jù)中包含大量看不見(jiàn)的對(duì)象,GMOT-40側(cè)重于跟蹤看不見(jiàn)的對(duì)象類別,AnimalTrack側(cè)重于跟蹤野生動(dòng)物。后來(lái),TAO-OW在開(kāi)放世界的環(huán)境中定義了已知和未知的對(duì)象類別,Li等人也是如此。在開(kāi)放詞匯設(shè)置中,根據(jù)TAO基準(zhǔn)將對(duì)象類別劃分為基本對(duì)象類別和新奇對(duì)象類別。在各種開(kāi)放世界的MOT任務(wù)中,雖然學(xué)習(xí)看不見(jiàn)的課程是至關(guān)重要的,但這些看不見(jiàn)的物體潛在的嚴(yán)重變形和快速運(yùn)動(dòng)所產(chǎn)生的能動(dòng)性也同樣關(guān)鍵,需要進(jìn)行全面的評(píng)估。
3. 方法
提出的NetTrack框架引入了用于動(dòng)態(tài)感知對(duì)象關(guān)聯(lián)的細(xì)粒度網(wǎng)絡(luò)和用于動(dòng)態(tài)感知本地化的細(xì)粒度對(duì)象-文本對(duì)應(yīng)。
3.1描述了使用采樣和執(zhí)行關(guān)聯(lián)將對(duì)象組織成細(xì)粒度網(wǎng)絡(luò)。
3.2主要討論細(xì)粒度的對(duì)象-文本對(duì)應(yīng)如何對(duì)動(dòng)態(tài)對(duì)象的本地化產(chǎn)生積極影響。
3.1.細(xì)粒度網(wǎng)絡(luò)
所提出的動(dòng)態(tài)感知關(guān)聯(lián)利用細(xì)粒度網(wǎng)絡(luò)來(lái)構(gòu)建對(duì)象動(dòng)態(tài)的健壯視覺(jué)線索。它主要由細(xì)粒采樣器和匹配方法組成。整個(gè)過(guò)程如圖3所示。細(xì)粒度采樣器本工作引入點(diǎn)級(jí)視覺(jué)線索來(lái)形成具有興趣點(diǎn)(POI)的細(xì)粒度網(wǎng)絡(luò)。理想情況下,采樣POI應(yīng)該準(zhǔn)確地捕獲每個(gè)感興趣對(duì)象表面上的每個(gè)有價(jià)值的點(diǎn),避免背景干擾或多余的計(jì)算負(fù)擔(dān)。一個(gè)簡(jiǎn)單的想法是對(duì)跟蹤對(duì)象框中的POI進(jìn)行采樣,并逐幀更新點(diǎn)。然而,這樣的方法可能會(huì)增加一定的計(jì)算負(fù)擔(dān),忽略假陰性樣本,以及視覺(jué)上下文不足。因此,提出了一種用于交叉幀POI采樣的細(xì)粒度采樣器。

將POI的預(yù)期分布表示為f(X),其中x表示圖像I中的點(diǎn)。對(duì)象運(yùn)動(dòng)基于卡爾曼濾波[27]來(lái)估計(jì),如[4,5,7,71]。這種估計(jì)相當(dāng)于S畫框中某一時(shí)期小說(shuō)對(duì)象的粗略分布。然后,該分布可以被變換為點(diǎn)級(jí)別的形式,如p(x|T粗略o,{i}S i=1),其中T粗略o是粗略估計(jì)的對(duì)象的粗粒度軌跡,p(·)是發(fā)現(xiàn)潛在POI的二進(jìn)制分布。這一分布是對(duì)POI進(jìn)行抽樣的重要權(quán)重。給定點(diǎn)數(shù)K,然后可以使用重要性抽樣[62]將預(yù)期POI表示為:

因此,利用點(diǎn)跟蹤模型在幀#t-1確定細(xì)粒度POI,并在幀#t估計(jì)細(xì)粒度POI。利用細(xì)粒度網(wǎng)絡(luò)進(jìn)行跟蹤的細(xì)粒度匹配需要基于時(shí)間相似性將記憶的POI與當(dāng)前檢測(cè)結(jié)果進(jìn)行匹配。在給定點(diǎn)跟蹤器模型Trp的情況下,可以在上述時(shí)間段內(nèi)獲得估計(jì)的點(diǎn)軌跡Tp。在獲得當(dāng)前幀#t的檢測(cè)結(jié)果Dt之后,細(xì)粒度匹配方法計(jì)算落在候選檢測(cè)框內(nèi)的網(wǎng)絡(luò)中的估計(jì)點(diǎn)的數(shù)量作為細(xì)粒度相似度。設(shè)N為幀#t?1中跟蹤對(duì)象的個(gè)數(shù),N個(gè)網(wǎng){Pi}Ni=1和M個(gè)檢測(cè)盒{bj}Mj=1的匹配細(xì)粒度記分矩陣S的元素Si,j可表示為:

其中w是懲罰具有過(guò)大面積的候選檢測(cè)框的權(quán)重,因?yàn)檩^大的面積通常導(dǎo)致預(yù)測(cè)點(diǎn)容易落入框內(nèi),從而導(dǎo)致潛在的誤判。|pi∩bj|指凈pi在bj內(nèi)定位的點(diǎn)數(shù),如圖3所示為有效點(diǎn)數(shù),|pi|為凈pi內(nèi)的點(diǎn)數(shù)。A(·)指的是框的面積,而?b是使用[27]在幀#t中預(yù)測(cè)的跟蹤對(duì)象的框。然后,結(jié)合粗粒度相似度得分,得到整體匹配得分。如圖3所示,對(duì)象的動(dòng)態(tài)性經(jīng)常導(dǎo)致聯(lián)合交集(IOU)中粗粒度相似度的降低,而細(xì)粒度關(guān)聯(lián)保持健壯。然后使用匈牙利算法[29]執(zhí)行匹配過(guò)程。算法1中描述了該方法的細(xì)節(jié)。
3.2.細(xì)粒度的對(duì)象-文本通信
為了學(xué)習(xí)用于定位的細(xì)粒度對(duì)象-文本對(duì)應(yīng),該工作引入了一種基于短語(yǔ)基礎(chǔ)的預(yù)訓(xùn)練策略來(lái)跟蹤動(dòng)態(tài)對(duì)象,并通過(guò)深度融合文本和對(duì)象特征來(lái)緩解對(duì)象動(dòng)力學(xué)的不利影響。與使用基于CLIP[54]的預(yù)訓(xùn)練的SOTA跟蹤方法[23,34]不同,我們遵循[32,41,68]來(lái)識(shí)別句子中的短語(yǔ)與圖像中的對(duì)象之間的對(duì)應(yīng)關(guān)系,從而形成細(xì)粒度的對(duì)象-文本對(duì)應(yīng)關(guān)系。在給定輸入圖像I和語(yǔ)言提示P的情況下,可以分別利用視覺(jué)編碼器EncV和語(yǔ)言編碼器EncL來(lái)獲得對(duì)應(yīng)的對(duì)象特征FO和語(yǔ)言特征FL。然后,通過(guò)深度融合得到F‘O和F’L兩個(gè)特征,進(jìn)而得到目標(biāo)-文本對(duì)應(yīng)分?jǐn)?shù)Sround。此過(guò)程的公式為:

從視覺(jué)的角度來(lái)看,細(xì)粒度的對(duì)象-文本對(duì)應(yīng)增強(qiáng)了對(duì)視覺(jué)特征的語(yǔ)言意識(shí),從而能夠更好地識(shí)別變形的對(duì)象。從語(yǔ)言的觀點(diǎn)來(lái)看,這種對(duì)應(yīng)在預(yù)訓(xùn)練期間學(xué)習(xí)單詞或子句級(jí)別的上下文表示[41],避免由不必要的單詞交互引起的偏見(jiàn)。所提議的框架還允許利用嵌入的描述符(例如,大型語(yǔ)言模型[6,52])更詳細(xì)地理解對(duì)象。因此,這種細(xì)粒度的通信更適合于在專業(yè)場(chǎng)景中捕獲更具體的上下文信息,如圖2。
4. BFT數(shù)據(jù)集
數(shù)據(jù)采集 。這通常導(dǎo)致鳥(niǎo)群在有限的空間內(nèi)密集分布,使其在視覺(jué)上容易受到遮擋。除了前述的動(dòng)態(tài)挑戰(zhàn)外,鳥(niǎo)類往往成群出現(xiàn)相似的外觀,這也增加了視覺(jué)辨別的難度。數(shù)據(jù)收集鳥(niǎo)群是開(kāi)放世界中最具活力的跟蹤對(duì)象之一,因此被認(rèn)為是這項(xiàng)工作的理想主題。鳥(niǎo)類的能動(dòng)性主要?dú)w因于三個(gè)現(xiàn)象:
1)鳥(niǎo)群由于具有三維的活動(dòng)空間和額外的自由度,比地面物體表現(xiàn)出更高的機(jī)動(dòng)性。此外,鳥(niǎo)類的慣性較小,可以更靈活地加速、減速和改變方向。復(fù)雜的空氣動(dòng)力學(xué)效應(yīng)也使得飛行鳥(niǎo)群的運(yùn)動(dòng)更加難以預(yù)測(cè)。
2)鳥(niǎo)類在飛行過(guò)程中通常會(huì)經(jīng)歷頻繁而強(qiáng)烈的變形,主要是由于拍翼[37]。
3)集體行為[38,39]在許多鳥(niǎo)群中廣泛存在。這通常導(dǎo)致鳥(niǎo)群在有限的空間內(nèi)密集分布,使其在視覺(jué)上容易受到遮擋。除了前述的動(dòng)態(tài)挑戰(zhàn)外,鳥(niǎo)類往往成群出現(xiàn)相似的外觀,這也增加了視覺(jué)辨別的難度。
為了展示開(kāi)放世界場(chǎng)景的多樣性和物種的多樣性,BFT數(shù)據(jù)集包括22種鳥(niǎo)類和14個(gè)常見(jiàn)的自然和文化場(chǎng)景,覆蓋六大洲,如圖4-a和圖1-c所示。圖7中有詳細(xì)對(duì)應(yīng)的鳥(niǎo)類目、科、屬和種。主要數(shù)據(jù)來(lái)源是BBC自然紀(jì)錄片系列地球飛行[25]。從大約6個(gè)小時(shí)的視頻中提取了106個(gè)精心挑選的片段,進(jìn)一步將其分為35個(gè)視頻的訓(xùn)練集、25個(gè)視頻的驗(yàn)證集和36個(gè)視頻的測(cè)試集。所有數(shù)據(jù)都經(jīng)過(guò)了專家的細(xì)致批注和跟蹤領(lǐng)域?qū)<业亩噍唽彶?,以及生物領(lǐng)域?qū)<业暮藢?shí)。視頻和注釋的幀速率通常被設(shè)置為每秒25幀(FPS)。

高動(dòng)態(tài):BFT的高動(dòng)態(tài)包括更嚴(yán)重的變形、更快的運(yùn)動(dòng)和更頻繁的閉塞。定量地,圖4-b,c從兩個(gè)方面比較了BFT與其他開(kāi)放世界MOT數(shù)據(jù)集[1,8,69]的動(dòng)態(tài)性。具體地說(shuō),縱橫比變化(ARC)[15,51]是常用的跟蹤屬性,其測(cè)量對(duì)象變形或遮擋的頻率和嚴(yán)重程度。對(duì)象運(yùn)動(dòng)是測(cè)量對(duì)象在兩個(gè)連續(xù)時(shí)間步長(zhǎng)之間的位移的另一個(gè)屬性。詳細(xì)統(tǒng)計(jì)數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散,運(yùn)動(dòng)分布的值更大,與其他數(shù)據(jù)集相比,BFT表現(xiàn)出更強(qiáng)的動(dòng)態(tài)性。5.實(shí)驗(yàn)本實(shí)驗(yàn)部分旨在驗(yàn)證本工作的以下核心結(jié)論:1)開(kāi)放世界物體的高度動(dòng)態(tài)化給MOT帶來(lái)了巨大的挑戰(zhàn)。2)NetTrack在處理動(dòng)態(tài)對(duì)象方面表現(xiàn)突出,在各種OpenWorld跟蹤數(shù)據(jù)集上表現(xiàn)出很強(qiáng)的泛化能力,而不需要精調(diào)。3)與粗粒度方法相比,提出的細(xì)粒度學(xué)習(xí)方法對(duì)動(dòng)態(tài)目標(biāo)的跟蹤具有更強(qiáng)的泛化能力。5.1.利用設(shè)置數(shù)據(jù)集BFT來(lái)評(píng)估跟蹤器在高度動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中的性能。在零射擊遷移評(píng)估中,使用了大規(guī)模TAO-OW[42]和TAO[8]的驗(yàn)證集來(lái)進(jìn)行廣泛的泛化能力評(píng)估。具體地說(shuō),TAO的評(píng)估遵循[34]中的描述,其中對(duì)基本類別和新類別采用開(kāi)放詞匯設(shè)置,并評(píng)估跟蹤器的分類能力。新奇類是在LVIS[20]數(shù)據(jù)集中定義為REARE的類。不同的是,TAO-OW的對(duì)象類根據(jù)它們是否屬于COCO[36]中的80個(gè)類別來(lái)劃分為已知和未知。在消融實(shí)驗(yàn)中,除了TAO和TAO-OW外,還包括AnimalTrack[69]和GMOT-40[1]作為參考,并在TAO-OW之后的開(kāi)放世界環(huán)境中進(jìn)行評(píng)估。關(guān)于AnimalTrack,10個(gè)班級(jí)中有8個(gè)不屬于可可類別。同樣,在GMOT-40的18個(gè)等級(jí)中,有12個(gè)等級(jí)是高動(dòng)態(tài)的比例。BFT的高動(dòng)態(tài)包括更嚴(yán)重的變形、更快的運(yùn)動(dòng)和更頻繁的閉塞。定量地,圖4-b,c從兩個(gè)方面比較了BFT與其他開(kāi)放世界MOT數(shù)據(jù)集[1,8,69]的動(dòng)態(tài)性。具體地說(shuō),縱橫比變化(ARC)[15,51]是常用的跟蹤屬性,其測(cè)量對(duì)象變形或遮擋的頻率和嚴(yán)重程度。對(duì)象運(yùn)動(dòng)是測(cè)量對(duì)象在兩個(gè)連續(xù)時(shí)間步長(zhǎng)之間的位移的另一個(gè)屬性。詳細(xì)統(tǒng)計(jì)數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散,運(yùn)動(dòng)分布的值更大,與其他數(shù)據(jù)集相比,BFT表現(xiàn)出更強(qiáng)的動(dòng)態(tài)性。
5. 實(shí)驗(yàn)
本實(shí)驗(yàn)部分旨在驗(yàn)證本工作的以下核心結(jié)論:
1)開(kāi)放世界物體的高度動(dòng)態(tài)化給MOT帶來(lái)了巨大的挑戰(zhàn)。
2)NetTrack在處理動(dòng)態(tài)對(duì)象方面表現(xiàn)突出,在各種開(kāi)放跟蹤數(shù)據(jù)集上表現(xiàn)出很強(qiáng)的泛化能力,而不需要精調(diào)。
3)與粗粒度方法相比,提出的細(xì)粒度學(xué)習(xí)方法對(duì)動(dòng)態(tài)目標(biāo)的跟蹤具有更強(qiáng)的泛化能力。
5.1 設(shè)置
數(shù)據(jù)集 BFT來(lái)評(píng)估跟蹤器在高度動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中的性能。在零樣本遷移評(píng)估中,使用了大規(guī)模TAO-OW[42]和TAO[8]的驗(yàn)證集來(lái)進(jìn)行廣泛的泛化能力評(píng)估。具體而言,TAO的評(píng)估遵循[34]中的描述,其中對(duì)基礎(chǔ)類別和新類別采用開(kāi)放詞匯設(shè)置,并評(píng)估跟蹤器的分類能力。新類別是在LVIS數(shù)據(jù)集中定義為罕見(jiàn)的類別[20]。目前,TAO—OW的對(duì)象類根據(jù)它們是否屬于COCO中的80個(gè)類別分為已知和未知[36]。在消融實(shí)驗(yàn)中,除TAO和TAO—OW外,還包括AnimalTrack [69]和GMOT—40 [1]作為參考,并在TAO—OW后在開(kāi)放世界環(huán)境中進(jìn)行評(píng)價(jià)。關(guān)于AnimalTrack,10個(gè)課程中有8個(gè)不在COCO類別之內(nèi)。同樣,GMOT—40中的18個(gè)類別中有12個(gè)不屬于COCO類別。
評(píng)估 開(kāi)放世界跟蹤精度(OWTA)[42]是為TAO-OW提出的開(kāi)放世界MOT度量,是我們實(shí)驗(yàn)中的主要度量。OWTA評(píng)估兩個(gè)檢測(cè)召回(D。Re.)和關(guān)聯(lián)準(zhǔn)確性(A.Acc.),分別檢測(cè)精度(D.Acc.),檢測(cè)精度(D.Pr.),聯(lián)想回憶(A.Re.),和關(guān)聯(lián)精度(A.(Pr.)是參考指標(biāo)。TETA [33]旨在評(píng)估多類別對(duì)象,并用于在開(kāi)放詞匯設(shè)置下評(píng)估TAO數(shù)據(jù)集。在TETA中計(jì)算定位評(píng)分(LocA)和關(guān)聯(lián)評(píng)分(AssocA)。HOTA [44],MOTA [3]和IDF 1 [56]是用于與BFT上的經(jīng)典MOT方法進(jìn)行比較的經(jīng)典指標(biāo),并可作為參考。所有評(píng)價(jià)過(guò)程均采用TrackEval [26]。
實(shí)現(xiàn)細(xì)節(jié) 在NetTrack中,粗粒度關(guān)聯(lián)從BYTE [71]中調(diào)整,默認(rèn)點(diǎn)跟蹤器從在TAP-VidKubric [11]上預(yù)訓(xùn)練的CoTracker [28]中調(diào)整。默認(rèn)情況下,跟蹤步幅為8,丟失的軌跡保留30幀,初始化點(diǎn)采樣的網(wǎng)格為(3,3)。默認(rèn)檢測(cè)器是GroundingDINO [41]與Swin-B [43]骨干,它在COCO [36],O365 [58]等上進(jìn)行了預(yù)訓(xùn)練。為了以開(kāi)放世界MOT應(yīng)用程序負(fù)擔(dān)得起的方式驗(yàn)證NetTrack的泛化能力,所有評(píng)估的基準(zhǔn)測(cè)試都不需要額外的訓(xùn)練。BFT上公開(kāi)的SoTA跟蹤器的微調(diào)和評(píng)估遵循其默認(rèn)設(shè)置。
5.2.高動(dòng)態(tài)評(píng)估
Tab 1 中提供了NetTrack和其他SoTA跟蹤器在高度動(dòng)態(tài)BFT上的綜合評(píng)估。評(píng)估分為兩個(gè)主要部分:a)使用閉集跟蹤器對(duì)BFT數(shù)據(jù)集進(jìn)行微調(diào)。b)開(kāi)放世界MOT條件,其涉及在零激發(fā)設(shè)置下的跟蹤。為了確保在開(kāi)放世界場(chǎng)景的高度動(dòng)態(tài)挑戰(zhàn)中對(duì)跟蹤器性能進(jìn)行公平評(píng)估,開(kāi)放世界條件下的所有文本提示都只包括“鳥(niǎo)”,這與COCO數(shù)據(jù)集中用于訓(xùn)練閉集跟蹤器的類別一致。實(shí)驗(yàn)結(jié)果主要表明:1)即使在零拍開(kāi)放世界跟蹤設(shè)置中,NetTrack也能獲得比SoTA微調(diào)的閉集跟蹤器更上級(jí)的性能。與最佳微調(diào)結(jié)果相比,NetTrack在OWTA上提高了1.3分,證實(shí)了所提出的框架的零射擊泛化能力。2)與微調(diào)后的結(jié)果(線912)相比,閉集跟蹤器在高度動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中表現(xiàn)出次優(yōu)的零次泛化能力(線13、14、17、18),在OWTA上平均下降16%,在HOTA上平均下降15%,在MOTA上平均下降21%,這表明閉集跟蹤器對(duì)開(kāi)放世界中的動(dòng)態(tài)對(duì)象具有次優(yōu)的泛化能力。3)NetTrack鼓勵(lì)將潛在的感興趣對(duì)象關(guān)聯(lián)起來(lái),并將檢測(cè)召回率提高了3.4個(gè)點(diǎn)。這也導(dǎo)致更多的假陽(yáng)性樣本,并增加了壓力的關(guān)聯(lián)與輕微下降的A。然而,與最好的粗粒度關(guān)聯(lián)方法(第24—27行)相比,綜合OWTA提升了1.6分。

5.3.零樣本遷移評(píng)估
開(kāi)放詞匯表設(shè)置上的零樣本遷移。Tab 2在開(kāi)放詞匯MOT評(píng)估的TAO上實(shí)現(xiàn)了零樣本遷移。OVTrack [34]是在從LVIS [20]生成的數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集與TAO具有高度的類一致性。與微調(diào)跟蹤器相比,NetTrack顯著提高了跟蹤分類精度,并實(shí)現(xiàn)了強(qiáng)大的零樣本跟蹤精度。雖然NetTrack由于缺乏微調(diào)而容易受到大量假陽(yáng)性樣本的影響,這使得它在基礎(chǔ)類中的LocA和AssocA的評(píng)估中處于略微劣勢(shì),但所提出的框架實(shí)現(xiàn)了ClsA的11.8點(diǎn)增加,LocA的2.5點(diǎn)增加,新類中的AssocA相當(dāng),以及整體TETA的4.5點(diǎn)增加,進(jìn)一步展示了其競(jìng)爭(zhēng)性的推廣能力。開(kāi)放世界設(shè)置上的零樣本遷移NetTrack在TAO-OW [42]基準(zhǔn)測(cè)試中的零樣本泛化在Tab3中演示。除了NetTrack之外,所有跟蹤器都對(duì)已知的TAOOW訓(xùn)練集進(jìn)行了微調(diào)。與微調(diào)SoTA跟蹤器相比,NetTrack在已知類別上實(shí)現(xiàn)了最佳性能。和地方Re.類似于開(kāi)放世界跟蹤基線(OWTB)[42],A.Acc.超過(guò)基線3.6分,證實(shí)了動(dòng)態(tài)感知聯(lián)想的泛化能力。同樣,A.Acc.仍然近似于視頻OWL-ViT [23],D.Re.顯示出8.4分的改進(jìn),驗(yàn)證了細(xì)粒度定位的有效性。在未知類上,假陽(yáng)性樣本的引入導(dǎo)致A的略微下降。Acc.,但總體OWTA性能仍具有競(jìng)爭(zhēng)力,提高了5.3分。


5.4.消融
細(xì)粒度網(wǎng)的一般性 在Tab 4、Tab 5,顯示了TAO [8],TAO-OW [42],AnimalTrack [69]和GMOT 40 [1]上與細(xì)粒度Nets和粗粒度方法的擬議關(guān)聯(lián)之間的比較。由于所提出的框架鼓勵(lì)在開(kāi)放世界場(chǎng)景中發(fā)現(xiàn)更多潛在的對(duì)象,NetTrack在LocA和D方面取得了顯著的改進(jìn)。Re.在四個(gè)基準(zhǔn)測(cè)試中對(duì)可見(jiàn)和不可見(jiàn)的類進(jìn)行測(cè)試。特別是D.Re.與第二好的性能相比,TAO-OW上未知類的性能顯著提高了18.2分,證實(shí)了其強(qiáng)大的泛化能力。雖然假陽(yáng)性樣本的引入導(dǎo)致AssoA和A略有下降。Acc,整體TETA和OWTA在可見(jiàn)和不可見(jiàn)類中都有顯著改善。

具有可拆卸模塊的堅(jiān)固框架. 為了驗(yàn)證所提出的框架的通用性,圖5示出了對(duì)可拆卸模塊的消融研究,包括開(kāi)集定位方法和點(diǎn)跟蹤器。具體而言,定位方法表示為GLIP [32] I、接地DINO [41] II,點(diǎn)跟蹤器表示為PIP [22] a、TAPIR [12] B、CoTracker [28] c。接地DINO和CoTracker的組合表示為II. c,并作為默認(rèn)設(shè)置。在比較定位能力時(shí),兩種方法在D。Re.但[32]在A中表現(xiàn)出輕微的性能不足。由于引入了更多的假陽(yáng)性,ACC和整體OWTA。類似地,三點(diǎn)跟蹤器表現(xiàn)出近似優(yōu)異的性能??傮w而言,模塊的變化不會(huì)顯著降低整體性能,從而驗(yàn)證了所提出的框架的良好的泛化能力。

針對(duì)幀速率丟失的穩(wěn)定性. 在開(kāi)放世界跟蹤的實(shí)際應(yīng)用中,特別是在與邊緣設(shè)備[40]相關(guān)的場(chǎng)景中,由于需要減少計(jì)算負(fù)荷或節(jié)省能源,經(jīng)常會(huì)遇到視頻幀速率降低的情況,這進(jìn)一步加劇了開(kāi)放世界對(duì)象的動(dòng)態(tài)性帶來(lái)的挑戰(zhàn)。圖6示出了在從默認(rèn)幀速率(25FPS)到十分之一(3FPS)的降低的幀速率下對(duì)BFT數(shù)據(jù)集的跟蹤性能。與其他關(guān)聯(lián)方法[4,7,71]相比,NetTrack在幀速率降低的情況下表現(xiàn)出了良好的穩(wěn)定性。這進(jìn)一步說(shuō)明了該框架的泛化性能。
6.結(jié)論
針對(duì)開(kāi)放世界MOT的高動(dòng)態(tài)性,提出了NetTrack學(xué)習(xí)細(xì)粒度目標(biāo)線索的方法。具體而言,細(xì)粒度的視覺(jué)線索和對(duì)象的文本對(duì)應(yīng)關(guān)系的動(dòng)態(tài)感知的關(guān)聯(lián)和定位。這項(xiàng)工作還提出了一個(gè)高度動(dòng)態(tài)的開(kāi)放世界的MOT基準(zhǔn),BFT,和廣泛的評(píng)估與SoTA跟蹤器證明了所提出的NetTrack跟蹤動(dòng)態(tài)對(duì)象的有效性。此外,在幾個(gè)具有挑戰(zhàn)性的開(kāi)放世界MOT基準(zhǔn)測(cè)試上進(jìn)行的大量遷移實(shí)驗(yàn)驗(yàn)證了NetTrack的強(qiáng)大泛化能力,無(wú)需微調(diào)。對(duì)局限性的分析表明,更精簡(jiǎn)的端到端方式和過(guò)濾假陽(yáng)性樣本有希望進(jìn)一步改進(jìn)。