標(biāo)題：NetTrack: Tracking Highly Dynamic Objects with a Net
作者：Guangze Zheng, Shijie Lin, Haobo Zuo, Changhong Fu, Jia Pan
機(jī)構(gòu)：香港大學(xué)、同濟(jì)大學(xué)
原文鏈接：https://arxiv.org/abs/2403.11186
代碼鏈接：https://github.com/George-Zhuang/NetTrack
數(shù)據(jù)集鏈接：https://pan.baidu.com/s/1Ztu8-JJLFHmMkJyWrJQ8lQ?pwd=bft5
官方主頁(yè)：https://george-zhuang.github.io/nettrack/

摘要

開(kāi)放世界目標(biāo)復(fù)雜的動(dòng)態(tài)特性對(duì)多目標(biāo)跟蹤提出了不可忽視的挑戰(zhàn)，通常表現(xiàn)為嚴(yán)重的變形、快速運(yùn)動(dòng)和遮擋。大多數(shù)方法只依賴粗粒度的對(duì)象提示，例如方框和對(duì)象的整體外觀，由于動(dòng)態(tài)對(duì)象的內(nèi)部關(guān)系扭曲，容易退化。為了解決這個(gè)問(wèn)題，這項(xiàng)工作提出了NetTrack，一個(gè)高效、通用和負(fù)擔(dān)得起的跟蹤框架，引入了對(duì)動(dòng)態(tài)健壯的細(xì)粒度學(xué)習(xí)。具體地說(shuō)，NetTrack利用點(diǎn)級(jí)視覺(jué)提示，構(gòu)建了與細(xì)粒度網(wǎng)絡(luò)的動(dòng)態(tài)感知關(guān)聯(lián)。相應(yīng)地，結(jié)合了細(xì)粒采樣器和匹配方法。此外，NetTrack還學(xué)習(xí)對(duì)象與文本的對(duì)應(yīng)關(guān)系，以實(shí)現(xiàn)細(xì)粒度本地化。為了評(píng)估MOT在極其動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中的性能，構(gòu)建了一個(gè)鳥(niǎo)群跟蹤(BFT)數(shù)據(jù)集，該數(shù)據(jù)集在物種多樣性和開(kāi)放世界場(chǎng)景下表現(xiàn)出高度的動(dòng)態(tài)性。對(duì)BFT的綜合評(píng)估驗(yàn)證了細(xì)粒度學(xué)習(xí)在對(duì)象動(dòng)態(tài)性上的有效性，并在TAO、TAO-OW、AnimalTrack和GMOT-40等開(kāi)放世界基準(zhǔn)測(cè)試上進(jìn)行了深入的遷移實(shí)驗(yàn)，驗(yàn)證了NetTrack即使在沒(méi)有微調(diào)的情況下也具有很強(qiáng)的泛化能力。

1 引言

多目標(biāo)跟蹤(MOT)的目的是在視頻和現(xiàn)實(shí)世界中保持對(duì)感興趣對(duì)象的連續(xù)視覺(jué)感知。傳統(tǒng)的MOT方法往往假設(shè)對(duì)象是粗粒度的實(shí)體，因?yàn)樵诮?jīng)典的MOT任務(wù)中，特定對(duì)象類別[10]和場(chǎng)景的動(dòng)態(tài)性并不顯著，并且對(duì)象內(nèi)部的關(guān)系相對(duì)穩(wěn)定。然而，在開(kāi)放世界MOT任務(wù)中跟蹤任意對(duì)象，特別是高動(dòng)態(tài)對(duì)象的需求嚴(yán)重挑戰(zhàn)了這一假設(shè)。

開(kāi)放世界物體的高度動(dòng)態(tài)性，表現(xiàn)為嚴(yán)重的變形、快速的運(yùn)動(dòng)和頻繁的遮擋，在兩個(gè)主要方面對(duì)現(xiàn)有的方法提出了挑戰(zhàn)：
1)關(guān)聯(lián)對(duì)于大多數(shù)方法來(lái)說(shuō)，僅僅依賴于粗粒度的視覺(jué)表示，高的動(dòng)態(tài)性使得時(shí)間連續(xù)性在關(guān)聯(lián)方面變得脆弱，因?yàn)閷?duì)象中的內(nèi)部關(guān)系被扭曲。這些方法通常將整個(gè)對(duì)象表示為粗粒度邊界框或相應(yīng)的特征，并且動(dòng)態(tài)性顯著降低了這些表示跨越不同時(shí)間步長(zhǎng)的相似性，如圖1-b所示。
2)本地化高度動(dòng)態(tài)化也對(duì)建立準(zhǔn)確的文本-對(duì)象對(duì)應(yīng)關(guān)系進(jìn)行本地化提出了挑戰(zhàn)。最新的(SOTA)方法通常在預(yù)訓(xùn)練中學(xué)習(xí)整個(gè)圖像和文本之間的粗粒度對(duì)應(yīng)。對(duì)于嚴(yán)重變形或遮擋的對(duì)象，這些方法通常難以定位。

圖1

在這項(xiàng)工作中，我們提出了NetTrack，引入細(xì)粒度學(xué)習(xí)來(lái)解決上述兩個(gè)方面的問(wèn)題。關(guān)于關(guān)聯(lián)，NetTrack利用對(duì)象外觀上的物理點(diǎn)，這些點(diǎn)不太容易受到對(duì)象動(dòng)態(tài)化的影響，并形成細(xì)粒度的視覺(jué)提示。對(duì)于定位，使用扎根的預(yù)訓(xùn)練來(lái)學(xué)習(xí)對(duì)象和文本之間的細(xì)粒度對(duì)應(yīng)。因此，我們的主要貢獻(xiàn)概述如下：

i. 用于動(dòng)態(tài)感知關(guān)聯(lián)的細(xì)粒度網(wǎng)絡(luò)而不是將對(duì)象視為粗粒度實(shí)體，該工作使用細(xì)粒度網(wǎng)絡(luò)跟蹤對(duì)象，該網(wǎng)絡(luò)利用對(duì)象外觀表面上的興趣點(diǎn)(POI)。形變等動(dòng)態(tài)性通過(guò)改變?nèi)窒鄬?duì)位置和外觀特征分布扭曲了POI之間的內(nèi)在關(guān)系，而點(diǎn)本身的細(xì)粒度表示，如局部外觀顏色和與鄰接點(diǎn)的關(guān)系，幾乎不受影響，并表現(xiàn)出健壯性，如圖1-b所示。根據(jù)這一觀點(diǎn)，我們?cè)O(shè)計(jì)了一個(gè)細(xì)粒度采樣器來(lái)發(fā)現(xiàn)潛在的POI，并利用這些點(diǎn)的細(xì)粒度視覺(jué)線索，以及新興的物理點(diǎn)跟蹤方法[12，22，28]，進(jìn)行穩(wěn)健的跟蹤。隨后，提出了一種簡(jiǎn)單有效的細(xì)粒度相似度計(jì)算方法來(lái)確定被跟蹤的POI與候選對(duì)象之間的包容關(guān)系。提出的細(xì)粒度相似度評(píng)分與已有的粗粒度相似度評(píng)分相結(jié)合，實(shí)現(xiàn)了更穩(wěn)健的動(dòng)態(tài)對(duì)象關(guān)聯(lián)。
ii. 用于動(dòng)態(tài)感知關(guān)聯(lián)的細(xì)粒度網(wǎng)絡(luò)而不是將對(duì)象視為粗粒度實(shí)體，該工作使用細(xì)粒度網(wǎng)絡(luò)跟蹤對(duì)象，該網(wǎng)絡(luò)利用對(duì)象外觀表面上的興趣點(diǎn)(POI)。形變等動(dòng)態(tài)性通過(guò)改變?nèi)窒鄬?duì)位置和外觀特征分布扭曲了POI之間的內(nèi)在關(guān)系，而點(diǎn)本身的細(xì)粒度表示，如局部外觀顏色和與鄰接點(diǎn)的關(guān)系，幾乎不受影響，并表現(xiàn)出健壯性，如圖1-b所示。根據(jù)這一觀點(diǎn)，我們?cè)O(shè)計(jì)了一個(gè)細(xì)粒度采樣器來(lái)發(fā)現(xiàn)潛在的POI，并利用這些點(diǎn)的細(xì)粒度視覺(jué)線索，以及新興的物理點(diǎn)跟蹤方法[12，22，28]，進(jìn)行穩(wěn)健的跟蹤。隨后，提出了一種簡(jiǎn)單有效的細(xì)粒度相似度計(jì)算方法來(lái)確定被跟蹤的POI與候選對(duì)象之間的包容關(guān)系。提出的細(xì)粒度相似度評(píng)分與已有的粗粒度相似度評(píng)分相結(jié)合，實(shí)現(xiàn)了更穩(wěn)健的動(dòng)態(tài)對(duì)象關(guān)聯(lián)。對(duì)象-文本對(duì)應(yīng)細(xì)粒度定位為了發(fā)現(xiàn)和定位跟蹤中高度動(dòng)態(tài)的對(duì)象，本工作采用預(yù)訓(xùn)練方法通過(guò)短語(yǔ)基礎(chǔ)[32，41，68]進(jìn)行跟蹤，以實(shí)現(xiàn)細(xì)粒度對(duì)象-文本對(duì)應(yīng)。與使用粗粒度圖文對(duì)應(yīng)的基于剪輯的跟蹤方法[23，34]相比，NetTrack可以更有效地區(qū)分高度動(dòng)態(tài)的對(duì)象，如圖2所示。此外，通過(guò)在框架內(nèi)嵌入描述符(圖2中的GPT-3.5[6])，所提出的框架學(xué)習(xí)上下文信息，例如提供的專業(yè)應(yīng)用和知識(shí)上下文，以減輕背景干擾，并實(shí)現(xiàn)用于高效動(dòng)態(tài)目標(biāo)跟蹤的實(shí)際應(yīng)用。
iii. 不同場(chǎng)景下的高動(dòng)態(tài)基準(zhǔn)測(cè)試和傳輸實(shí)驗(yàn)本工作引入了一個(gè)高動(dòng)態(tài)的開(kāi)放世界MOT數(shù)據(jù)集，名為鳥(niǎo)群跟蹤(BFT)，以評(píng)估跟蹤方法在跟蹤高動(dòng)態(tài)目標(biāo)方面的性能。BFT特別值得注意的是22種鳥(niǎo)類的復(fù)雜和不可預(yù)測(cè)的動(dòng)態(tài)，主要原因有三：
1)三維活動(dòng)空間造成的快速運(yùn)動(dòng)。
2)頻繁拍打翅膀造成的變形[37]。
3)由于鳥(niǎo)群中鳥(niǎo)類的集體行為而引起的閉塞[38，39]。
此外，BFT包括14個(gè)不同的開(kāi)放場(chǎng)景和106個(gè)序列中的22個(gè)物種，展示了豐富的多樣性，如圖1-c所示。經(jīng)測(cè)試，本文提出的NetTrack框架在跟蹤BFT中的高動(dòng)態(tài)目標(biāo)方面達(dá)到了SOTA性能。此外，全面的零鏡頭傳輸實(shí)驗(yàn)表明，NetTrack在幾個(gè)具有挑戰(zhàn)性的開(kāi)放世界 MOT基準(zhǔn)上超過(guò)了跟蹤基線，例如TAO、TAO-OW、AnimalTrack和GMOT-40。引入的細(xì)粒度學(xué)習(xí)有助于增強(qiáng)NetTrack的泛化能力，即使沒(méi)有細(xì)調(diào)。作為一個(gè)高效、通用且經(jīng)濟(jì)實(shí)惠的跟蹤框架，NetTrack在開(kāi)放世界應(yīng)用場(chǎng)景中也顯示出潛力，進(jìn)一步突顯了其對(duì)下游任務(wù)的適用性。

圖2

2. 相關(guān)工作

開(kāi)放世界多目標(biāo)跟蹤方法按檢測(cè)跟蹤是MOT中最流行的框架，它包括定位潛在目標(biāo)并隨著時(shí)間的推移將它們關(guān)聯(lián)起來(lái)。傳統(tǒng)的MOT方法通常關(guān)注有限的場(chǎng)景和對(duì)象類別，如公共場(chǎng)所的行人或自動(dòng)駕駛場(chǎng)景中的車輛。相比之下，開(kāi)放世界的跟蹤任務(wù)要求跟蹤者能夠在復(fù)雜和動(dòng)態(tài)的場(chǎng)景中跟蹤任何對(duì)象?；贑LIP的開(kāi)放場(chǎng)景目標(biāo)檢測(cè)的興起促進(jìn)了這一任務(wù)，促使先進(jìn)的開(kāi)放世界跟蹤基線利用CLIP風(fēng)格的預(yù)訓(xùn)練，通過(guò)利用文本和圖像之間的對(duì)應(yīng)關(guān)系來(lái)實(shí)現(xiàn)泛化。然而，這些主流的跟蹤方法通常將目標(biāo)視為粗粒度的包圍盒，但開(kāi)放世界對(duì)象的高動(dòng)態(tài)性往往會(huì)擾亂這種粗略表示的時(shí)間相似性。此外，與剪貼式預(yù)訓(xùn)練中使用的淺融合視覺(jué)語(yǔ)言特征相比，定位動(dòng)態(tài)對(duì)象通常需要在對(duì)象和文本之間建立細(xì)粒度的對(duì)應(yīng)關(guān)系，以抵消對(duì)象的外觀扭曲或損害。

最近出現(xiàn)的物理點(diǎn)跟蹤方法啟發(fā)了這項(xiàng)工作，引入了對(duì)象的細(xì)粒度視覺(jué)線索。這些方法的目標(biāo)是跟蹤視頻片段上的任意物理點(diǎn)，依賴于點(diǎn)級(jí)外觀表示，而不是粗略地傳播整個(gè)對(duì)象，因此有望保持對(duì)動(dòng)態(tài)對(duì)象的良好泛化。此外，基于短語(yǔ)基礎(chǔ)的預(yù)訓(xùn)練方法也被應(yīng)用于開(kāi)放集合對(duì)象檢測(cè)任務(wù)，由于對(duì)象級(jí)別、語(yǔ)言感知和語(yǔ)義豐富的視覺(jué)表示，預(yù)計(jì)其對(duì)于動(dòng)態(tài)對(duì)象跟蹤的潛在益處。

開(kāi)放世界多目標(biāo)跟蹤基準(zhǔn)經(jīng)典MOT基準(zhǔn)主要關(guān)注有限的對(duì)象類別和場(chǎng)景，其中對(duì)象通常保持穩(wěn)定的外觀或姿勢(shì)并經(jīng)歷相對(duì)簡(jiǎn)單的運(yùn)動(dòng)，例如跟蹤行人或車輛。隨著對(duì)開(kāi)放世界跟蹤應(yīng)用的需求不斷增加，關(guān)注更廣泛場(chǎng)景和對(duì)象類的MOT基準(zhǔn)應(yīng)運(yùn)而生。TAO在海量數(shù)據(jù)中包含大量看不見(jiàn)的對(duì)象，GMOT-40側(cè)重于跟蹤看不見(jiàn)的對(duì)象類別，AnimalTrack側(cè)重于跟蹤野生動(dòng)物。后來(lái)，TAO-OW在開(kāi)放世界的環(huán)境中定義了已知和未知的對(duì)象類別，Li等人也是如此。在開(kāi)放詞匯設(shè)置中，根據(jù)TAO基準(zhǔn)將對(duì)象類別劃分為基本對(duì)象類別和新奇對(duì)象類別。在各種開(kāi)放世界的MOT任務(wù)中，雖然學(xué)習(xí)看不見(jiàn)的課程是至關(guān)重要的，但這些看不見(jiàn)的物體潛在的嚴(yán)重變形和快速運(yùn)動(dòng)所產(chǎn)生的能動(dòng)性也同樣關(guān)鍵，需要進(jìn)行全面的評(píng)估。

3. 方法

提出的NetTrack框架引入了用于動(dòng)態(tài)感知對(duì)象關(guān)聯(lián)的細(xì)粒度網(wǎng)絡(luò)和用于動(dòng)態(tài)感知本地化的細(xì)粒度對(duì)象-文本對(duì)應(yīng)。
3.1描述了使用采樣和執(zhí)行關(guān)聯(lián)將對(duì)象組織成細(xì)粒度網(wǎng)絡(luò)。
3.2主要討論細(xì)粒度的對(duì)象-文本對(duì)應(yīng)如何對(duì)動(dòng)態(tài)對(duì)象的本地化產(chǎn)生積極影響。

3.1.細(xì)粒度網(wǎng)絡(luò)

所提出的動(dòng)態(tài)感知關(guān)聯(lián)利用細(xì)粒度網(wǎng)絡(luò)來(lái)構(gòu)建對(duì)象動(dòng)態(tài)的健壯視覺(jué)線索。它主要由細(xì)粒采樣器和匹配方法組成。整個(gè)過(guò)程如圖3所示。細(xì)粒度采樣器本工作引入點(diǎn)級(jí)視覺(jué)線索來(lái)形成具有興趣點(diǎn)(POI)的細(xì)粒度網(wǎng)絡(luò)。理想情況下，采樣POI應(yīng)該準(zhǔn)確地捕獲每個(gè)感興趣對(duì)象表面上的每個(gè)有價(jià)值的點(diǎn)，避免背景干擾或多余的計(jì)算負(fù)擔(dān)。一個(gè)簡(jiǎn)單的想法是對(duì)跟蹤對(duì)象框中的POI進(jìn)行采樣，并逐幀更新點(diǎn)。然而，這樣的方法可能會(huì)增加一定的計(jì)算負(fù)擔(dān)，忽略假陰性樣本，以及視覺(jué)上下文不足。因此，提出了一種用于交叉幀POI采樣的細(xì)粒度采樣器。

圖3

將POI的預(yù)期分布表示為f(X)，其中x表示圖像I中的點(diǎn)。對(duì)象運(yùn)動(dòng)基于卡爾曼濾波[27]來(lái)估計(jì)，如[4，5，7，71]。這種估計(jì)相當(dāng)于S畫框中某一時(shí)期小說(shuō)對(duì)象的粗略分布。然后，該分布可以被變換為點(diǎn)級(jí)別的形式，如p(x|T粗略o，{i}S i=1)，其中T粗略o是粗略估計(jì)的對(duì)象的粗粒度軌跡，p(·)是發(fā)現(xiàn)潛在POI的二進(jìn)制分布。這一分布是對(duì)POI進(jìn)行抽樣的重要權(quán)重。給定點(diǎn)數(shù)K，然后可以使用重要性抽樣[62]將預(yù)期POI表示為：

image.png

因此，利用點(diǎn)跟蹤模型在幀#t-1確定細(xì)粒度POI，并在幀#t估計(jì)細(xì)粒度POI。利用細(xì)粒度網(wǎng)絡(luò)進(jìn)行跟蹤的細(xì)粒度匹配需要基于時(shí)間相似性將記憶的POI與當(dāng)前檢測(cè)結(jié)果進(jìn)行匹配。在給定點(diǎn)跟蹤器模型Trp的情況下，可以在上述時(shí)間段內(nèi)獲得估計(jì)的點(diǎn)軌跡Tp。在獲得當(dāng)前幀#t的檢測(cè)結(jié)果Dt之后，細(xì)粒度匹配方法計(jì)算落在候選檢測(cè)框內(nèi)的網(wǎng)絡(luò)中的估計(jì)點(diǎn)的數(shù)量作為細(xì)粒度相似度。設(shè)N為幀#t?1中跟蹤對(duì)象的個(gè)數(shù)，N個(gè)網(wǎng){Pi}Ni=1和M個(gè)檢測(cè)盒{bj}Mj=1的匹配細(xì)粒度記分矩陣S的元素Si，j可表示為：

image.png

其中w是懲罰具有過(guò)大面積的候選檢測(cè)框的權(quán)重，因?yàn)檩^大的面積通常導(dǎo)致預(yù)測(cè)點(diǎn)容易落入框內(nèi)，從而導(dǎo)致潛在的誤判。|pi∩bj|指凈pi在bj內(nèi)定位的點(diǎn)數(shù)，如圖3所示為有效點(diǎn)數(shù)，|pi|為凈pi內(nèi)的點(diǎn)數(shù)。A(·)指的是框的面積，而?b是使用[27]在幀#t中預(yù)測(cè)的跟蹤對(duì)象的框。然后，結(jié)合粗粒度相似度得分，得到整體匹配得分。如圖3所示，對(duì)象的動(dòng)態(tài)性經(jīng)常導(dǎo)致聯(lián)合交集(IOU)中粗粒度相似度的降低，而細(xì)粒度關(guān)聯(lián)保持健壯。然后使用匈牙利算法[29]執(zhí)行匹配過(guò)程。算法1中描述了該方法的細(xì)節(jié)。

3.2.細(xì)粒度的對(duì)象-文本通信

為了學(xué)習(xí)用于定位的細(xì)粒度對(duì)象-文本對(duì)應(yīng)，該工作引入了一種基于短語(yǔ)基礎(chǔ)的預(yù)訓(xùn)練策略來(lái)跟蹤動(dòng)態(tài)對(duì)象，并通過(guò)深度融合文本和對(duì)象特征來(lái)緩解對(duì)象動(dòng)力學(xué)的不利影響。與使用基于CLIP[54]的預(yù)訓(xùn)練的SOTA跟蹤方法[23，34]不同，我們遵循[32，41，68]來(lái)識(shí)別句子中的短語(yǔ)與圖像中的對(duì)象之間的對(duì)應(yīng)關(guān)系，從而形成細(xì)粒度的對(duì)象-文本對(duì)應(yīng)關(guān)系。在給定輸入圖像I和語(yǔ)言提示P的情況下，可以分別利用視覺(jué)編碼器EncV和語(yǔ)言編碼器EncL來(lái)獲得對(duì)應(yīng)的對(duì)象特征FO和語(yǔ)言特征FL。然后，通過(guò)深度融合得到F‘O和F’L兩個(gè)特征，進(jìn)而得到目標(biāo)-文本對(duì)應(yīng)分?jǐn)?shù)Sround。此過(guò)程的公式為：

image.png

從視覺(jué)的角度來(lái)看，細(xì)粒度的對(duì)象-文本對(duì)應(yīng)增強(qiáng)了對(duì)視覺(jué)特征的語(yǔ)言意識(shí)，從而能夠更好地識(shí)別變形的對(duì)象。從語(yǔ)言的觀點(diǎn)來(lái)看，這種對(duì)應(yīng)在預(yù)訓(xùn)練期間學(xué)習(xí)單詞或子句級(jí)別的上下文表示[41]，避免由不必要的單詞交互引起的偏見(jiàn)。所提議的框架還允許利用嵌入的描述符(例如，大型語(yǔ)言模型[6，52])更詳細(xì)地理解對(duì)象。因此，這種細(xì)粒度的通信更適合于在專業(yè)場(chǎng)景中捕獲更具體的上下文信息，如圖2。

4. BFT數(shù)據(jù)集

數(shù)據(jù)采集 。這通常導(dǎo)致鳥(niǎo)群在有限的空間內(nèi)密集分布，使其在視覺(jué)上容易受到遮擋。除了前述的動(dòng)態(tài)挑戰(zhàn)外，鳥(niǎo)類往往成群出現(xiàn)相似的外觀，這也增加了視覺(jué)辨別的難度。數(shù)據(jù)收集鳥(niǎo)群是開(kāi)放世界中最具活力的跟蹤對(duì)象之一，因此被認(rèn)為是這項(xiàng)工作的理想主題。鳥(niǎo)類的能動(dòng)性主要?dú)w因于三個(gè)現(xiàn)象：
1)鳥(niǎo)群由于具有三維的活動(dòng)空間和額外的自由度，比地面物體表現(xiàn)出更高的機(jī)動(dòng)性。此外，鳥(niǎo)類的慣性較小，可以更靈活地加速、減速和改變方向。復(fù)雜的空氣動(dòng)力學(xué)效應(yīng)也使得飛行鳥(niǎo)群的運(yùn)動(dòng)更加難以預(yù)測(cè)。
2)鳥(niǎo)類在飛行過(guò)程中通常會(huì)經(jīng)歷頻繁而強(qiáng)烈的變形，主要是由于拍翼[37]。
3)集體行為[38，39]在許多鳥(niǎo)群中廣泛存在。這通常導(dǎo)致鳥(niǎo)群在有限的空間內(nèi)密集分布，使其在視覺(jué)上容易受到遮擋。除了前述的動(dòng)態(tài)挑戰(zhàn)外，鳥(niǎo)類往往成群出現(xiàn)相似的外觀，這也增加了視覺(jué)辨別的難度。

為了展示開(kāi)放世界場(chǎng)景的多樣性和物種的多樣性，BFT數(shù)據(jù)集包括22種鳥(niǎo)類和14個(gè)常見(jiàn)的自然和文化場(chǎng)景，覆蓋六大洲，如圖4-a和圖1-c所示。圖7中有詳細(xì)對(duì)應(yīng)的鳥(niǎo)類目、科、屬和種。主要數(shù)據(jù)來(lái)源是BBC自然紀(jì)錄片系列地球飛行[25]。從大約6個(gè)小時(shí)的視頻中提取了106個(gè)精心挑選的片段，進(jìn)一步將其分為35個(gè)視頻的訓(xùn)練集、25個(gè)視頻的驗(yàn)證集和36個(gè)視頻的測(cè)試集。所有數(shù)據(jù)都經(jīng)過(guò)了專家的細(xì)致批注和跟蹤領(lǐng)域?qū)＜业亩噍唽彶?，以及生物領(lǐng)域?qū)＜业暮藢?shí)。視頻和注釋的幀速率通常被設(shè)置為每秒25幀(FPS)。

圖4

高動(dòng)態(tài)：BFT的高動(dòng)態(tài)包括更嚴(yán)重的變形、更快的運(yùn)動(dòng)和更頻繁的閉塞。定量地，圖4-b，c從兩個(gè)方面比較了BFT與其他開(kāi)放世界MOT數(shù)據(jù)集[1，8，69]的動(dòng)態(tài)性。具體地說(shuō)，縱橫比變化(ARC)[15，51]是常用的跟蹤屬性，其測(cè)量對(duì)象變形或遮擋的頻率和嚴(yán)重程度。對(duì)象運(yùn)動(dòng)是測(cè)量對(duì)象在兩個(gè)連續(xù)時(shí)間步長(zhǎng)之間的位移的另一個(gè)屬性。詳細(xì)統(tǒng)計(jì)數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散，運(yùn)動(dòng)分布的值更大，與其他數(shù)據(jù)集相比，BFT表現(xiàn)出更強(qiáng)的動(dòng)態(tài)性。5.實(shí)驗(yàn)本實(shí)驗(yàn)部分旨在驗(yàn)證本工作的以下核心結(jié)論：1)開(kāi)放世界物體的高度動(dòng)態(tài)化給MOT帶來(lái)了巨大的挑戰(zhàn)。2)NetTrack在處理動(dòng)態(tài)對(duì)象方面表現(xiàn)突出，在各種OpenWorld跟蹤數(shù)據(jù)集上表現(xiàn)出很強(qiáng)的泛化能力，而不需要精調(diào)。3)與粗粒度方法相比，提出的細(xì)粒度學(xué)習(xí)方法對(duì)動(dòng)態(tài)目標(biāo)的跟蹤具有更強(qiáng)的泛化能力。5.1.利用設(shè)置數(shù)據(jù)集BFT來(lái)評(píng)估跟蹤器在高度動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中的性能。在零射擊遷移評(píng)估中，使用了大規(guī)模TAO-OW[42]和TAO[8]的驗(yàn)證集來(lái)進(jìn)行廣泛的泛化能力評(píng)估。具體地說(shuō)，TAO的評(píng)估遵循[34]中的描述，其中對(duì)基本類別和新類別采用開(kāi)放詞匯設(shè)置，并評(píng)估跟蹤器的分類能力。新奇類是在LVIS[20]數(shù)據(jù)集中定義為REARE的類。不同的是，TAO-OW的對(duì)象類根據(jù)它們是否屬于COCO[36]中的80個(gè)類別來(lái)劃分為已知和未知。在消融實(shí)驗(yàn)中，除了TAO和TAO-OW外，還包括AnimalTrack[69]和GMOT-40[1]作為參考，并在TAO-OW之后的開(kāi)放世界環(huán)境中進(jìn)行評(píng)估。關(guān)于AnimalTrack，10個(gè)班級(jí)中有8個(gè)不屬于可可類別。同樣，在GMOT-40的18個(gè)等級(jí)中，有12個(gè)等級(jí)是高動(dòng)態(tài)的比例。BFT的高動(dòng)態(tài)包括更嚴(yán)重的變形、更快的運(yùn)動(dòng)和更頻繁的閉塞。定量地，圖4-b，c從兩個(gè)方面比較了BFT與其他開(kāi)放世界MOT數(shù)據(jù)集[1，8，69]的動(dòng)態(tài)性。具體地說(shuō)，縱橫比變化(ARC)[15，51]是常用的跟蹤屬性，其測(cè)量對(duì)象變形或遮擋的頻率和嚴(yán)重程度。對(duì)象運(yùn)動(dòng)是測(cè)量對(duì)象在兩個(gè)連續(xù)時(shí)間步長(zhǎng)之間的位移的另一個(gè)屬性。詳細(xì)統(tǒng)計(jì)數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散，運(yùn)動(dòng)分布的值更大，與其他數(shù)據(jù)集相比，BFT表現(xiàn)出更強(qiáng)的動(dòng)態(tài)性。

5. 實(shí)驗(yàn)

本實(shí)驗(yàn)部分旨在驗(yàn)證本工作的以下核心結(jié)論：
1)開(kāi)放世界物體的高度動(dòng)態(tài)化給MOT帶來(lái)了巨大的挑戰(zhàn)。
2)NetTrack在處理動(dòng)態(tài)對(duì)象方面表現(xiàn)突出，在各種開(kāi)放跟蹤數(shù)據(jù)集上表現(xiàn)出很強(qiáng)的泛化能力，而不需要精調(diào)。
3)與粗粒度方法相比，提出的細(xì)粒度學(xué)習(xí)方法對(duì)動(dòng)態(tài)目標(biāo)的跟蹤具有更強(qiáng)的泛化能力。

5.1 設(shè)置

數(shù)據(jù)集 BFT來(lái)評(píng)估跟蹤器在高度動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中的性能。在零樣本遷移評(píng)估中，使用了大規(guī)模TAO-OW[42]和TAO[8]的驗(yàn)證集來(lái)進(jìn)行廣泛的泛化能力評(píng)估。具體而言，TAO的評(píng)估遵循[34]中的描述，其中對(duì)基礎(chǔ)類別和新類別采用開(kāi)放詞匯設(shè)置，并評(píng)估跟蹤器的分類能力。新類別是在LVIS數(shù)據(jù)集中定義為罕見(jiàn)的類別[20]。目前，TAO—OW的對(duì)象類根據(jù)它們是否屬于COCO中的80個(gè)類別分為已知和未知[36]。在消融實(shí)驗(yàn)中，除TAO和TAO—OW外，還包括AnimalTrack [69]和GMOT—40 [1]作為參考，并在TAO—OW后在開(kāi)放世界環(huán)境中進(jìn)行評(píng)價(jià)。關(guān)于AnimalTrack，10個(gè)課程中有8個(gè)不在COCO類別之內(nèi)。同樣，GMOT—40中的18個(gè)類別中有12個(gè)不屬于COCO類別。

評(píng)估 開(kāi)放世界跟蹤精度（OWTA）[42]是為TAO-OW提出的開(kāi)放世界MOT度量，是我們實(shí)驗(yàn)中的主要度量。OWTA評(píng)估兩個(gè)檢測(cè)召回（D。Re.）和關(guān)聯(lián)準(zhǔn)確性（A.Acc.），分別檢測(cè)精度（D.Acc.），檢測(cè)精度（D.Pr.），聯(lián)想回憶（A.Re.），和關(guān)聯(lián)精度（A.（Pr.）是參考指標(biāo)。TETA [33]旨在評(píng)估多類別對(duì)象，并用于在開(kāi)放詞匯設(shè)置下評(píng)估TAO數(shù)據(jù)集。在TETA中計(jì)算定位評(píng)分（LocA）和關(guān)聯(lián)評(píng)分（AssocA）。HOTA [44]，MOTA [3]和IDF 1 [56]是用于與BFT上的經(jīng)典MOT方法進(jìn)行比較的經(jīng)典指標(biāo)，并可作為參考。所有評(píng)價(jià)過(guò)程均采用TrackEval [26]。

實(shí)現(xiàn)細(xì)節(jié) 在NetTrack中，粗粒度關(guān)聯(lián)從BYTE [71]中調(diào)整，默認(rèn)點(diǎn)跟蹤器從在TAP-VidKubric [11]上預(yù)訓(xùn)練的CoTracker [28]中調(diào)整。默認(rèn)情況下，跟蹤步幅為8，丟失的軌跡保留30幀，初始化點(diǎn)采樣的網(wǎng)格為（3，3）。默認(rèn)檢測(cè)器是GroundingDINO [41]與Swin-B [43]骨干，它在COCO [36]，O365 [58]等上進(jìn)行了預(yù)訓(xùn)練。為了以開(kāi)放世界MOT應(yīng)用程序負(fù)擔(dān)得起的方式驗(yàn)證NetTrack的泛化能力，所有評(píng)估的基準(zhǔn)測(cè)試都不需要額外的訓(xùn)練。BFT上公開(kāi)的SoTA跟蹤器的微調(diào)和評(píng)估遵循其默認(rèn)設(shè)置。

5.2.高動(dòng)態(tài)評(píng)估

Tab 1 中提供了NetTrack和其他SoTA跟蹤器在高度動(dòng)態(tài)BFT上的綜合評(píng)估。評(píng)估分為兩個(gè)主要部分：a）使用閉集跟蹤器對(duì)BFT數(shù)據(jù)集進(jìn)行微調(diào)。b）開(kāi)放世界MOT條件，其涉及在零激發(fā)設(shè)置下的跟蹤。為了確保在開(kāi)放世界場(chǎng)景的高度動(dòng)態(tài)挑戰(zhàn)中對(duì)跟蹤器性能進(jìn)行公平評(píng)估，開(kāi)放世界條件下的所有文本提示都只包括“鳥(niǎo)”，這與COCO數(shù)據(jù)集中用于訓(xùn)練閉集跟蹤器的類別一致。實(shí)驗(yàn)結(jié)果主要表明：1）即使在零拍開(kāi)放世界跟蹤設(shè)置中，NetTrack也能獲得比SoTA微調(diào)的閉集跟蹤器更上級(jí)的性能。與最佳微調(diào)結(jié)果相比，NetTrack在OWTA上提高了1.3分，證實(shí)了所提出的框架的零射擊泛化能力。2)與微調(diào)后的結(jié)果（線912）相比，閉集跟蹤器在高度動(dòng)態(tài)的開(kāi)放世界場(chǎng)景中表現(xiàn)出次優(yōu)的零次泛化能力（線13、14、17、18），在OWTA上平均下降16%，在HOTA上平均下降15%，在MOTA上平均下降21%，這表明閉集跟蹤器對(duì)開(kāi)放世界中的動(dòng)態(tài)對(duì)象具有次優(yōu)的泛化能力。3)NetTrack鼓勵(lì)將潛在的感興趣對(duì)象關(guān)聯(lián)起來(lái)，并將檢測(cè)召回率提高了3.4個(gè)點(diǎn)。這也導(dǎo)致更多的假陽(yáng)性樣本，并增加了壓力的關(guān)聯(lián)與輕微下降的A。然而，與最好的粗粒度關(guān)聯(lián)方法（第24—27行）相比，綜合OWTA提升了1.6分。

Tab 1

5.3.零樣本遷移評(píng)估

開(kāi)放詞匯表設(shè)置上的零樣本遷移。Tab 2在開(kāi)放詞匯MOT評(píng)估的TAO上實(shí)現(xiàn)了零樣本遷移。OVTrack [34]是在從LVIS [20]生成的數(shù)據(jù)集上訓(xùn)練的，該數(shù)據(jù)集與TAO具有高度的類一致性。與微調(diào)跟蹤器相比，NetTrack顯著提高了跟蹤分類精度，并實(shí)現(xiàn)了強(qiáng)大的零樣本跟蹤精度。雖然NetTrack由于缺乏微調(diào)而容易受到大量假陽(yáng)性樣本的影響，這使得它在基礎(chǔ)類中的LocA和AssocA的評(píng)估中處于略微劣勢(shì)，但所提出的框架實(shí)現(xiàn)了ClsA的11.8點(diǎn)增加，LocA的2.5點(diǎn)增加，新類中的AssocA相當(dāng)，以及整體TETA的4.5點(diǎn)增加，進(jìn)一步展示了其競(jìng)爭(zhēng)性的推廣能力。開(kāi)放世界設(shè)置上的零樣本遷移NetTrack在TAO-OW [42]基準(zhǔn)測(cè)試中的零樣本泛化在Tab3中演示。除了NetTrack之外，所有跟蹤器都對(duì)已知的TAOOW訓(xùn)練集進(jìn)行了微調(diào)。與微調(diào)SoTA跟蹤器相比，NetTrack在已知類別上實(shí)現(xiàn)了最佳性能。和地方Re.類似于開(kāi)放世界跟蹤基線（OWTB）[42]，A.Acc.超過(guò)基線3.6分，證實(shí)了動(dòng)態(tài)感知聯(lián)想的泛化能力。同樣，A.Acc.仍然近似于視頻OWL-ViT [23]，D.Re.顯示出8.4分的改進(jìn)，驗(yàn)證了細(xì)粒度定位的有效性。在未知類上，假陽(yáng)性樣本的引入導(dǎo)致A的略微下降。Acc.，但總體OWTA性能仍具有競(jìng)爭(zhēng)力，提高了5.3分。

Tab 2

Tab 3

5.4.消融

細(xì)粒度網(wǎng)的一般性 在Tab 4、Tab 5，顯示了TAO [8]，TAO-OW [42]，AnimalTrack [69]和GMOT 40 [1]上與細(xì)粒度Nets和粗粒度方法的擬議關(guān)聯(lián)之間的比較。由于所提出的框架鼓勵(lì)在開(kāi)放世界場(chǎng)景中發(fā)現(xiàn)更多潛在的對(duì)象，NetTrack在LocA和D方面取得了顯著的改進(jìn)。Re.在四個(gè)基準(zhǔn)測(cè)試中對(duì)可見(jiàn)和不可見(jiàn)的類進(jìn)行測(cè)試。特別是D.Re.與第二好的性能相比，TAO-OW上未知類的性能顯著提高了18.2分，證實(shí)了其強(qiáng)大的泛化能力。雖然假陽(yáng)性樣本的引入導(dǎo)致AssoA和A略有下降。Acc，整體TETA和OWTA在可見(jiàn)和不可見(jiàn)類中都有顯著改善。

Tab 4 和 Tab 5

具有可拆卸模塊的堅(jiān)固框架. 為了驗(yàn)證所提出的框架的通用性，圖5示出了對(duì)可拆卸模塊的消融研究，包括開(kāi)集定位方法和點(diǎn)跟蹤器。具體而言，定位方法表示為GLIP [32] I、接地DINO [41] II，點(diǎn)跟蹤器表示為PIP [22] a、TAPIR [12] B、CoTracker [28] c。接地DINO和CoTracker的組合表示為II. c，并作為默認(rèn)設(shè)置。在比較定位能力時(shí)，兩種方法在D。Re.但[32]在A中表現(xiàn)出輕微的性能不足。由于引入了更多的假陽(yáng)性，ACC和整體OWTA。類似地，三點(diǎn)跟蹤器表現(xiàn)出近似優(yōu)異的性能?？傮w而言，模塊的變化不會(huì)顯著降低整體性能，從而驗(yàn)證了所提出的框架的良好的泛化能力。

圖5

針對(duì)幀速率丟失的穩(wěn)定性. 在開(kāi)放世界跟蹤的實(shí)際應(yīng)用中，特別是在與邊緣設(shè)備[40]相關(guān)的場(chǎng)景中，由于需要減少計(jì)算負(fù)荷或節(jié)省能源，經(jīng)常會(huì)遇到視頻幀速率降低的情況，這進(jìn)一步加劇了開(kāi)放世界對(duì)象的動(dòng)態(tài)性帶來(lái)的挑戰(zhàn)。圖6示出了在從默認(rèn)幀速率(25FPS)到十分之一(3FPS)的降低的幀速率下對(duì)BFT數(shù)據(jù)集的跟蹤性能。與其他關(guān)聯(lián)方法[4，7，71]相比，NetTrack在幀速率降低的情況下表現(xiàn)出了良好的穩(wěn)定性。這進(jìn)一步說(shuō)明了該框架的泛化性能。

圖6

6.結(jié)論

針對(duì)開(kāi)放世界MOT的高動(dòng)態(tài)性，提出了NetTrack學(xué)習(xí)細(xì)粒度目標(biāo)線索的方法。具體而言，細(xì)粒度的視覺(jué)線索和對(duì)象的文本對(duì)應(yīng)關(guān)系的動(dòng)態(tài)感知的關(guān)聯(lián)和定位。這項(xiàng)工作還提出了一個(gè)高度動(dòng)態(tài)的開(kāi)放世界的MOT基準(zhǔn)，BFT，和廣泛的評(píng)估與SoTA跟蹤器證明了所提出的NetTrack跟蹤動(dòng)態(tài)對(duì)象的有效性。此外，在幾個(gè)具有挑戰(zhàn)性的開(kāi)放世界MOT基準(zhǔn)測(cè)試上進(jìn)行的大量遷移實(shí)驗(yàn)驗(yàn)證了NetTrack的強(qiáng)大泛化能力，無(wú)需微調(diào)。對(duì)局限性的分析表明，更精簡(jiǎn)的端到端方式和過(guò)濾假陽(yáng)性樣本有希望進(jìn)一步改進(jìn)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

NetTrack：使用網(wǎng)絡(luò)跟蹤高度動(dòng)態(tài)的對(duì)象

NetTrack：使用網(wǎng)絡(luò)跟蹤高度動(dòng)態(tài)的對(duì)象

摘要

1 引言

2. 相關(guān)工作

3. 方法

3.1.細(xì)粒度網(wǎng)絡(luò)

3.2.細(xì)粒度的對(duì)象-文本通信

4. BFT數(shù)據(jù)集

5. 實(shí)驗(yàn)

5.1 設(shè)置

5.2.高動(dòng)態(tài)評(píng)估

5.3.零樣本遷移評(píng)估

5.4.消融

6.結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

NetTrack：使用網(wǎng)絡(luò)跟蹤高度動(dòng)態(tài)的對(duì)象

摘要

1 引言

2. 相關(guān)工作

3. 方法

3.1.細(xì)粒度網(wǎng)絡(luò)

3.2.細(xì)粒度的對(duì)象-文本通信

4. BFT數(shù)據(jù)集

5. 實(shí)驗(yàn)

5.1 設(shè)置

5.2.高動(dòng)態(tài)評(píng)估

5.3.零樣本遷移評(píng)估

5.4.消融

6.結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av