SlowFast

SlowFast

https://arxiv.org/pdf/1812.03982v3.pdf

https://hub.fastgit.org/facebookresearch/SlowFast

我們提出了用于視頻識(shí)別的SlowFast網(wǎng)絡(luò)。我們的模型包括:(i)一個(gè)Slow路徑,以低幀速率操作,以捕捉空間語(yǔ)義;(ii)一個(gè)Fast路徑,以高幀速率操作,以精細(xì)的時(shí)間分辨率捕捉運(yùn)動(dòng)??焖俾窂娇梢酝ㄟ^減少信道容量(reducing its channel capacity)而變得非常輕量級(jí),同時(shí)還可以學(xué)習(xí)有用的時(shí)間信息用于視頻識(shí)別。我們的模型在動(dòng)作分類和視頻檢測(cè)兩方面都取得了很好的性能,而我們的SlowFast概念為我們提供了很大的改進(jìn)。我們報(bào)告最先進(jìn)的準(zhǔn)確性主要視頻識(shí)別基準(zhǔn):Kinetics, Charades和AVA。代碼已在以下位置提供:https://github.com/facebookresearch/SlowFast

1. 引言

在圖像識(shí)別中,通常對(duì)兩個(gè)空間維xy對(duì)稱處理。這是由自然圖像的統(tǒng)計(jì)來(lái)證明的,對(duì)于第一近似,各向同性的所有方向都是同樣可能的,并且具有平移不變[41,26]。但是視頻信號(hào)I(x,y,t)呢?運(yùn)動(dòng)是方向[2]的時(shí)空對(duì)應(yīng)物,但所有時(shí)空方向的可能性不盡相同。慢動(dòng)作比快速運(yùn)動(dòng)更可能(事實(shí)上我們看到的世界上大多數(shù)人在某一時(shí)刻處于靜止?fàn)顟B(tài)),這在貝葉斯描述人類如何感知運(yùn)動(dòng)刺激中得到了利用[58]。例如,如果我們孤立地看到一個(gè)運(yùn)動(dòng)邊緣,我們會(huì)感覺它是垂直于自身的運(yùn)動(dòng),即使在原則上它也可以有一個(gè)與自身相切的任意運(yùn)動(dòng)分量(光流中的孔徑問題)。如果先驗(yàn)的感覺偏向緩慢的動(dòng)作,這種感覺是合理的。(Motion is the spatiotemporal counterpart of orientation [2], but all spatiotemporal orientations are not equally likely. Slow motions are more likely than fast motions (indeed most of the world we see is at rest at a givenmoment) and this has been exploited in Bayesian accounts of how humans perceive motion stimuli [58]. For example, if we see a moving edge in isolation, we perceive it as moving perpendicular to itself, even though in principle it could also have an arbitrary component of movement tangential toitself (the aperture problem in optical flow). This percept is rational if the prior favors slow movements.)

如果所有時(shí)空方向的可能性不相等,那么我們就沒有理由對(duì)稱地對(duì)待時(shí)空,就像基于時(shí)空卷積的視頻識(shí)別方法中隱含的那樣[49,5]。我們可以將結(jié)構(gòu)的“因素”作為一個(gè)因素,分別處理空間結(jié)構(gòu)和時(shí)間事件。具體而言,讓我們?cè)谡J(rèn)知的語(yǔ)境中研究這一點(diǎn)。視覺內(nèi)容的范疇空間語(yǔ)義往往發(fā)展緩慢。例如,揮手在揮手動(dòng)作的跨度上不會(huì)改變自己作為“手”的身份,一個(gè)人即使可以從走路過渡到跑步,也始終處于“人”范疇。因此,分類語(yǔ)義(以及它們的顏色、紋理、燈光等)的識(shí)別可以相對(duì)緩慢地刷新。另一方面,正在執(zhí)行的動(dòng)作可以比他們的主體身份進(jìn)化得快得多,例如拍手、揮手、顫抖、走路或跳躍。利用快速刷新幀(高時(shí)間分辨率)對(duì)潛在的快速變化運(yùn)動(dòng)進(jìn)行有效建模是一種理想的方法。(If all spatiotemporal orientations are not equally likely, then there is no reason for us to treat space and time sym-metrically, as is implicit in approaches to video recognition based on spatiotemporal convolutions [49, 5]. We might instead “factor” the architecture to treat spatial structures and temporal events separately. For concreteness, let us study this in the context of recognition. The categorical spatial semantics of the visual content often evolveslowly.For example, waving hands do not change their identity as“hands” over the span of the waving action, and a person is always in the “person” category even though he/she can transit from walking to running. So the recognition of the cat-egorical semantics (as well as their colors, textures, lighting etc.) can be refreshed relatively slowly. On the other hand, the motion being performed can evolve much faster than their subject identities, such as clapping, waving, shaking, walking, or jumping. It can be desired to usefast refreshing frames (high temporal resolution) to effectively model the potentiallyfast changing motion.)

基于這種直覺,我們提出了一種用于視頻識(shí)別的雙路徑SlowFast模型(圖1)。一種方法是捕獲圖像或少數(shù)稀疏幀(images or a few sparse frames)所提供的語(yǔ)義信息,并以低幀速和緩慢的刷新速度運(yùn)行(it operates at low frame rates andslowrefreshing speed)。相反,另一條路徑負(fù)責(zé)捕捉快速變化的運(yùn)動(dòng),通過以快速刷新速度和高時(shí)間分辨率運(yùn)行。盡管它的時(shí)間速率很高,但這條通路非常輕量,例如,大約占總計(jì)算量的20%。這是因?yàn)樵撀窂皆O(shè)計(jì)為具有較少的通道和較弱的處理空間信息的能力,而這些信息可以由第一路徑以較少冗余的方式提供。我們稱第一條是慢路徑,第二條是快路徑,由于兩者不同的時(shí)域速度。這兩條通路通過橫向連接融合。

圖1。SlowFast網(wǎng)絡(luò)具有低幀速率、低時(shí)間分辨率的慢速路徑和高幀速率、高時(shí)間分辨率(\alpha \times )的快速路徑。通過使用一部分(β,例如1/8)通道,快速通道是輕量級(jí)的。橫向連接融合;兩者

我們的概念理念導(dǎo)致了靈活有效的視頻模型設(shè)計(jì)。快速路徑由于其輕量級(jí)特性,不需要執(zhí)行任何時(shí)域池化,它可以在所有中間層的高幀率下運(yùn)行(it can operate on high frame rates for all intermediate layers and maintain temporal fidelity),并保持時(shí)間保真度。同時(shí),由于時(shí)間速率較低,慢路徑可以更關(guān)注空間域和語(yǔ)義。通過以不同的時(shí)間速率處理原始視頻,我們的方法允許這兩條路徑在視頻建模方面擁有各自的專長(zhǎng)。

還有另一個(gè)眾所周知的視頻識(shí)別體系結(jié)構(gòu),它有兩流設(shè)計(jì)two-stream design[44],但提供了概念上不同的視角。雙流方法[44]沒有探索不同時(shí)間速度的潛力,這是我們方法中的一個(gè)關(guān)鍵概念。兩流方法對(duì)兩個(gè)流采用相同的主干結(jié)構(gòu),而我們的快速路徑則更輕。我們的方法不計(jì)算光流,因此,我們的模型是從原始數(shù)據(jù)端到端學(xué)習(xí)的。在實(shí)驗(yàn)中,我們觀察到SlowFast網(wǎng)絡(luò)在經(jīng)驗(yàn)上更有效。

我們的方法部分是受到靈長(zhǎng)類視覺系統(tǒng)中視網(wǎng)膜神經(jīng)節(jié)細(xì)胞生物學(xué)研究的啟發(fā)[27,37,8,14,51],盡管無(wú)可否認(rèn),這種類比是粗糙和不成熟的。這些研究發(fā)現(xiàn)在這些細(xì)胞中,~80%是小細(xì)胞(P細(xì)胞)和~15-20%為大細(xì)胞(M細(xì)胞)。M細(xì)胞在高時(shí)間頻率下工作,對(duì)快速的時(shí)間變化有反應(yīng),但對(duì)空間細(xì)節(jié)或顏色不敏感。P細(xì)胞提供精細(xì)的空間細(xì)節(jié)和顏色,但時(shí)間分辨率較低,對(duì)刺激反應(yīng)緩慢。我們的框架是類似的:(i)我們的模型有兩個(gè)路徑分別工作在低和高時(shí)間分辨率(ii)我們的快速通道設(shè)計(jì)用于捕捉快速變化的運(yùn)動(dòng),但空間細(xì)節(jié)較少,類似于M細(xì)胞;(iii)我們的快速通道是輕量的,類似于小比例的M細(xì)胞。我們希望這些關(guān)系能啟發(fā)更多的計(jì)算機(jī)視覺模型用于視頻識(shí)別。

我們?cè)贙inetics-400[30]、Kinetics-600[3]、Charades[43]和AVA[20]數(shù)據(jù)集上評(píng)估了我們的方法。我們?cè)贙inetics行為分類上的綜合消融實(shí)驗(yàn)證明了SlowFast的有效性。SlowFast網(wǎng)絡(luò)在所有數(shù)據(jù)集上建立了一個(gè)新的最新狀態(tài),與文獻(xiàn)中以前的系統(tǒng)相比有顯著的改進(jìn)。

2.相關(guān)工作

時(shí)空濾波。動(dòng)作可以表示為時(shí)空對(duì)象,并通過時(shí)空中的定向過濾來(lái)捕獲(Spatiotemporal filtering.Actions can be formulated as spatiotemporal objects and captured by oriented filter-ing in spacetime),就像HOG3D[31]和cuboids[10]所做的那樣。3D ConvNets[48,49,5]將2D圖像模型[32,45,47,24]擴(kuò)展到時(shí)空域,以類似方式處理空間和時(shí)間維度。還有一些相關(guān)方法側(cè)重于使用時(shí)間步長(zhǎng)進(jìn)行長(zhǎng)期濾波和合并[52、13、55、62],以及將卷積分解為單獨(dú)的二維空間和一維時(shí)間濾波器[12、50、61、39]。

除了時(shí)空過濾或它們的可分離版本之外,我們的工作通過使用兩種不同的時(shí)間速度來(lái)追求對(duì)建模專業(yè)知識(shí)的更徹底的分離。

用于視頻識(shí)別的光流。有一個(gè)經(jīng)典的研究分支集中在基于光流的手工時(shí)空特征上。這些方法,包括流直方圖[33]、運(yùn)動(dòng)邊界直方圖[6]和軌跡圖[53],在深度學(xué)習(xí)盛行之前,在動(dòng)作識(shí)別方面表現(xiàn)出了競(jìng)爭(zhēng)性的表現(xiàn)。在深層神經(jīng)網(wǎng)絡(luò)的背景下,雙流方法[44]通過將光流視為另一種輸入模式來(lái)利用光流。該方法已成為文獻(xiàn)〔12, 13, 55〕中許多競(jìng)爭(zhēng)性結(jié)果的基礎(chǔ)。然而,考慮到光流是手工設(shè)計(jì)的表示,并且兩流方法通常不能與光流一起端到端地學(xué)習(xí),因此在方法上是不令人滿意的。

3. SlowFast網(wǎng)絡(luò)

SlowFast網(wǎng)絡(luò)可以被描述為在兩種不同幀速率下運(yùn)行的單流結(jié)構(gòu),但是我們使用路徑的概念來(lái)反映與生物小細(xì)胞和大細(xì)胞對(duì)應(yīng)物的相似性。我們的通用架構(gòu)有一個(gè)緩慢的路徑(3.1節(jié))和快速路徑(3.2節(jié)),兩者通過橫向連接融合(3.3節(jié))。圖1說明了我們的概念。

3.1. 慢路徑

慢路徑可以是任何卷積模型(例如,[12,49,5,56]),其作為時(shí)空體積在視頻片段上工作(works on a clip of video as a spatiotem-poral volume)。我們慢路徑的關(guān)鍵概念是在輸入幀上一個(gè)大的時(shí)間步長(zhǎng)τ ,即它只處理1/τ 的幀。τ 的典型值我們研究的是16,這個(gè)刷新速度大約是,對(duì)于30fps的視頻,每秒采樣2幀。慢路徑采樣的幀數(shù)為T,原始幀數(shù)為T× τ 。

3.2. 快路徑

與慢路徑平行,快路徑是另一個(gè)具有以下性質(zhì)的卷積模型。

高幀速率。

我們的目標(biāo)是在時(shí)間維度上有一個(gè)良好的表示。我們的快速路徑在時(shí)域上的步長(zhǎng)要更小,為τ/\alpha ,其中\alpha >1是快路徑和慢路徑的幀率之比。這兩條路徑在同一個(gè)原始片段上運(yùn)行,所以快路徑采樣αT幀,要比慢路徑密集\alpha 倍。在我們的實(shí)驗(yàn)中\alpha 的典型值為8。

α 的存在是SlowFast的核心概念(圖1,時(shí)間軸)。它明確指出這兩條路徑以不同的時(shí)間速度工作,從而驅(qū)動(dòng)兩個(gè)子網(wǎng)實(shí)例化這兩條路徑的專業(yè)知識(shí)。

高時(shí)域分辨率特征。

我們的快路徑不僅具有高輸入分辨率,而且在整個(gè)網(wǎng)絡(luò)層次結(jié)構(gòu)中追求高分辨率特性。在我們的實(shí)例中,我們?cè)谡麄€(gè)快速路徑中不使用時(shí)間下采樣層(既不使用時(shí)域池化也不使用時(shí)間步幅卷積),直到分類之前的全局池化層。因此,我們的特征張量沿著時(shí)間維度總是有αT幀,盡可能保持時(shí)間保真度。

低通道容量(Low channel capacity)

我們的快速路徑與現(xiàn)有模型的區(qū)別在于,它可以使用顯著較低的通道容量來(lái)實(shí)現(xiàn)SlowFast模型的良好精度。這使得它很輕量。

簡(jiǎn)而言之,我們的快速路徑是一個(gè)類似于慢速路徑的卷積網(wǎng)絡(luò),但其通道數(shù)與慢路徑通道數(shù)之比為β (β < 1)。在我們的實(shí)驗(yàn)中典型值為β = 1/8。請(qǐng)注意,公共層的計(jì)算(floating number operations操作,或FLOPs)相對(duì)于通道數(shù)是二次的。這就是為什么快速路徑比慢速路徑更高效。在我們的實(shí)例中,快速路徑通常站總計(jì)算量的20%。有趣的是,正如第1節(jié)所述,有證據(jù)表明,靈長(zhǎng)類視覺系統(tǒng)中15-20%的視網(wǎng)膜細(xì)胞是M細(xì)胞(對(duì)快速運(yùn)動(dòng)敏感,但對(duì)顏色或空間細(xì)節(jié)不敏感)。

通道容量低也可以解釋為空間語(yǔ)義表示能力較弱。從技術(shù)上講,我們的快速路徑在空間維度上沒有特殊處理,因此其空間建模能力應(yīng)該低于慢速路徑,因?yàn)橥ǖ垒^少。該模型的良好結(jié)果表明,在增強(qiáng)快速路徑的時(shí)間建模能力的同時(shí),削弱其空間建模能力是一種理想的折衷方案。

基于這種解釋,我們還探討了在快速路徑中削弱空間容量的不同方法,包括降低輸入空間分辨率和去除顏色信息。正如我們將通過實(shí)驗(yàn)證明的那樣,這些版本都可以給出很好的精度,這表明一個(gè)具有較小空間容量的輕量級(jí)快速路徑是有益的。

3.3 橫向連接

這兩條路徑的信息是融合的,因此一條路徑并不是不知道另一條路徑學(xué)習(xí)到的表征。我們通過橫向連接來(lái)實(shí)現(xiàn)這一點(diǎn),橫向連接被用于融合基于光流的雙流網(wǎng)絡(luò)[12,13]。在圖像目標(biāo)檢測(cè)中,橫向連接[35]是一種流行的技術(shù),用于合并不同級(jí)別的空間分辨率和語(yǔ)義。

與[12,35]類似,我們?cè)诿恳粋€(gè)“階段”的兩條路徑之間連接一個(gè)橫向連接(圖1)。例如,對(duì)于resnet[24],這些連接緊跟在pool1、res2、res3和res4之后。這兩條路徑有不同的時(shí)間維度,因此橫向連接會(huì)進(jìn)行轉(zhuǎn)換以匹配它們(詳見第3.4節(jié))。我們使用單向連接,將快速路徑的特征融合到慢路徑中(圖1)。我們對(duì)雙向融合進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)效果差不多。

最后,對(duì)每個(gè)路徑的輸出執(zhí)行全局平均池化。然后將兩個(gè)池化的特征向量拼接起來(lái)作為全連接分類器層的輸入。

3.4. 實(shí)例化

我們的SlowFast思想是通用的,它可以用不同的主干(例如,[45,47,24])和實(shí)現(xiàn)細(xì)節(jié)實(shí)例化。在本小節(jié)中,我們將描述網(wǎng)絡(luò)體系結(jié)構(gòu)的實(shí)例。

表1給出了一個(gè)SlowFast模型的例子。我們用T\times S^2表示時(shí)空大小,其中T是時(shí)域長(zhǎng)度,S是正方形空間裁剪的高度和寬度。下面將介紹詳細(xì)信息。

慢通道。

表1中的慢路徑是一個(gè)臨時(shí)跨越的三維ResNet,修改自[12]。它有T=4幀作為網(wǎng)絡(luò)輸入,從一個(gè)64幀的原始片段中稀疏地采樣,具有時(shí)間步長(zhǎng)τ = 16.我們選擇在這個(gè)實(shí)例中不執(zhí)行時(shí)間下采樣,因?yàn)檫@樣做在輸入步幅較大時(shí)是有害的。

與典型的C3D/I3D模型不同,我們僅在res4和res5中使用非退化時(shí)間卷積(時(shí)間核大小>1,在表1中加下劃線);從conv1到res3的所有濾波器基本上都是二維卷積核,這是因?yàn)槲覀兊膶?shí)驗(yàn)觀察發(fā)現(xiàn),在早期層中使用時(shí)間卷積會(huì)降低精度。我們認(rèn)為,這是因?yàn)楫?dāng)物體快速移動(dòng)且時(shí)間步長(zhǎng)較大時(shí),除非空間感受野足夠大(即,在后面的層中),否則時(shí)間感受野內(nèi)的相關(guān)性很小。

快速通道。表1顯示了一個(gè)快速路徑的例子α = 8和β = 1/8。它具有更高的時(shí)間分辨率(綠色)和更低的信道容量(橙色)??焖俾窂皆诿總€(gè)塊中都有非退化的時(shí)間卷積。這是由于觀察到這條路徑具有很好的時(shí)間分辨率,以便時(shí)間卷積捕獲詳細(xì)的運(yùn)動(dòng)。此外,根據(jù)設(shè)計(jì),快速路徑?jīng)]有時(shí)間下采樣層。

橫向連接。

我們的橫向連接從快速通道融合到慢速通道。它要求在融合之前匹配特征的大小。將慢通路的特征形狀表示為{T,s2,C},快通路的特征形狀表示為{T,s2,C}{αT、 第二節(jié),βC} 是的。我們?cè)跈M向連接中進(jìn)行以下轉(zhuǎn)換實(shí)驗(yàn):(i)通道時(shí)間:我們重塑和轉(zhuǎn)置{αT、 第二節(jié),βC} 變成{T,s2,αβC} ,意思是我們把所有的α 幀到一幀的通道中。

(ii)時(shí)間步長(zhǎng)采樣:我們只需從每個(gè)樣本中抽取一個(gè)樣本α 框架,所以{αT、 第二節(jié),βC} 變成{T,s2,βC} 是的。

(iii)時(shí)間步進(jìn)卷積:我們對(duì)一個(gè)5×1 2內(nèi)核和2βC輸出通道和步幅=α.?

橫向連接的輸出通過求和或串聯(lián)融合到慢通道中。

實(shí)驗(yàn):動(dòng)作分類

我們使用標(biāo)準(zhǔn)評(píng)估協(xié)議在四個(gè)視頻識(shí)別數(shù)據(jù)集上評(píng)估我們的方法。對(duì)于本節(jié)介紹的動(dòng)作分類實(shí)驗(yàn),我們考慮了廣泛使用的Kinetics-400[30]、最新的Kinetics 600[3]和Charades[43]。動(dòng)作檢測(cè)實(shí)驗(yàn)。5.我們使用具有挑戰(zhàn)性的AVA數(shù)據(jù)集[20]。

培訓(xùn)。

我們的動(dòng)力學(xué)模型是從隨機(jī)初始化(“從頭開始”)開始訓(xùn)練的,不需要使用ImageNet[7]或任何預(yù)訓(xùn)練。我們按照[19]中的方法使用同步SGD訓(xùn)練。詳見附件。

對(duì)于時(shí)域,我們隨機(jī)抽取一個(gè)片段(共個(gè))αT×τ 幀),慢通道和快通道的輸入分別為T和αT幀;對(duì)于空間域,我們隨機(jī)裁剪224個(gè)×224像素的視頻,或其水平翻轉(zhuǎn),較短的一面隨機(jī)采樣[256,320]像素[45,56]。

推理。

按照通常的做法,我們從一個(gè)視頻中沿時(shí)間軸均勻地抽取10個(gè)片段。對(duì)于每個(gè)剪輯,我們將較短的空間邊縮放到256像素,并進(jìn)行3次256像素的裁剪×256覆蓋空間維度,作為完全卷積測(cè)試的近似值,遵循[56]的代碼。我們平均預(yù)測(cè)的softmax分?jǐn)?shù)。

我們報(bào)告了實(shí)際的推理時(shí)間計(jì)算。由于現(xiàn)有文獻(xiàn)在空間和時(shí)間上的裁剪推理策略不同。與以前的工作相比,我們報(bào)告了每個(gè)時(shí)空“視圖”(帶有空間裁剪的時(shí)間片段)在推理時(shí)的FLOPs以及使用的視圖數(shù)?;叵胍幌拢谖覀兊睦又?,推斷時(shí)間-空間大小是2562(而不是2242用于訓(xùn)練),并且使用了10個(gè)時(shí)間片段,每個(gè)片段有3個(gè)空間裁剪(30個(gè)視圖)。

數(shù)據(jù)集。

動(dòng)力學(xué)-400[30]包括~400個(gè)人類行為類別中的240k個(gè)培訓(xùn)視頻和20k個(gè)驗(yàn)證視頻。動(dòng)力學(xué)-600[3]已經(jīng)~600節(jié)課的392k培訓(xùn)視頻和30k驗(yàn)證視頻。我們報(bào)告了top-1和top-5分類準(zhǔn)確率(%)。我們報(bào)告的計(jì)算成本(在觸發(fā)器)的一個(gè)單一的,空間中心裁剪剪輯。

字謎[43]有~在一個(gè)多標(biāo)簽分類設(shè)置中,在157個(gè)班級(jí)中有9.8k個(gè)培訓(xùn)視頻和1.8k個(gè)驗(yàn)證視頻,活動(dòng)跨度較長(zhǎng)~平均30秒。性能以平均精度(mAP)衡量。

主要結(jié)果

動(dòng)力學(xué)-400。

表2顯示了使用各種輸入采樣(T×τ ) 主干網(wǎng):ResNet-50/101(R50/101)[24]和Nonlocal(NL)[56]。

與之前最先進(jìn)的模型相比[56],我們的最佳模型提供了2.1%更高的top-1精度。值得注意的是,我們的所有結(jié)果都比沒有ImageNet預(yù)訓(xùn)練的現(xiàn)有結(jié)果要好得多。特別是,我們的模型(79.8%)比以前的最佳結(jié)果(73.9%)絕對(duì)好5.9%。我們對(duì)速度較慢的網(wǎng)絡(luò)進(jìn)行了ImageNet預(yù)訓(xùn)練實(shí)驗(yàn),發(fā)現(xiàn)它們的性能相似(±0.3%),用于預(yù)訓(xùn)練和從頭開始訓(xùn)練(隨機(jī)初始化)變體。

我們的結(jié)果是在較低的推理時(shí)間成本下實(shí)現(xiàn)的。我們注意到,許多現(xiàn)有的工作(如果報(bào)告)使用沿時(shí)間軸的剪輯非常密集的采樣,這可能導(dǎo)致在推斷時(shí)間>100個(gè)視圖。這一成本在很大程度上被忽視了。相比之下,我們的方法不需要太多的時(shí)間片段,因?yàn)樗哂懈邥r(shí)間分辨率和輕量級(jí)的快速路徑。我們的每個(gè)時(shí)空視圖的成本可能很低(例如,36.1 GFLOPs),但仍然是準(zhǔn)確的。

表2中的慢-快變異(具有不同的主干和采樣率)在圖2中與其相應(yīng)的慢-純途徑進(jìn)行比較,以評(píng)估快速途徑帶來(lái)的改善。橫軸測(cè)量2562個(gè)空間大小的單個(gè)輸入片段的模型容量,這與總推理成本的1/30成比例。

圖2顯示,對(duì)于所有變體,快速路徑能夠以相對(duì)較低的成本始終如一地改進(jìn)慢對(duì)應(yīng)物的性能。下一小節(jié)將對(duì)Kinetics-400進(jìn)行更詳細(xì)的分析。

Kinetics-600相對(duì)較新,現(xiàn)有結(jié)果有限。因此,我們的目標(biāo)主要是在表3中提供結(jié)果供將來(lái)參考。請(qǐng)注意,Kinetics-600驗(yàn)證集與Kinetics-400訓(xùn)練集重疊[3],因此我們沒有對(duì)Kinetics-400進(jìn)行預(yù)訓(xùn)練。最新的ActivityNet Challenge 2018[15]的獲獎(jiǎng)條目[21]報(bào)告了最佳單模型、單模態(tài)精度為79.0%。我們的變種表現(xiàn)出良好的性能,最好的型號(hào)為81.8%。關(guān)于最近的動(dòng)力學(xué)-700[4]的最慢結(jié)果見[11]。

Charades[43]是一個(gè)具有更大范圍活動(dòng)的數(shù)據(jù)集。表4顯示了我們關(guān)于它的最慢結(jié)果。為了公平比較,我們的基線是只有39.0 mAP的慢速對(duì)應(yīng)。SlowFast比這個(gè)基線增加了3.1 mAP(到42.1),而額外的NL導(dǎo)致了額外的0.4 mAP。當(dāng)我們?cè)贒ynamics-600上進(jìn)行預(yù)訓(xùn)練時(shí),我們也達(dá)到了45.2 mAP。總的來(lái)說,表4中我們的慢速度模型以較低的成本以穩(wěn)定的利潤(rùn)率優(yōu)于之前的最佳數(shù)(STRG[57])。

4.2. 燒蝕實(shí)驗(yàn)

本節(jié)提供了關(guān)于Kinetics-400的燒蝕研究,比較了精確度和計(jì)算復(fù)雜性。

慢vs.慢。我們首先通過改變樣本率(T)來(lái)探討慢-快互補(bǔ)性×τ ) 緩慢的路徑。因此,本文對(duì)消融進(jìn)行了研究α, 快慢路徑之間的幀速率比率。圖2顯示了慢模型和慢模型的各種實(shí)例化的精度與復(fù)雜性的權(quán)衡??梢钥闯觯瑢⒙窂街械膸瑪?shù)加倍以加倍的計(jì)算代價(jià)(橫軸)提高性能(縱軸),而SlowFast以較小的計(jì)算代價(jià)顯著地?cái)U(kuò)展所有變體的性能,即使慢路徑以更高的幀速率運(yùn)行。綠色箭頭說明了將快速路徑添加到相應(yīng)的純慢速體系結(jié)構(gòu)的好處。紅色箭頭說明SlowFast提供了更高的精度和更低的成本。

下一步,表5顯示了快速通道設(shè)計(jì)上的一系列燒蝕,使用默認(rèn)的慢速度T×τ = 4×16,R-50實(shí)例化(見表1),依次分析。

個(gè)別途徑。表5a中的前兩行顯示了單獨(dú)使用一個(gè)單獨(dú)路徑結(jié)構(gòu)的結(jié)果。慢路徑和快路徑的默認(rèn)實(shí)例化非常輕量級(jí),只有27.3和6.4 GFLOPs,32.4M和0.53M參數(shù),分別產(chǎn)生72.6%和51.7%的top-1精度。如果這些通道被聯(lián)合使用,那么這些通道是用他們的專業(yè)知識(shí)設(shè)計(jì)的,接下來(lái)就是燒蝕。

慢熔合。表5a顯示了融合慢、快路徑的各種方法。作為na?ve融合基線,我們展示了一個(gè)不使用橫向連接的變體:它只連接兩條路徑的最終輸出。該變型的準(zhǔn)確率為73.5%,略優(yōu)于慢型,比慢型的精度提高了0.9%。然后,我們將不同橫向連接的SlowFast模型燒掉:時(shí)間到信道(TtoC)、時(shí)間步長(zhǎng)采樣(T樣本)和時(shí)間步長(zhǎng)卷積(T-conv)。對(duì)于能夠匹配信道尺寸的TtoC,我們還報(bào)告了元素的融合(TtoC,sum)。對(duì)于所有其他變體,采用級(jí)聯(lián)進(jìn)行融合。表5a顯示,這些慢流模型都優(yōu)于慢唯一路徑。在T-conv的橫向連接性能最好的情況下,SlowFast網(wǎng)絡(luò)比僅慢3.0%的性能好。我們使用T-conv作為違約。有趣的是,僅快速通路的準(zhǔn)確率僅為51.7%(表5a)。但它對(duì)慢通道的改善率高達(dá)3.0%,說明快速路徑模型的基本表示基本上是互補(bǔ)的。我們通過下一組燒蝕來(lái)加強(qiáng)這一觀察。快速通道的通道容量。設(shè)計(jì)快速路徑的一個(gè)關(guān)鍵直覺是,它可以利用較低的信道容量捕獲運(yùn)動(dòng),而不需要建立詳細(xì)的空間表示。這是由信道比率控制的β. 表5b顯示了變化的影響β. 最好的表演β 值為1/6和1/8(默認(rèn)值)。然而,令人驚訝的是,所有的價(jià)值觀都來(lái)自β=在我們的慢流模型中,1/32到1/4可以比慢的唯一對(duì)應(yīng)模型改進(jìn)。特別是β=1/32,快速途徑僅增加1.3個(gè)GFLOPs(相對(duì)約5%),但提高1.6%。

快速路徑的空間輸入較弱。此外,我們還對(duì)慢流模型中的快速路徑使用不同的弱空間輸入進(jìn)行了實(shí)驗(yàn)。我們考慮:(i)半空間分辨率(112×112),帶β=1/4(與默認(rèn)值1/8)相比,大致保持觸發(fā)器(ii)灰度輸入幀(iii)“時(shí)差”幀,通過與前一幀減去當(dāng)前幀計(jì)算;以及(iv)以光流作為快速通道的輸入。表5c顯示,所有這些變體都具有競(jìng)爭(zhēng)力,并且優(yōu)于僅緩慢的基線。特別是,灰色版本的快速通道幾乎和RGB變體一樣好,但減少了觸發(fā)器~5%. 有趣的是,這也與M細(xì)胞對(duì)顏色不敏感的行為一致[27、37、8、14、51]。我們相信表5b和表5c都令人信服地表明,輕量級(jí)但時(shí)間上的高分辨率快速路徑是視頻識(shí)別的有效組成部分。從頭開始訓(xùn)練。我們的模型是從頭開始訓(xùn)練的,沒有ImageNet培訓(xùn)。為了進(jìn)行公平的比較,有助于從零開始檢查培訓(xùn)的潛在影響(積極或消極)。為此,我們使用我們從頭開始訓(xùn)練的大規(guī)模SGD配方,訓(xùn)練了[56]中規(guī)定的完全相同的3D ResNet-50體系結(jié)構(gòu)。表6顯示了使用此3D R-50基線架構(gòu)進(jìn)行的比較。我們觀察到,我們的培訓(xùn)配方與[56]報(bào)告的ImageNet預(yù)訓(xùn)練配方相比,取得了相當(dāng)好的效果,而[56]中的配方?jīng)]有完全適合從零開始直接訓(xùn)練。這表明,我們的訓(xùn)練系統(tǒng),作為我們的實(shí)驗(yàn)的基礎(chǔ),對(duì)這個(gè)基線模型沒有損失,盡管沒有使用IMANET進(jìn)行預(yù)訓(xùn)練。

實(shí)驗(yàn):AVA動(dòng)作檢測(cè)

數(shù)據(jù)集。AVA數(shù)據(jù)集[20]關(guān)注人類行為的時(shí)空定位。數(shù)據(jù)來(lái)自437部電影。時(shí)空標(biāo)簽以每秒一幀的速度提供,每個(gè)人都用一個(gè)邊界框和(可能有多個(gè))動(dòng)作進(jìn)行注釋。注意,AVA的難點(diǎn)在于動(dòng)作檢測(cè),而演員定位的挑戰(zhàn)性較小[20]。我們使用的AVA v2.1中有211k訓(xùn)練和57k驗(yàn)證視頻片段。我們遵循標(biāo)準(zhǔn)協(xié)議[20],對(duì)60個(gè)類進(jìn)行評(píng)估(見圖3)。性能指標(biāo)是超過60個(gè)類的平均精度(mAP),使用0.5的幀級(jí)IoU閾值。檢測(cè)體系結(jié)構(gòu)。我們的檢測(cè)器類似于更快的R-CNN[40],只需對(duì)視頻進(jìn)行最小的修改。我們使用慢速網(wǎng)絡(luò)或其變體作為主干網(wǎng)。我們將res5的空間步長(zhǎng)設(shè)置為1(而不是2),并對(duì)其過濾器使用2的伸縮。這會(huì)將res5的空間分辨率提高2×. 我們?cè)趓es5的最后一個(gè)特征圖上提取感興趣區(qū)域(RoI)特征[17]。我們首先通過沿時(shí)間軸復(fù)制,將一幀處的每個(gè)2D RoI擴(kuò)展為3D RoI,類似于[20]中介紹的方法。隨后,我們通過ROIAllign[22]在空間上計(jì)算RoI特征,并通過全局平均池在時(shí)間上計(jì)算RoI特征。然后將RoI特征最大化,并反饋給每類sigmoidbase分類器進(jìn)行多標(biāo)簽預(yù)測(cè)。我們遵循以前的工作,使用預(yù)先計(jì)算的建議[20,46,29]。我們的區(qū)域建議是由現(xiàn)成的人檢測(cè)器計(jì)算的,也就是說,它不是與動(dòng)作檢測(cè)模型聯(lián)合訓(xùn)練的。我們采用了一個(gè)由Detectron訓(xùn)練的人檢測(cè)模型[18]。它是一個(gè)更快的R-CNN,具有ResNeXt-101-FPN[60,35]主干。它是在ImageNet和COCO人類關(guān)鍵點(diǎn)圖像上預(yù)先訓(xùn)練的[36]。我們?cè)贏VA上對(duì)這個(gè)檢測(cè)器進(jìn)行微調(diào),以進(jìn)行人(演員)檢測(cè)。人探測(cè)器產(chǎn)生93.9AP@50 在AVA驗(yàn)證集上。然后,在置信度大于0.8的人框中檢測(cè)出動(dòng)作檢測(cè)的區(qū)域建議,對(duì)人類的召回率為91.1%,準(zhǔn)確率為90.7%。培訓(xùn)。我們從Kinetics-400分類模型中初始化網(wǎng)絡(luò)權(quán)重。我們使用逐步學(xué)習(xí)率,將學(xué)習(xí)率降低10%× 當(dāng)驗(yàn)證錯(cuò)誤飽和時(shí)。我們訓(xùn)練14k次迭代(68次迭代)~211k數(shù)據(jù)),第一個(gè)1k迭代的線性預(yù)熱[19]。我們使用10的重量衰減?7 . 所有其他超參數(shù)與動(dòng)力學(xué)實(shí)驗(yàn)相同。地面真值箱作為訓(xùn)練樣本。輸入是實(shí)例化特定的αT×τ 尺寸為224的框架×224.推斷。我們使用αT×τ 要計(jì)算的幀周圍的幀。我們調(diào)整空間尺寸,使其較短的一面是256像素。主干特征提取器是完全卷積計(jì)算的,如標(biāo)準(zhǔn)更快的R-CNN[40]。

5.1. 主要結(jié)果

我們將與表7中先前關(guān)于AVA的結(jié)果進(jìn)行比較。有趣的觀察是使用光流的潛在好處(見表7中的“flow”列)。現(xiàn)有工程已觀察到輕微的改進(jìn):+1.1 I3D地圖[20],以及[29]中ATR的+1.7地圖。相反,我們的基線通過+5.2 mAP的快速路徑來(lái)改善(下一節(jié)的消融實(shí)驗(yàn)見表9)。另外,采用光流的兩種流方法可以使計(jì)算成本加倍,而我們的快速路徑是輕量級(jí)的。作為系統(tǒng)級(jí)比較,我們的SlowFast模型僅使用動(dòng)力學(xué)-400預(yù)訓(xùn)練,具有26.3個(gè)mAP。這是5.6地圖高于以前在類似設(shè)置下的最佳數(shù)字(ATR[29],單型號(hào)的21.7),比不使用光流量的映射高7.3(表7)。[16]預(yù)列車在較大的動(dòng)力學(xué)-600上的工作,達(dá)到21.9圖。為了進(jìn)行公平比較,我們觀察到使用動(dòng)力學(xué)-600的速度從26.3到26.8圖有了改進(jìn)。NL塊增加慢流速度[56]將這一點(diǎn)增加到27.3個(gè)。我們?cè)?val列車上(和1.5)上訓(xùn)練此模型× 更長(zhǎng))并提交給AVA v2.1測(cè)試服務(wù)器,它實(shí)現(xiàn)27.1 mAP單作物測(cè)試集精度。通過使用IoU>0.9與地面真相箱重疊的預(yù)測(cè)建議,除了地面真相箱,我們還實(shí)現(xiàn)了28.2地圖單作物驗(yàn)證精度,這是AVA的最新技術(shù)。使用AVA v2.2數(shù)據(jù)集(提供更一致的注釋)將此數(shù)字提高到29.0映射(表8)。長(zhǎng)期慢播,16×8模型生成29.8張地圖,并使用多個(gè)空間尺度和水平翻轉(zhuǎn)進(jìn)行測(cè)試,此數(shù)字增加到30.7張地圖。

最后,我們創(chuàng)建了一個(gè)由7個(gè)模型組成的集成,并將其提交給ActivityNet challenge 2019的官方測(cè)試服務(wù)器[1]。如表8所示,該條目(SlowFast++,集成)在測(cè)試集上達(dá)到34.3地圖精度,在2019年AVA行動(dòng)檢測(cè)挑戰(zhàn)中排名第一。有關(guān)我們的獲獎(jiǎng)解決方案的更多細(xì)節(jié),請(qǐng)參見相應(yīng)的技術(shù)報(bào)告[11]。

5.2. 燒蝕實(shí)驗(yàn)

表9將僅慢基線與其慢的基線進(jìn)行了比較,圖3中所示的每類AP。我們的方法從19.0到24.2大幅改進(jìn)了5.2 mAP(相對(duì)28%)。這完全是我們最慢的想法所貢獻(xiàn)的。從類別角度(圖3),我們的SlowFast模型在60個(gè)類別中有57個(gè)改進(jìn),而它的慢唯一對(duì)應(yīng)項(xiàng)?!笆峙摹保?27.7 AP)、“游泳”(+27.4 AP)、“跑步/慢跑”(+18.8 AP)、“舞蹈”(+15.9 AP)和“吃”(+12.5 AP)的絕對(duì)漲幅最大。我們還觀察到“跳躍/跳躍”、“手波”、“放下”、“投擲”、“命中”或“削減”的相對(duì)增加。這些是建模動(dòng)力學(xué)至關(guān)重要的類別。SlowFast模型僅在3類中表現(xiàn)較差:“應(yīng)答電話”(-0.1 AP)、“謊言/睡眠”(0.2 AP)、“射門”(-0.4ap),且它們的下降相對(duì)較小,而其他類型的增長(zhǎng)則相對(duì)較小。結(jié)論時(shí)間軸是一個(gè)特殊的尺寸。本文研究了一種與沿該軸速度進(jìn)行對(duì)比的建筑設(shè)計(jì)。它實(shí)現(xiàn)了視頻動(dòng)作分類和檢測(cè)的最先進(jìn)精度。希望這種慢播概念能促進(jìn)視頻識(shí)別的進(jìn)一步研究。附錄實(shí)施細(xì)節(jié)。我們研究了包括ResNet-50和更深的ResNet-101[24]在內(nèi)的主干,可以選擇使用非本地(NL)塊進(jìn)行增強(qiáng)[56]。對(duì)于涉及R-101的模型,我們使用的比例抖動(dòng)范圍為[256,340]。T×τ = 16×8個(gè)模型從8個(gè)模型初始化×8名同行,培訓(xùn)時(shí)間為培訓(xùn)期的一半,以減少培訓(xùn)時(shí)間。對(duì)于所有涉及NL的模型,我們使用訓(xùn)練的對(duì)應(yīng)模型初始化它們,以便于收斂。我們只在res4(融合)慢特性(而不是res3+res4[56])上使用NL。在動(dòng)力學(xué)方面,我們按照[19]中的配方,在128個(gè)GPU中采用同步SGD訓(xùn)練,發(fā)現(xiàn)其準(zhǔn)確性與8-GPU機(jī)器的典型訓(xùn)練一樣好,但擴(kuò)展性較好。最小批次大小為每個(gè)GPU 8個(gè)剪輯(因此,總的最小批次大小為1024)。我們使用[23]中的初始化方法。我們用批標(biāo)準(zhǔn)化(BN)[28]訓(xùn)練,每8個(gè)剪輯內(nèi)計(jì)算BN統(tǒng)計(jì)數(shù)據(jù)。采用半周期余弦學(xué)習(xí)速率衰減的調(diào)度方法:n次迭代時(shí)的學(xué)習(xí)速率為η · 0.5[cos(n nmaxπ) + 1] 其中,nmax是最大的培訓(xùn)迭代和基本學(xué)習(xí)率η 設(shè)置為1.6。在最初8k迭代中,我們還使用了線性預(yù)熱策略[19]。對(duì)于Dynamic-400,我們訓(xùn)練256個(gè)周期(60k迭代,總的最小批大小為1024次,in~240k動(dòng)力學(xué)視頻)T時(shí)≤ 4幀,T>4幀時(shí)為196個(gè)時(shí)代:當(dāng)剪輯有更多幀時(shí),訓(xùn)練就足夠短。在分類器層前,采用0.9動(dòng)量和10-4的權(quán)值衰減,在最終分類器層之前使用0.5的衰減。

對(duì)于Kinetics-600,我們將培訓(xùn)時(shí)間(和時(shí)間表)延長(zhǎng)了2個(gè)月× 設(shè)定基本學(xué)習(xí)率η 至0.8。對(duì)于啞謎,我們微調(diào)動(dòng)力學(xué)模型。perclass sigmoid輸出用于說明mutli類的性質(zhì)。我們?cè)谝慌_(tái)機(jī)器上訓(xùn)練24k次迭代,批量大小為16,基本學(xué)習(xí)率為0.0375(Kinetics400預(yù)訓(xùn)練)和0.02(Kinetics-600預(yù)訓(xùn)練),每次10× 如果驗(yàn)證誤差飽和,則逐步衰減。為了進(jìn)行推斷,我們暫時(shí)最大池分?jǐn)?shù)[56]。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 思考人生的慢與快! 人生-》工作。 提綱: 談?wù)勥@次工作優(yōu)化的復(fù)盤。 講清楚一件事的邏輯: 5W2h。 s-c-q...
    zhoul_m閱讀 407評(píng)論 0 0
  • 慢即快,快則慢 陰陽(yáng)兩融,不分彼此 對(duì)于自身而言,當(dāng)自己特別想要某些東西的時(shí)候一定要靜下心來(lái),反問自己幾個(gè)問題。 ...
    洲醒閱讀 290評(píng)論 0 2
  • 在快速發(fā)展的21世紀(jì),快文化已經(jīng)占據(jù)了人們的生活。無(wú)論做什么事,人們都講求效率,也就是爭(zhēng)取在最短的時(shí)間內(nèi)完成一些事...
    呆小逗閱讀 538評(píng)論 0 1
  • 本周趁著旅行的時(shí)間,讀完了整本《和時(shí)間做朋友》,通讀了一遍,但是對(duì)電子書還是沒有適應(yīng),思路混亂。 再翻...
    星空微藍(lán)閱讀 340評(píng)論 0 0
  • 今天青石的票圈出鏡率最高的,莫過于張藝謀的新片終于定檔了。 一張滿溢著水墨風(fēng)的海報(bào)一次次的出現(xiàn)在票圈里,也就是老謀...
    青石電影閱讀 10,921評(píng)論 1 2

友情鏈接更多精彩內(nèi)容