C3D:使用3D卷積網(wǎng)絡(luò)學(xué)習(xí)時空特征

摘要

針對時空特征的學(xué)習(xí),我們提出了一個簡單有效的方法,在大規(guī)模有監(jiān)督視頻數(shù)據(jù)集上使用深度3維卷積網(wǎng)絡(luò)(3D ConvNets)。我們有3個發(fā)現(xiàn):

  1. 3D ConvNets比2D ConvNets更適用于時空特征的學(xué)習(xí);
  2. 對于3D ConvNet而言,在所有層使用3×3×3的小卷積核效果最好;
  3. 我們通過簡單的線性分類器學(xué)到的特征名為C3D(Convolutional 3D),在4個不同的基準(zhǔn)上優(yōu)于現(xiàn)有的方法,并在其他2個基準(zhǔn)上與目前最好的方法相當(dāng)。

此外,特征是緊湊的:在UCF101數(shù)據(jù)集上得到52.8%的準(zhǔn)確率只用了10維,并且由于ConvNets的推斷快,計算效率非常高。最后,它們在概念上非常簡單,易于訓(xùn)練和使用。


1. 引言

互聯(lián)網(wǎng)上的多媒體正在迅速增長,每分鐘都有越來越多的視頻被分享。為了對抗信息爆炸,必須了解和分析這些視頻,如搜索、推薦、排名等。計算機(jī)視覺領(lǐng)域幾十年來一直致力于視頻分析,并解決了諸如動作識別、異常事件檢測、活動理解等不同問題。通過使用不同的具體解決方案,在這些個體問題上已經(jīng)取得了相當(dāng)大的進(jìn)展。然而,需要一種通用視頻描述符,這有助于以同樣的方式解決大規(guī)模視頻任務(wù)。

一個有效的視頻描述符有四個屬性:

  1. 通用性,可以表示不同類型的視頻,同時具有可區(qū)分性。例如,網(wǎng)絡(luò)視頻可以是自然風(fēng)光、運(yùn)動、電視節(jié)目、電影、寵物、食物等;
  2. 描述符必須是緊湊的:由于我們需要處理數(shù)百萬的視頻,一個緊湊的描述符有助于處理,存儲和檢索任務(wù),更具可擴(kuò)展性;
  3. 計算高效,因?yàn)樵诂F(xiàn)實(shí)世界中,每一分鐘都需要處理成千上萬的視頻;
  4. 實(shí)現(xiàn)簡單,不使用復(fù)雜的特征編碼方法和分類器,一個好的描述符即使是一個簡單的模型(如線性分類器)也能很好地工作。

受到深度學(xué)習(xí)在圖像領(lǐng)域突破的啟發(fā),在過去幾年里,在特征學(xué)習(xí)方面取得了快速的進(jìn)步,各種預(yù)訓(xùn)練卷積網(wǎng)絡(luò)(ConvNets)模型可用于提取圖像特征。這些特征是網(wǎng)絡(luò)最后幾個全連接層的激活值,在遷移學(xué)習(xí)任務(wù)中表現(xiàn)良好。但是由于缺少運(yùn)動建模(在4,5,6節(jié)的實(shí)驗(yàn)中),這些基于圖像的深度特征并不直接適用于視頻。本文我們使用深度3D ConvNet來學(xué)習(xí)時空特征。經(jīng)驗(yàn)表明,這些學(xué)習(xí)的特征與簡單的線性分類器在各種視頻分析任務(wù)中效果良好。雖然3D ConvNet以前就有人提出,但據(jù)我們所知,本工作在大規(guī)模有監(jiān)督訓(xùn)練集和現(xiàn)代深度學(xué)習(xí)框架的背景下利用3D ConvNet,在不同的視頻分析任務(wù)中的得到最好的性能。3D ConvNet提取的特征封裝了視頻中與目標(biāo)、場景、動作有關(guān)的信息,使得這些特征對不同的任務(wù)都有用,而不需要對每個任務(wù)都微調(diào)模型。C3D是好的描述符:通用、緊湊、簡單、高效??偠灾?,我們這篇論文的貢獻(xiàn)是:

  • 我們的實(shí)驗(yàn)表明3D卷積深度網(wǎng)絡(luò)是好的學(xué)習(xí)器,可以對外觀和運(yùn)動同時建模。
  • 我們的經(jīng)驗(yàn)發(fā)現(xiàn),在有限的探究框架中,所有層使用3×3×3卷積核效果最好。
  • 在4個任務(wù)和4個基準(zhǔn)上,提出的特征通過簡單的線性模型可以超過或接近目前最好的方法(見表1)。這些特征緊湊、計算高效。
表1 比較C3D與最好的公開結(jié)果。在一系列的基準(zhǔn)上,C3D優(yōu)于所有先前最好的報告方法,除了Sports-1M和UCF101。在UCF101,我們匯報了2組方法,第一組方法只使用了RGB幀作為輸入,而第二組方法(括號里)使用了可能的特征(如:光流、改進(jìn)的密集軌跡)

2. 相關(guān)工作

計算機(jī)視覺領(lǐng)域研究視頻已有幾十年。這些年來,動作識別、異常檢測、視頻檢索、運(yùn)動檢測等不同問題被提出。這些工作的相當(dāng)一部分是關(guān)于視頻表示。Laptev和Lindeberg提出時空興趣點(diǎn)(STIPs),通過擴(kuò)展Harris邊角檢測器。SIFT和HOG也被擴(kuò)展成SIFT-3D和HOG-3D從而進(jìn)行動作識別。Dollar等人為行為識別提出長方體特征。Sadanand和Corso建立了行為識別的ActionBank。最近,Wang等人提出改進(jìn)的密集軌跡(iDT),這是現(xiàn)在最好的人為設(shè)計特征。iDT描述符I是一個有趣的例子,表明時間信號的處理可以不同于空間信號。與擴(kuò)展Harris邊角檢測器到3D不同,它從視頻幀中密集采樣的特征點(diǎn)開始,并利用光流跟蹤它們。對于每個跟蹤器邊角,沿著軌跡提取不同的人為設(shè)計特征。盡管它的性能很好,但是這種方法計算量很大,并且在大規(guī)模數(shù)據(jù)集中變得棘手。

最近,隨著強(qiáng)大的并行機(jī)(GPU,CPU集群)的應(yīng)用,以及大量的訓(xùn)練數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)已經(jīng)成為視覺識別的突破。 ConvNets也被應(yīng)用于圖像和視頻中的人體姿態(tài)理解的問題。更有趣的是,這些深層網(wǎng)絡(luò)用于圖像特征學(xué)習(xí)。同樣,Zhou等人在遷移學(xué)習(xí)任務(wù)上表現(xiàn)良好。深度學(xué)習(xí)也被應(yīng)用于無監(jiān)督設(shè)置的視頻特征學(xué)習(xí)。在Le 等人的研究中,作者使用堆疊的ISA來學(xué)習(xí)視頻的時空特征。雖然這種方法在動作識別方面表現(xiàn)出良好的效果,但是在訓(xùn)練上仍然是計算密集型,并且難以擴(kuò)展到大規(guī)模數(shù)據(jù)集的測試。3D ConvNets被提出用于人類動作識別和醫(yī)學(xué)圖像分割。限制玻爾茲曼機(jī)器也使用3D卷積來學(xué)習(xí)時空特征。最近,Karpathy等在大型視頻數(shù)據(jù)集上進(jìn)行深度網(wǎng)絡(luò)訓(xùn)練,以分類視頻。 Simonyan和Zisserman使用雙流網(wǎng)絡(luò)來獲得最佳的動作識別結(jié)果。

在這些方法中,3D ConvNets方法與我們最密切相關(guān)。該方法使用人體檢測器和頭部跟蹤來在視頻中分割人類受試者。分段視頻卷作為3個卷積層的3D ConvNet的輸入以對動作進(jìn)行分類。相比之下,我們的方法將完整的視頻幀作為輸入,并且不依賴于任何預(yù)處理,因此容易地擴(kuò)展到大型數(shù)據(jù)集。我們也與Karpathy等人有一些相似之處。以及Simonyan和Zisserman使用全幀來訓(xùn)練ConvNet。然而,這些方法建立在僅使用2D卷積和2D池化操作(Slow Fusion模型除外),而我們的模型執(zhí)行3D卷積和3D池化在網(wǎng)絡(luò)中的所有層中傳播時間信息(進(jìn)一步詳細(xì)描述在第3節(jié))。我們還顯示,逐步池化空間和時間信息,建立更深層次的網(wǎng)絡(luò)可以取得最佳效果,我們將在3.2節(jié)討論有關(guān)體系結(jié)構(gòu)搜索的更多信息。


3. 使用3D ConvNets學(xué)習(xí)特征

在本節(jié)中,我們詳細(xì)介紹了3D ConvNets的基本操作,經(jīng)驗(yàn)地分析了3D ConvNets的不同結(jié)構(gòu),并闡述了如何在的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí)特征。

3.1. 3D卷積和池化

我們認(rèn)為3D ConvNet非常適合于時空特征學(xué)習(xí)。與2D ConvNet相比,3D ConvNet能夠通過3D卷積和3D池化操作更好地建模時間信息。在3D ConvNets中,卷積和池化操作在時空上執(zhí)行,而在2D ConvNets中,它們僅在空間上完成。圖1示出了差異,應(yīng)用于一個圖像的2D卷積將輸出一個圖像,施加在多個圖像上的2D卷積(將它們視為不同的通道)也輸出一個圖像。因此,2D ConvNets在每次卷積運(yùn)算之后就會丟失輸入信號的時間信息。只有3D卷積才能保留輸入信號的時間信息,從而產(chǎn)生輸出卷。相同的現(xiàn)象適用于2D和3D池化。在[36]中,雖然時間流網(wǎng)絡(luò)采用多個幀作為輸入,但是由于2D卷積,在第一卷積層之后,時間信息完全消失了。類似地,融合模型使用2D卷積,大多數(shù)網(wǎng)絡(luò)在第一卷積層之后失去其輸入的時間信號。只有[18]中的慢融合模型才能在其前3個卷積層中使用3D卷積和平均池化。我們認(rèn)為這是在[18]的研究在所有網(wǎng)絡(luò)中表現(xiàn)最好的關(guān)鍵原因。然而,它仍然在第三個卷積層之后失去所有時間信息。

圖1. 2D和3D卷積運(yùn)算。a)在一個圖像上應(yīng)用2D卷積會產(chǎn)生一個圖像。b)在視頻卷上應(yīng)用2D卷積(多個幀作為多個通道)也會產(chǎn)生一個圖像。c)在視頻卷上應(yīng)用3D卷積可產(chǎn)生另一個卷,保留輸入信號的時間信息。

在本節(jié)中,我們通過經(jīng)驗(yàn)嘗試找出一個良好的3D ConvNets架構(gòu)。由于在大型視頻數(shù)據(jù)集上訓(xùn)練深層網(wǎng)絡(luò)非常耗時,我們首先嘗試使用中型數(shù)據(jù)集UCF101來搜索最佳架構(gòu)。我們使用較少數(shù)量的網(wǎng)絡(luò)實(shí)驗(yàn)在大型數(shù)據(jù)集中來驗(yàn)證發(fā)現(xiàn)。根據(jù)2D ConvNet的研究結(jié)果,具有更深體系結(jié)構(gòu)的3×3卷積內(nèi)核的小感受野產(chǎn)生最佳效果。 因此,對于我們的架構(gòu)搜索研究,我們將空間感受野確定為3×3,僅改變3D卷積核的時間深度。

符號:為了簡單起見,從現(xiàn)在開始,我們將視頻片段尺寸定義為c×l×h×w,其中c是通道數(shù),l是幀數(shù)的長度,h和w分別是幀的高度和寬度。我們還將3D卷積和池化核大小指向d×k×k,其中d是核的時間深度,k是核的空間大小。

通用網(wǎng)絡(luò)設(shè)置:在本節(jié)中,我們將介紹我們訓(xùn)練的所有網(wǎng)絡(luò)通用的網(wǎng)絡(luò)設(shè)置。 網(wǎng)絡(luò)設(shè)置為將視頻片段作為輸入,并預(yù)測屬于101個不同動作的類標(biāo)簽。所有視頻幀都被調(diào)整為128×171。這大約是UCF101幀的一半分辨率。視頻被分割成非重疊的16幀片段,然后將其用作網(wǎng)絡(luò)的輸入。輸入尺寸為3×16×128×171。我們還通過在訓(xùn)練期間使用尺寸為3×16×112×112的隨機(jī)裁剪來使用抖動。網(wǎng)絡(luò)具有5個卷積層和5個池化層(每個卷積層緊隨其后的是池化層),2個完全連接的層和softmax損耗層以預(yù)測動作標(biāo)簽。 對于5個卷積層,從1到5卷積層的濾波器數(shù)量分別為64,128,256,256,256。

所有卷積核大小的d是核時間深度(稍后將改變這些層的值d以搜索良好的3D結(jié)構(gòu))。所有這些卷積層都應(yīng)用適當(dāng)?shù)奶畛?空間和時間)和步長1,因此這些卷積層從輸入到輸出的尺寸沒有變化。所有池化層都是尺寸為2×2×2(第一層除外)、步長為1的最大值池化,這意味著與輸入信號相比,輸出信號的大小減小到1/8。第一個池化核大小為1×2×2,其意圖是不能太早地合并時間信號,并且也能夠滿足16幀的片段長度(例如,在完全崩潰之前,我們可以暫時將時間信號進(jìn)行最多4次2倍池化)。兩個全連接層有2048個輸出。我們從頭開始使用30個片段的小批量訓(xùn)練網(wǎng)絡(luò),初始學(xué)習(xí)率為0.003。學(xué)習(xí)率在每4個周期之后除以10。訓(xùn)練在16個周期之后停止。

不同的網(wǎng)絡(luò)架構(gòu):根據(jù)本研究的目的,我們主要關(guān)注如何通過深層網(wǎng)絡(luò)聚合時間信息。為了尋找一個很好的3D ConvNet架構(gòu),我們只改變卷積核時間深度di,同時保持所有其他常見設(shè)置如上所述。我們嘗試兩種類型的架構(gòu):1)均勻時間深度:所有卷積核具有相同的時間深度;2)變化的時間深度:不同層的卷積核時間深度不同。對于均勻設(shè)置,我們試驗(yàn)了具有d=1,3,5,7的時間深度的4個網(wǎng)絡(luò)。我們將這些網(wǎng)絡(luò)命名為depth-d,其中d是其均勻時間深度。請注意,depth-1網(wǎng)絡(luò)相當(dāng)于在單獨(dú)的幀上應(yīng)用2D卷積。對于變化的時間深度設(shè)置,我們分別從第一到第五卷積層試驗(yàn)了兩個網(wǎng)絡(luò),時間深度增加的:3-3-5-5-7和時間深度增加減少的:7-5-5-3-3。我們注意到,所有這些網(wǎng)絡(luò)在最后一個池化層具有相同的輸出信號大小,因此它們的全連接層具有相同數(shù)量的參數(shù)。由于不同的核時間深度,它們的參數(shù)數(shù)量在卷積層上是不同的。與全連接層中的數(shù)百萬個參數(shù)相比,這些差異是相當(dāng)微小的。例如,上述時間深度差為2的網(wǎng)絡(luò)中只有17K左右的參數(shù)。參數(shù)數(shù)量的最大差異在于depth-1和depth-7網(wǎng)絡(luò)之間,depth-7網(wǎng)絡(luò)具有51K以上的參數(shù),小于每個網(wǎng)絡(luò)17.5百萬參數(shù)的0.3%。這表明網(wǎng)絡(luò)的學(xué)習(xí)能力是可比較的,參數(shù)數(shù)量的差異不應(yīng)影響我們的架構(gòu)搜索結(jié)果。

3.2.探索內(nèi)核時間深度

我們在UCF101訓(xùn)練集split-1上訓(xùn)練這些網(wǎng)絡(luò)。圖2顯示了不同架構(gòu)在UCF101測試集split-1上的精度。左圖顯示了具有均勻時間深度的網(wǎng)絡(luò)的結(jié)果,右圖顯示了變化時間深度的網(wǎng)絡(luò)的結(jié)果。Depth-3在均勻網(wǎng)絡(luò)中表現(xiàn)最好。請注意,depth-1比其他網(wǎng)絡(luò)明顯更差,我們認(rèn)為是由于缺乏運(yùn)動建模。與不變化時間深度網(wǎng)絡(luò)相比,depth-3是表現(xiàn)最好的,但差距較小。我們還嘗試更大的感知野(例如5×5)和/或全輸入分辨率(240×320),效果差不多。這表明3×3×3是3D ConvNets的最佳的選擇(根據(jù)我們的實(shí)驗(yàn)子集),在視頻分類中3D ConvNets始終優(yōu)于2D ConvNets。我們還驗(yàn)證了3D ConvNet在大規(guī)模內(nèi)部數(shù)據(jù)集(即I380K)上的性能優(yōu)于2D ConvNet。

圖2. 3D卷積核時間深度搜索。不同卷積核時間深度設(shè)置在UCF101測試集split-1上的精度。2D ConvNet效果最差,3×3×3卷積核的3D ConvNet在實(shí)驗(yàn)中表現(xiàn)最佳。

3.3.時空特征學(xué)習(xí)

網(wǎng)絡(luò)架構(gòu):上一節(jié)的發(fā)現(xiàn)表明,3×3×3卷積核的均勻設(shè)置是3D ConvNets的最佳選擇。這個發(fā)現(xiàn)與2D ConvNets一致。使用大型數(shù)據(jù)集,可以根據(jù)機(jī)器內(nèi)存限制和計算承受能力,盡可能深入地訓(xùn)練具有3×3×3核的3D ConvNet。使用目前的GPU內(nèi)存,我們設(shè)計了3D ConvNet,具有8個卷積層、5個池化層、兩個全連接層,以及一個softmax輸出層。網(wǎng)絡(luò)架構(gòu)如圖3所示。為了簡單起見,我們從現(xiàn)在開始將這個網(wǎng)絡(luò)稱為C3D。所有3D卷積濾波器均為3×3×3,步長為1×1×1。為了保持早期的時間信息設(shè)置pool1核大小為1×2×2、步長1×2×2,其余所有3D池化層均為2×2×2,步長為2×2×2。每個全連接層有4096個輸出單元。

圖3. C3D架構(gòu)。C3D網(wǎng)絡(luò)有8個卷積層,5個最大池化層和2個全連接層,最后是softmax輸出層。所有的3D卷積核都是3×3×3,在空間和時間上都有步長1。濾波器的數(shù)量表示在每個框中。3D池化層由pool1到pool5表示。所有池化核為2×2×2,除了pool1為1×2×2。每個全連接層有4096個輸出單元。

數(shù)據(jù)集:為了學(xué)習(xí)時空特征,我們在Sports-1M數(shù)據(jù)集上訓(xùn)練C3D,這是目前最大的視頻分類基準(zhǔn)。 數(shù)據(jù)集由110萬個體育視頻組成。 每個視頻屬于487個運(yùn)動類別之一。 與UCF101相比,Sports-1M具有5倍的類別和100倍的視頻數(shù)量。

訓(xùn)練:在Sports-1M訓(xùn)練集上進(jìn)行訓(xùn)練。由于Sports-1M有許多長視頻,我們從每個訓(xùn)練視頻中隨機(jī)提取出2秒長的五個片段。片段調(diào)整幀大小為128×171。在訓(xùn)練中,我們隨機(jī)將輸入片段裁剪成16×112×112片段,對于空間和時間抖動。 我們也以50%的概率水平翻轉(zhuǎn)它們。訓(xùn)練由SGD完成,batch size為30。初始學(xué)習(xí)率為0.003,每150K次迭代除以2。優(yōu)化在1.9M迭代(約13epochs)停止。除了從頭開始訓(xùn)練C3D外,我們還從在I380K上預(yù)先訓(xùn)練的模型中對C3D網(wǎng)進(jìn)行了微調(diào)。

Sports-1M分類結(jié)果:表2顯示了C3D與DeepVideo和Convolution pooling的比較結(jié)果。我們每個片段只使用一個中心裁剪,并通過網(wǎng)絡(luò)進(jìn)行片段預(yù)測。對于視頻預(yù)測,我們平均片段預(yù)測從視頻中隨機(jī)提取的10個片段。值得注意的是比較方法之間的一些設(shè)置差異。DeepVideo和C3D使用短片段,而Convolution pooling使用更長的片段。DeepVideo使用更多的裁剪:每個片段4個裁剪,每個視頻80個裁剪,C3D分別使用1個和10個。top-5精度下,從頭開始訓(xùn)練的C3D網(wǎng)絡(luò)得到了84.4%的準(zhǔn)確度,從I380K預(yù)訓(xùn)練模型中微調(diào)的C3D網(wǎng)絡(luò)為85.5%。兩個C3D網(wǎng)絡(luò)都勝過DeepVideo網(wǎng)絡(luò)。 C3D仍比Convolution pooling的方法低5.6%。然而,這種方法在120幀的長片段上使用深度圖像特征的卷積池化,因此它不能直接與在更短的片段上操作的C3D和DeepVideo相比較。我們注意到,該方法在片段和視頻的top-1精度中的差異很小(1.6%),因?yàn)樗呀?jīng)使用120幀片段作為輸入。在實(shí)踐中,Convolution pooling或更復(fù)雜的聚合方案可以應(yīng)用于C3D特征之上,以提高性能。

表2. Sports-1M分類結(jié)果。C3D在top-5個視頻級精度上優(yōu)于Convolution pooling5%。我們注意到,Convolution pooling的方法使用長片段,因此其片段級精度與C3D和DeepVideo的準(zhǔn)確性不能直接相比。

C3D視頻描述符:訓(xùn)練后,C3D可用作其他視頻分析任務(wù)的特征提取器。為了提取C3D特征,視頻被分割成16幀長的片段,在兩個連續(xù)片段之間具有8幀重疊。這些片段被傳遞到C3D網(wǎng)絡(luò)以提取fc6激活。對這些片段fc6激活進(jìn)行平均以形成4096維的視頻描述符,然后接著做L2標(biāo)準(zhǔn)化。在所有實(shí)驗(yàn)中,我們將此表示法稱為C3D視頻描述符/特征,除非我們明確指出差異。

C3D學(xué)習(xí)什么?我們使用反卷積方法來了解C3D內(nèi)部學(xué)習(xí)。我們觀察到,C3D首先關(guān)注前幾幀的外觀,并跟蹤后續(xù)幀中的顯著運(yùn)動。 圖4可視化兩個C3D conv5b特征映射圖的反卷積,最大的激活投射回圖像空間。在第一個例子中,特征集中在整個人身上,然后跟蹤其余幀上撐桿跳表演的運(yùn)動。類似地,在第二個例子中,它首先關(guān)注眼睛,然后在化妝的同時跟蹤眼睛周圍發(fā)生的運(yùn)動。因此,C3D與標(biāo)準(zhǔn)2D ConvNets的不同之處在于它有選擇地參與運(yùn)動和外觀。我們在補(bǔ)充材料中提供更多的可視化,以更好地了解學(xué)習(xí)的特征。

圖4. C3D模型可視化。有趣的是,C3D捕獲了前幾幀的外觀,但其后僅出現(xiàn)在顯著的運(yùn)動上。

4. 動作識別

數(shù)據(jù)集:我們評估UCF101數(shù)據(jù)集上的C3D特征。數(shù)據(jù)集由101個人類動作類別的13,320個視頻組成。我們使用此數(shù)據(jù)集提供的三個拆分設(shè)置。

分類模型:我們提取C3D特征并將其輸入到用于訓(xùn)練模型的多類線性SVM。我們使用3個不同網(wǎng)絡(luò)的C3D描述符進(jìn)行試驗(yàn):在I380K上訓(xùn)練的C3D,在Sports-1M上訓(xùn)練的C3D,以及在I380K上訓(xùn)練并在Sports-1M上進(jìn)行微調(diào)的C3D。在多網(wǎng)絡(luò)設(shè)置中,我們堆疊這些網(wǎng)絡(luò)的L2標(biāo)準(zhǔn)化C3D描述符。

基準(zhǔn):我們比較C3D特征與幾個基準(zhǔn):目前最好的人為設(shè)計特征,即改進(jìn)的密集軌跡(iDT),以及流行的深層圖像特征,即Imagenet,使用Caffe的Imagenet預(yù)訓(xùn)練模型。對于iDT,我們使用iDT的每個特征通道(軌跡、HOG、HOF、MBHx和MBHy)的碼本大小為5000的碼字表示。我們使用L1范數(shù)分別對每個通道的直方圖進(jìn)行歸一化,并且堆疊這些歸一化直方圖以形成一個視頻的25K特征向量。對于Imagenet基準(zhǔn),類似于C3D,我們?yōu)槊恳粠崛magenet fc6特征,平均這些幀特征來制作視頻描述符。對于這兩個基準(zhǔn),也可以使用多類線性SVM進(jìn)行公平比較。

結(jié)果:表3顯示了與兩個基準(zhǔn)相比較的C3D的動作識別準(zhǔn)確度和當(dāng)前最佳方法。上面部分顯示了兩個基準(zhǔn)的結(jié)果。中間部分顯示了僅使用RGB幀作為輸入的方法。而下面部分報告了使用所有可能的特征組合(例如光流,iDT)的所有當(dāng)前最佳方法。

表3. UCF101的動作識別結(jié)果。C3D與基準(zhǔn)和當(dāng)前最先進(jìn)的方法相比。頂部:線性SVM的簡單特征; 中間:僅采用RGB幀作為輸入的方法;底部:使用多個特征組合的方法。

C3D微調(diào)網(wǎng)絡(luò)在前面描述的三個C3D網(wǎng)絡(luò)中表現(xiàn)最好。然而,這三個網(wǎng)絡(luò)之間的效果差距很小(1%)。 從現(xiàn)在開始,除非另有說明,否則我們將微調(diào)后的網(wǎng)絡(luò)稱為C3D。C3D使用一個僅具有4,096維的網(wǎng)絡(luò),得到了82.3%的精度。具有3個網(wǎng)絡(luò)的C3D將精度提高到85.2%,維度增加到12,288。C3D與iDT組合進(jìn)一步將精度提高到90.4%,而與Imagenet相結(jié)合,我們觀察到只有0.6%的提高。這表明C3D可以很好地捕獲外觀和運(yùn)動信息,因此與Imagenet相結(jié)合沒有任何好處,Imagenet是基于外觀的深層特征。另一方面,將C3D與iDT相結(jié)合是有益的,因?yàn)樗鼈儽舜烁叨然パa(bǔ)。事實(shí)上,iDT是基于光流跟蹤和低級梯度直方圖的人為設(shè)計特征,而C3D則捕獲高級抽象/語義信息。

具有3個網(wǎng)絡(luò)的C3D了達(dá)到85.2%,比iDT和Imagenet基線分別提高了9%和16.4%。 在只有RGB輸入設(shè)置中,與基于CNN的方法相比,我們的C3D在[36]中分別優(yōu)于深度網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)為19.8%和12.6%。深層網(wǎng)絡(luò)和[36]的空間流網(wǎng)絡(luò)都使用AlexNet架構(gòu)。在[18]中,網(wǎng)絡(luò)由他們在Sports-1M上預(yù)訓(xùn)練的模型進(jìn)行微調(diào),[36]中的空間流網(wǎng)絡(luò)由Imagenet預(yù)訓(xùn)練模型進(jìn)行了微調(diào)。我們的C3D在網(wǎng)絡(luò)架構(gòu)和基本操作方面與這些CNN基礎(chǔ)方法不同。此外,C3D已經(jīng)在Sports-1M上進(jìn)行了訓(xùn)練,并且在沒有任何微調(diào)的情況下被使用。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法相比,C3D性能分別優(yōu)于長期循環(huán)卷積網(wǎng)絡(luò)(LRCN)和LSTM復(fù)合模型14.1%和9.4%。 只有RGB輸入的C3D在使用光流和RGB以及[36]中的時間流網(wǎng)絡(luò)時仍然優(yōu)于這兩種基于RNN的方法。 然而,C3D需要與iDT組合以優(yōu)于雙流網(wǎng)絡(luò),另一種基于iDT的方法[31,25]以及專注于長期建模的方法[29]。 除了有希望的數(shù)字外,與其他方法相比,C3D還具有簡單的優(yōu)點(diǎn)。

C3D是緊湊的:為了評估C3D特征的緊湊性,我們使用PCA將特征投影到較低維度,并使用線性SVM報告在UCF101上投影特征的分類精度。我們對iDT ]和Imagenet特征應(yīng)用相同的過程,并比較圖5中的結(jié)果。在僅有10個維度的極限設(shè)置下,C3D精度為52.8%,比Imagenet和iDT的準(zhǔn)確度高出20% 的,Imagenet和iDT的準(zhǔn)確度約為32%。在50和100維度時,C3D得到的精度為72.6%和75.6%,比Imagenet和iDT好10-12%。最后,具有500個維度,C3D能夠?qū)崿F(xiàn)79.4%的精度,比iDT好6%,比Imagenet好11%。這表明我們的特征既緊湊又具有識別力。這對于低存儲成本和快速檢索至關(guān)重要的大規(guī)模檢索應(yīng)用非常有用。

圖5. C3D與Imagenet和iDT在低尺寸下的比較。C3D,Imagenet和iDT在UCF101上使用PCA維數(shù)降低和線性SVM的精度。C3D在低尺寸下優(yōu)于Imagenet和iDT 10-20%。
圖6.特征嵌入。在UCF101數(shù)據(jù)集上使用t-SNE對Imagenet和C3D的特征嵌入可視化。與Imagenet相比,C3D特征在語義上可分離,表明對于視頻它是更好的特征。 每個片段可視化為一個點(diǎn),屬于同一動作的片段具有相同的顏色。

我們定性地評估了學(xué)習(xí)到的C3D特征,以通過可視化嵌入在另一個數(shù)據(jù)集上的學(xué)習(xí)特征來驗(yàn)證它是否是視頻的一個很好的通用特征。我們從UCF101隨機(jī)選擇100K個片段,然后使用來自Imagenet和C3D的特征來提取這些片段的fc6特征。然后使用t-SNE將這些特征投影到二維空間。 圖6顯示了嵌入在UCF101上Imagenet和C3D的特征。值得注意的是,我們沒有做任何微調(diào),因?yàn)槲覀兿腧?yàn)證這些特征是否顯示出跨數(shù)據(jù)集的良好的泛化能力。我們定量觀察到C3D優(yōu)于Imagenet。


5. 動作相似性標(biāo)簽

數(shù)據(jù)集:ASLAN數(shù)據(jù)集由432個動作類的3,631個視頻組成。任務(wù)是預(yù)測給定的一對視頻對象是否屬于相同或不同的動作。 我們使用數(shù)據(jù)集提供的拆分進(jìn)行規(guī)定的10折交叉驗(yàn)證。這個問題與動作識別不同,因?yàn)槿蝿?wù)著重于預(yù)測動作相似性而不是實(shí)際動作標(biāo)簽。這個任務(wù)是非常具有挑戰(zhàn)性的,因?yàn)闇y試集包含“從未見過的”動作的視頻。

特征:我們將視頻分為重疊8幀的16幀片段。我們提取每個片段的C3D特征:prob,fc7,fc6,pool5。通過分別平均每種特征類型的片段特征,然后進(jìn)行L2歸一化,來計算視頻特征。

分類模型:我們遵循[21]中使用的相同設(shè)置。給出一對視頻,我們計算[21]中提供的12個不同的距離。具有4種特征,我們從每對視頻獲得48維(12×4 = 48)特征向量。由于這48個距離彼此無法比較,我們將它們獨(dú)立地歸一化,使得每個維度具有零平均值和單位方差。最后,訓(xùn)練線性SVM以根據(jù)這48維特征向量將視頻對歸類為相同或不同的。除了與當(dāng)前的方法進(jìn)行比較,我們還使用基于深度圖像的特征將C3D與強(qiáng)基線進(jìn)行比較?;鶞?zhǔn)與我們的C3D設(shè)置相同,我們用Imagenet特征替換C3D特征。

結(jié)論:我們報告C3D的結(jié)果并與表4中的最佳方法進(jìn)行比較。盡管目前大多數(shù)方法使用多種人為設(shè)計特征,強(qiáng)編碼方法(VLAD,F(xiàn)isher Vector)和復(fù)雜的學(xué)習(xí)模型,但我們的方法使用一種視頻上的C3D特征和線性SVM的簡單平均。C3D在ROC曲線(AUC)下顯著優(yōu)于最先進(jìn)的方法,精度提升了9.6%,面積提升了11.1%。Imagenet基線表現(xiàn)相當(dāng)好,僅比最佳方法低1.2%,但由于缺乏運(yùn)動模型,比C3D差10.8%。圖7繪制了C3D與當(dāng)前方法和人類表現(xiàn)相比的ROC曲線。C3D已經(jīng)顯著提升,這是目前最先進(jìn)的方法到人類表現(xiàn)(98.9%)的一半。

表4. ASLAN的動作相似性標(biāo)注結(jié)果。C3D顯著優(yōu)于最先進(jìn)的方法[45],精度提升了9.6%,ROC曲線下面積提升了11.1%。
圖7.動作相似性標(biāo)注結(jié)果。C3D的ROC曲線在ASLAN上評估。C3D在AUC上達(dá)到86.5%,優(yōu)于目前最先進(jìn)的11.1%。

6. 場景和目標(biāo)識別

數(shù)據(jù)集:對于動態(tài)場景識別,我們在兩個基準(zhǔn)上評估C3D:YUPENN和Maryland。 YUPENN包括14個場景類別的420個視頻,Maryland有13個場景類別的130個視頻。 對于對事物識別,我們測試了自然中心數(shù)據(jù)集[32]上的C3D,它包含42種類型的日常事物。 值得注意的是,該數(shù)據(jù)集是以自我為中心的,所有視頻都記錄在第一人稱視圖中,它們具有與我們在訓(xùn)練數(shù)據(jù)集中擁有的任何視頻所完全不同的外觀和運(yùn)動特征。

分類模型:對于兩個數(shù)據(jù)集,我們使用相同的特征提取體系和線性SVM進(jìn)行分類,并遵循這些數(shù)據(jù)集的作者所述的相同的留一法估計協(xié)議。 對于事物數(shù)據(jù)集,標(biāo)準(zhǔn)評估基于幀。 但是,C3D會拍攝長度為16幀的視頻片段來提取特征。 我們在所有視頻中滑動16幀的窗口,以提取C3D特征。我們選擇每個片段的地面真實(shí)標(biāo)簽作為片段最常發(fā)生的標(biāo)簽。 如果片段中最常見的標(biāo)簽發(fā)生少于8幀,我們認(rèn)為它是沒有事物的負(fù)片段,并在訓(xùn)練和測試中丟棄它。 我們使用線性SVM訓(xùn)練和測試C3D特征,并報告事物識別精度。 我們遵循[32]中提供的相同分割。我們還在這3個基準(zhǔn)上對C3D與使用Imagenet特征基準(zhǔn)線進(jìn)行比較。

結(jié)果:表5報告了我們的C3D結(jié)果,并將其與當(dāng)前最佳方法進(jìn)行比較。在場景分類中,C3D在Maryland和YUPENN分別優(yōu)于最先進(jìn)的方法10%和1.9%。C3D僅使用具有簡單平均片段特征的線性SVM是不值得的,而第二好的方法[9]使用不同的復(fù)雜特征編碼(FV,LLC和動態(tài)池)。 Imagenet基線在Maryland與C3D表現(xiàn)相似,在YUPENN上比C3D低1.4%。在事物識別方面,只有線性SVM的情況下,C3D獲得22.3%的精度,優(yōu)于[32]10.3%,比較方法在強(qiáng)SIFT-RANSAC特征匹配的情況下使用RBF-內(nèi)核。與Imagenet基線相比,C3D更差3.4%。這可以解釋為與Imagenet使用的全尺寸分辨率(256×256)相比,C3D使用較小的輸入分辨率(128×128)。由于C3D僅在Sports-1M視頻上進(jìn)行了訓(xùn)練,而沒有任何微調(diào),而Imagenet已經(jīng)對1000個事物類別進(jìn)行了全面訓(xùn)練,因此我們并不期望C3D能夠很好地完成此任務(wù)。結(jié)果非常令人驚訝,并顯示了通用C3D如何捕捉視頻中的外觀和運(yùn)動信息。

表5.場景識別精度。使用簡單線性SVM的C3D優(yōu)于Maryland和YUPENN上的當(dāng)前方法。

7. 運(yùn)行時間分析

我們比較C3D和iDT和時間流網(wǎng)絡(luò)的運(yùn)行時間。對于iDT,我們使用作者提供的代碼。對于時間流網(wǎng)絡(luò),沒有可用的評估公共模型。然而,該方法使用Brox的光流作為輸入。我們設(shè)法使用兩種不同的版本來評估Brox方法的運(yùn)行時間:作者提供的CPU實(shí)現(xiàn)和OpenCV中提供的GPU實(shí)現(xiàn)。

我們報告上述三種方法的運(yùn)行時間,以使用單個CPU或單個K40 Tesla GPU來提取表6中整個UCF101數(shù)據(jù)集的特征(包括I/O)。[36]報告了一對圖像的計算時間(無I/O)為0.06s。在我們的試驗(yàn)中,Brox的GPU實(shí)現(xiàn)需要0.85-0.9s每個圖像對,包括I/O。請注意,對于iDT這不是公平的比較,因?yàn)樗皇褂肅PU。我們找不到此方法的任何GPU實(shí)現(xiàn),并且在GPU上實(shí)現(xiàn)此算法的并行版本并不是微不足道的。請注意,C3D比實(shí)時快得多,處理速度為313 fps,而其他兩種方法的處理速度小于4 fps。

表6. UCF101的運(yùn)行時間分析。C3D比iDT快了91倍,比Brox在OpenCV中的GPU實(shí)現(xiàn)速度快了274倍。

8.結(jié)論

在這項(xiàng)工作中,我們試圖解決使用經(jīng)過大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的3D ConvNets來學(xué)習(xí)視頻的時空特征的問題。我們進(jìn)行了系統(tǒng)的研究,以找到3D ConvNets的最佳時間核長度。我們展示了C3D可以同時對外觀和運(yùn)動信息進(jìn)行建模,在各種視頻分析任務(wù)上優(yōu)于2D ConvNet特征。我們展示了具有線性分類器的C3D特征可以在不同的視頻分析基準(zhǔn)上勝過或接近現(xiàn)行的最佳方法。最后,提出的C3D特征是高效的、緊湊的、使用非常簡單的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容