欧洲亚洲国产一区二区,伊人亚洲AV字母,日韩深夜在线

摘要

針對時空特征的學(xué)習(xí)，我們提出了一個簡單有效的方法，在大規(guī)模有監(jiān)督視頻數(shù)據(jù)集上使用深度3維卷積網(wǎng)絡(luò)(3D ConvNets)。我們有3個發(fā)現(xiàn)：

3D ConvNets比2D ConvNets更適用于時空特征的學(xué)習(xí)；
對于3D ConvNet而言，在所有層使用3×3×3的小卷積核效果最好；
我們通過簡單的線性分類器學(xué)到的特征名為C3D(Convolutional 3D)，在4個不同的基準(zhǔn)上優(yōu)于現(xiàn)有的方法，并在其他2個基準(zhǔn)上與目前最好的方法相當(dāng)。

此外，特征是緊湊的：在UCF101數(shù)據(jù)集上得到52.8%的準(zhǔn)確率只用了10維，并且由于ConvNets的推斷快，計算效率非常高。最后，它們在概念上非常簡單，易于訓(xùn)練和使用。

1. 引言

互聯(lián)網(wǎng)上的多媒體正在迅速增長，每分鐘都有越來越多的視頻被分享。為了對抗信息爆炸，必須了解和分析這些視頻，如搜索、推薦、排名等。計算機(jī)視覺領(lǐng)域幾十年來一直致力于視頻分析，并解決了諸如動作識別、異常事件檢測、活動理解等不同問題。通過使用不同的具體解決方案，在這些個體問題上已經(jīng)取得了相當(dāng)大的進(jìn)展。然而，需要一種通用視頻描述符，這有助于以同樣的方式解決大規(guī)模視頻任務(wù)。

一個有效的視頻描述符有四個屬性：

通用性，可以表示不同類型的視頻，同時具有可區(qū)分性。例如，網(wǎng)絡(luò)視頻可以是自然風(fēng)光、運(yùn)動、電視節(jié)目、電影、寵物、食物等；
描述符必須是緊湊的：由于我們需要處理數(shù)百萬的視頻，一個緊湊的描述符有助于處理，存儲和檢索任務(wù)，更具可擴(kuò)展性；
計算高效，因?yàn)樵诂F(xiàn)實(shí)世界中，每一分鐘都需要處理成千上萬的視頻；
實(shí)現(xiàn)簡單，不使用復(fù)雜的特征編碼方法和分類器，一個好的描述符即使是一個簡單的模型(如線性分類器)也能很好地工作。

受到深度學(xué)習(xí)在圖像領(lǐng)域突破的啟發(fā)，在過去幾年里，在特征學(xué)習(xí)方面取得了快速的進(jìn)步，各種預(yù)訓(xùn)練卷積網(wǎng)絡(luò)(ConvNets)模型可用于提取圖像特征。這些特征是網(wǎng)絡(luò)最后幾個全連接層的激活值，在遷移學(xué)習(xí)任務(wù)中表現(xiàn)良好。但是由于缺少運(yùn)動建模(在4,5,6節(jié)的實(shí)驗(yàn)中)，這些基于圖像的深度特征并不直接適用于視頻。本文我們使用深度3D ConvNet來學(xué)習(xí)時空特征。經(jīng)驗(yàn)表明，這些學(xué)習(xí)的特征與簡單的線性分類器在各種視頻分析任務(wù)中效果良好。雖然3D ConvNet以前就有人提出，但據(jù)我們所知，本工作在大規(guī)模有監(jiān)督訓(xùn)練集和現(xiàn)代深度學(xué)習(xí)框架的背景下利用3D ConvNet，在不同的視頻分析任務(wù)中的得到最好的性能。3D ConvNet提取的特征封裝了視頻中與目標(biāo)、場景、動作有關(guān)的信息，使得這些特征對不同的任務(wù)都有用，而不需要對每個任務(wù)都微調(diào)模型。C3D是好的描述符：通用、緊湊、簡單、高效?？偠灾?，我們這篇論文的貢獻(xiàn)是：

我們的實(shí)驗(yàn)表明3D卷積深度網(wǎng)絡(luò)是好的學(xué)習(xí)器，可以對外觀和運(yùn)動同時建模。
我們的經(jīng)驗(yàn)發(fā)現(xiàn)，在有限的探究框架中，所有層使用3×3×3卷積核效果最好。
在4個任務(wù)和4個基準(zhǔn)上，提出的特征通過簡單的線性模型可以超過或接近目前最好的方法(見表1)。這些特征緊湊、計算高效。

表1 比較C3D與最好的公開結(jié)果。在一系列的基準(zhǔn)上，C3D優(yōu)于所有先前最好的報告方法，除了Sports-1M和UCF101。在UCF101，我們匯報了2組方法，第一組方法只使用了RGB幀作為輸入，而第二組方法(括號里)使用了可能的特征(如：光流、改進(jìn)的密集軌跡)

2. 相關(guān)工作

計算機(jī)視覺領(lǐng)域研究視頻已有幾十年。這些年來，動作識別、異常檢測、視頻檢索、運(yùn)動檢測等不同問題被提出。這些工作的相當(dāng)一部分是關(guān)于視頻表示。Laptev和Lindeberg提出時空興趣點(diǎn)(STIPs)，通過擴(kuò)展Harris邊角檢測器。SIFT和HOG也被擴(kuò)展成SIFT-3D和HOG-3D從而進(jìn)行動作識別。Dollar等人為行為識別提出長方體特征。Sadanand和Corso建立了行為識別的ActionBank。最近，Wang等人提出改進(jìn)的密集軌跡(iDT)，這是現(xiàn)在最好的人為設(shè)計特征。iDT描述符I是一個有趣的例子，表明時間信號的處理可以不同于空間信號。與擴(kuò)展Harris邊角檢測器到3D不同，它從視頻幀中密集采樣的特征點(diǎn)開始，并利用光流跟蹤它們。對于每個跟蹤器邊角，沿著軌跡提取不同的人為設(shè)計特征。盡管它的性能很好，但是這種方法計算量很大，并且在大規(guī)模數(shù)據(jù)集中變得棘手。

最近，隨著強(qiáng)大的并行機(jī)(GPU，CPU集群)的應(yīng)用，以及大量的訓(xùn)練數(shù)據(jù)，卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)已經(jīng)成為視覺識別的突破。 ConvNets也被應(yīng)用于圖像和視頻中的人體姿態(tài)理解的問題。更有趣的是，這些深層網(wǎng)絡(luò)用于圖像特征學(xué)習(xí)。同樣，Zhou等人在遷移學(xué)習(xí)任務(wù)上表現(xiàn)良好。深度學(xué)習(xí)也被應(yīng)用于無監(jiān)督設(shè)置的視頻特征學(xué)習(xí)。在Le 等人的研究中，作者使用堆疊的ISA來學(xué)習(xí)視頻的時空特征。雖然這種方法在動作識別方面表現(xiàn)出良好的效果，但是在訓(xùn)練上仍然是計算密集型，并且難以擴(kuò)展到大規(guī)模數(shù)據(jù)集的測試。3D ConvNets被提出用于人類動作識別和醫(yī)學(xué)圖像分割。限制玻爾茲曼機(jī)器也使用3D卷積來學(xué)習(xí)時空特征。最近，Karpathy等在大型視頻數(shù)據(jù)集上進(jìn)行深度網(wǎng)絡(luò)訓(xùn)練，以分類視頻。 Simonyan和Zisserman使用雙流網(wǎng)絡(luò)來獲得最佳的動作識別結(jié)果。

在這些方法中，3D ConvNets方法與我們最密切相關(guān)。該方法使用人體檢測器和頭部跟蹤來在視頻中分割人類受試者。分段視頻卷作為3個卷積層的3D ConvNet的輸入以對動作進(jìn)行分類。相比之下，我們的方法將完整的視頻幀作為輸入，并且不依賴于任何預(yù)處理，因此容易地擴(kuò)展到大型數(shù)據(jù)集。我們也與Karpathy等人有一些相似之處。以及Simonyan和Zisserman使用全幀來訓(xùn)練ConvNet。然而，這些方法建立在僅使用2D卷積和2D池化操作(Slow Fusion模型除外)，而我們的模型執(zhí)行3D卷積和3D池化在網(wǎng)絡(luò)中的所有層中傳播時間信息(進(jìn)一步詳細(xì)描述在第3節(jié))。我們還顯示，逐步池化空間和時間信息，建立更深層次的網(wǎng)絡(luò)可以取得最佳效果，我們將在3.2節(jié)討論有關(guān)體系結(jié)構(gòu)搜索的更多信息。

3. 使用3D ConvNets學(xué)習(xí)特征

在本節(jié)中，我們詳細(xì)介紹了3D ConvNets的基本操作，經(jīng)驗(yàn)地分析了3D ConvNets的不同結(jié)構(gòu)，并闡述了如何在的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí)特征。

3.1. 3D卷積和池化

我們認(rèn)為3D ConvNet非常適合于時空特征學(xué)習(xí)。與2D ConvNet相比，3D ConvNet能夠通過3D卷積和3D池化操作更好地建模時間信息。在3D ConvNets中，卷積和池化操作在時空上執(zhí)行，而在2D ConvNets中，它們僅在空間上完成。圖1示出了差異，應(yīng)用于一個圖像的2D卷積將輸出一個圖像，施加在多個圖像上的2D卷積(將它們視為不同的通道)也輸出一個圖像。因此，2D ConvNets在每次卷積運(yùn)算之后就會丟失輸入信號的時間信息。只有3D卷積才能保留輸入信號的時間信息，從而產(chǎn)生輸出卷。相同的現(xiàn)象適用于2D和3D池化。在[36]中，雖然時間流網(wǎng)絡(luò)采用多個幀作為輸入，但是由于2D卷積，在第一卷積層之后，時間信息完全消失了。類似地，融合模型使用2D卷積，大多數(shù)網(wǎng)絡(luò)在第一卷積層之后失去其輸入的時間信號。只有[18]中的慢融合模型才能在其前3個卷積層中使用3D卷積和平均池化。我們認(rèn)為這是在[18]的研究在所有網(wǎng)絡(luò)中表現(xiàn)最好的關(guān)鍵原因。然而，它仍然在第三個卷積層之后失去所有時間信息。

圖1. 2D和3D卷積運(yùn)算。a)在一個圖像上應(yīng)用2D卷積會產(chǎn)生一個圖像。b)在視頻卷上應(yīng)用2D卷積(多個幀作為多個通道)也會產(chǎn)生一個圖像。c)在視頻卷上應(yīng)用3D卷積可產(chǎn)生另一個卷，保留輸入信號的時間信息。

在本節(jié)中，我們通過經(jīng)驗(yàn)嘗試找出一個良好的3D ConvNets架構(gòu)。由于在大型視頻數(shù)據(jù)集上訓(xùn)練深層網(wǎng)絡(luò)非常耗時，我們首先嘗試使用中型數(shù)據(jù)集UCF101來搜索最佳架構(gòu)。我們使用較少數(shù)量的網(wǎng)絡(luò)實(shí)驗(yàn)在大型數(shù)據(jù)集中來驗(yàn)證發(fā)現(xiàn)。根據(jù)2D ConvNet的研究結(jié)果，具有更深體系結(jié)構(gòu)的3×3卷積內(nèi)核的小感受野產(chǎn)生最佳效果。因此，對于我們的架構(gòu)搜索研究，我們將空間感受野確定為3×3，僅改變3D卷積核的時間深度。

符號：為了簡單起見，從現(xiàn)在開始，我們將視頻片段尺寸定義為c×l×h×w，其中c是通道數(shù)，l是幀數(shù)的長度，h和w分別是幀的高度和寬度。我們還將3D卷積和池化核大小指向d×k×k，其中d是核的時間深度，k是核的空間大小。

通用網(wǎng)絡(luò)設(shè)置：在本節(jié)中，我們將介紹我們訓(xùn)練的所有網(wǎng)絡(luò)通用的網(wǎng)絡(luò)設(shè)置。網(wǎng)絡(luò)設(shè)置為將視頻片段作為輸入，并預(yù)測屬于101個不同動作的類標(biāo)簽。所有視頻幀都被調(diào)整為128×171。這大約是UCF101幀的一半分辨率。視頻被分割成非重疊的16幀片段，然后將其用作網(wǎng)絡(luò)的輸入。輸入尺寸為3×16×128×171。我們還通過在訓(xùn)練期間使用尺寸為3×16×112×112的隨機(jī)裁剪來使用抖動。網(wǎng)絡(luò)具有5個卷積層和5個池化層(每個卷積層緊隨其后的是池化層)，2個完全連接的層和softmax損耗層以預(yù)測動作標(biāo)簽。對于5個卷積層，從1到5卷積層的濾波器數(shù)量分別為64,128,256,256,256。

所有卷積核大小的d是核時間深度(稍后將改變這些層的值d以搜索良好的3D結(jié)構(gòu))。所有這些卷積層都應(yīng)用適當(dāng)?shù)奶畛?空間和時間)和步長1，因此這些卷積層從輸入到輸出的尺寸沒有變化。所有池化層都是尺寸為2×2×2(第一層除外)、步長為1的最大值池化，這意味著與輸入信號相比，輸出信號的大小減小到1/8。第一個池化核大小為1×2×2，其意圖是不能太早地合并時間信號，并且也能夠滿足16幀的片段長度(例如，在完全崩潰之前，我們可以暫時將時間信號進(jìn)行最多4次2倍池化)。兩個全連接層有2048個輸出。我們從頭開始使用30個片段的小批量訓(xùn)練網(wǎng)絡(luò)，初始學(xué)習(xí)率為0.003。學(xué)習(xí)率在每4個周期之后除以10。訓(xùn)練在16個周期之后停止。

不同的網(wǎng)絡(luò)架構(gòu)：根據(jù)本研究的目的，我們主要關(guān)注如何通過深層網(wǎng)絡(luò)聚合時間信息。為了尋找一個很好的3D ConvNet架構(gòu)，我們只改變卷積核時間深度di，同時保持所有其他常見設(shè)置如上所述。我們嘗試兩種類型的架構(gòu)：1)均勻時間深度：所有卷積核具有相同的時間深度；2)變化的時間深度：不同層的卷積核時間深度不同。對于均勻設(shè)置，我們試驗(yàn)了具有d=1,3,5,7的時間深度的4個網(wǎng)絡(luò)。我們將這些網(wǎng)絡(luò)命名為depth-d，其中d是其均勻時間深度。請注意，depth-1網(wǎng)絡(luò)相當(dāng)于在單獨(dú)的幀上應(yīng)用2D卷積。對于變化的時間深度設(shè)置，我們分別從第一到第五卷積層試驗(yàn)了兩個網(wǎng)絡(luò)，時間深度增加的：3-3-5-5-7和時間深度增加減少的：7-5-5-3-3。我們注意到，所有這些網(wǎng)絡(luò)在最后一個池化層具有相同的輸出信號大小，因此它們的全連接層具有相同數(shù)量的參數(shù)。由于不同的核時間深度，它們的參數(shù)數(shù)量在卷積層上是不同的。與全連接層中的數(shù)百萬個參數(shù)相比，這些差異是相當(dāng)微小的。例如，上述時間深度差為2的網(wǎng)絡(luò)中只有17K左右的參數(shù)。參數(shù)數(shù)量的最大差異在于depth-1和depth-7網(wǎng)絡(luò)之間，depth-7網(wǎng)絡(luò)具有51K以上的參數(shù)，小于每個網(wǎng)絡(luò)17.5百萬參數(shù)的0.3％。這表明網(wǎng)絡(luò)的學(xué)習(xí)能力是可比較的，參數(shù)數(shù)量的差異不應(yīng)影響我們的架構(gòu)搜索結(jié)果。

3.2.探索內(nèi)核時間深度

我們在UCF101訓(xùn)練集split-1上訓(xùn)練這些網(wǎng)絡(luò)。圖2顯示了不同架構(gòu)在UCF101測試集split-1上的精度。左圖顯示了具有均勻時間深度的網(wǎng)絡(luò)的結(jié)果，右圖顯示了變化時間深度的網(wǎng)絡(luò)的結(jié)果。Depth-3在均勻網(wǎng)絡(luò)中表現(xiàn)最好。請注意，depth-1比其他網(wǎng)絡(luò)明顯更差，我們認(rèn)為是由于缺乏運(yùn)動建模。與不變化時間深度網(wǎng)絡(luò)相比，depth-3是表現(xiàn)最好的，但差距較小。我們還嘗試更大的感知野(例如5×5)和/或全輸入分辨率(240×320)，效果差不多。這表明3×3×3是3D ConvNets的最佳的選擇(根據(jù)我們的實(shí)驗(yàn)子集)，在視頻分類中3D ConvNets始終優(yōu)于2D ConvNets。我們還驗(yàn)證了3D ConvNet在大規(guī)模內(nèi)部數(shù)據(jù)集(即I380K)上的性能優(yōu)于2D ConvNet。

圖2. 3D卷積核時間深度搜索。不同卷積核時間深度設(shè)置在UCF101測試集split-1上的精度。2D ConvNet效果最差，3×3×3卷積核的3D ConvNet在實(shí)驗(yàn)中表現(xiàn)最佳。

3.3.時空特征學(xué)習(xí)

網(wǎng)絡(luò)架構(gòu)：上一節(jié)的發(fā)現(xiàn)表明，3×3×3卷積核的均勻設(shè)置是3D ConvNets的最佳選擇。這個發(fā)現(xiàn)與2D ConvNets一致。使用大型數(shù)據(jù)集，可以根據(jù)機(jī)器內(nèi)存限制和計算承受能力，盡可能深入地訓(xùn)練具有3×3×3核的3D ConvNet。使用目前的GPU內(nèi)存，我們設(shè)計了3D ConvNet，具有8個卷積層、5個池化層、兩個全連接層，以及一個softmax輸出層。網(wǎng)絡(luò)架構(gòu)如圖3所示。為了簡單起見，我們從現(xiàn)在開始將這個網(wǎng)絡(luò)稱為C3D。所有3D卷積濾波器均為3×3×3，步長為1×1×1。為了保持早期的時間信息設(shè)置pool1核大小為1×2×2、步長1×2×2，其余所有3D池化層均為2×2×2，步長為2×2×2。每個全連接層有4096個輸出單元。

圖3. C3D架構(gòu)。C3D網(wǎng)絡(luò)有8個卷積層，5個最大池化層和2個全連接層，最后是softmax輸出層。所有的3D卷積核都是3×3×3，在空間和時間上都有步長1。濾波器的數(shù)量表示在每個框中。3D池化層由pool1到pool5表示。所有池化核為2×2×2，除了pool1為1×2×2。每個全連接層有4096個輸出單元。

數(shù)據(jù)集：為了學(xué)習(xí)時空特征，我們在Sports-1M數(shù)據(jù)集上訓(xùn)練C3D，這是目前最大的視頻分類基準(zhǔn)。數(shù)據(jù)集由110萬個體育視頻組成。每個視頻屬于487個運(yùn)動類別之一。與UCF101相比，Sports-1M具有5倍的類別和100倍的視頻數(shù)量。

訓(xùn)練：在Sports-1M訓(xùn)練集上進(jìn)行訓(xùn)練。由于Sports-1M有許多長視頻，我們從每個訓(xùn)練視頻中隨機(jī)提取出2秒長的五個片段。片段調(diào)整幀大小為128×171。在訓(xùn)練中，我們隨機(jī)將輸入片段裁剪成16×112×112片段，對于空間和時間抖動。我們也以50％的概率水平翻轉(zhuǎn)它們。訓(xùn)練由SGD完成，batch size為30。初始學(xué)習(xí)率為0.003，每150K次迭代除以2。優(yōu)化在1.9M迭代(約13epochs)停止。除了從頭開始訓(xùn)練C3D外，我們還從在I380K上預(yù)先訓(xùn)練的模型中對C3D網(wǎng)進(jìn)行了微調(diào)。

Sports-1M分類結(jié)果：表2顯示了C3D與DeepVideo和Convolution pooling的比較結(jié)果。我們每個片段只使用一個中心裁剪，并通過網(wǎng)絡(luò)進(jìn)行片段預(yù)測。對于視頻預(yù)測，我們平均片段預(yù)測從視頻中隨機(jī)提取的10個片段。值得注意的是比較方法之間的一些設(shè)置差異。DeepVideo和C3D使用短片段，而Convolution pooling使用更長的片段。DeepVideo使用更多的裁剪：每個片段4個裁剪，每個視頻80個裁剪，C3D分別使用1個和10個。top-5精度下，從頭開始訓(xùn)練的C3D網(wǎng)絡(luò)得到了84.4％的準(zhǔn)確度，從I380K預(yù)訓(xùn)練模型中微調(diào)的C3D網(wǎng)絡(luò)為85.5％。兩個C3D網(wǎng)絡(luò)都勝過DeepVideo網(wǎng)絡(luò)。 C3D仍比Convolution pooling的方法低5.6％。然而，這種方法在120幀的長片段上使用深度圖像特征的卷積池化，因此它不能直接與在更短的片段上操作的C3D和DeepVideo相比較。我們注意到，該方法在片段和視頻的top-1精度中的差異很小(1.6％)，因?yàn)樗呀?jīng)使用120幀片段作為輸入。在實(shí)踐中，Convolution pooling或更復(fù)雜的聚合方案可以應(yīng)用于C3D特征之上，以提高性能。

表2. Sports-1M分類結(jié)果。C3D在top-5個視頻級精度上優(yōu)于Convolution pooling5％。我們注意到，Convolution pooling的方法使用長片段，因此其片段級精度與C3D和DeepVideo的準(zhǔn)確性不能直接相比。

C3D視頻描述符：訓(xùn)練后，C3D可用作其他視頻分析任務(wù)的特征提取器。為了提取C3D特征，視頻被分割成16幀長的片段，在兩個連續(xù)片段之間具有8幀重疊。這些片段被傳遞到C3D網(wǎng)絡(luò)以提取fc6激活。對這些片段fc6激活進(jìn)行平均以形成4096維的視頻描述符，然后接著做L2標(biāo)準(zhǔn)化。在所有實(shí)驗(yàn)中，我們將此表示法稱為C3D視頻描述符/特征，除非我們明確指出差異。

C3D學(xué)習(xí)什么？我們使用反卷積方法來了解C3D內(nèi)部學(xué)習(xí)。我們觀察到，C3D首先關(guān)注前幾幀的外觀，并跟蹤后續(xù)幀中的顯著運(yùn)動。圖4可視化兩個C3D conv5b特征映射圖的反卷積，最大的激活投射回圖像空間。在第一個例子中，特征集中在整個人身上，然后跟蹤其余幀上撐桿跳表演的運(yùn)動。類似地，在第二個例子中，它首先關(guān)注眼睛，然后在化妝的同時跟蹤眼睛周圍發(fā)生的運(yùn)動。因此，C3D與標(biāo)準(zhǔn)2D ConvNets的不同之處在于它有選擇地參與運(yùn)動和外觀。我們在補(bǔ)充材料中提供更多的可視化，以更好地了解學(xué)習(xí)的特征。

圖4. C3D模型可視化。有趣的是，C3D捕獲了前幾幀的外觀，但其后僅出現(xiàn)在顯著的運(yùn)動上。

4. 動作識別

數(shù)據(jù)集：我們評估UCF101數(shù)據(jù)集上的C3D特征。數(shù)據(jù)集由101個人類動作類別的13,320個視頻組成。我們使用此數(shù)據(jù)集提供的三個拆分設(shè)置。

分類模型：我們提取C3D特征并將其輸入到用于訓(xùn)練模型的多類線性SVM。我們使用3個不同網(wǎng)絡(luò)的C3D描述符進(jìn)行試驗(yàn)：在I380K上訓(xùn)練的C3D，在Sports-1M上訓(xùn)練的C3D，以及在I380K上訓(xùn)練并在Sports-1M上進(jìn)行微調(diào)的C3D。在多網(wǎng)絡(luò)設(shè)置中，我們堆疊這些網(wǎng)絡(luò)的L2標(biāo)準(zhǔn)化C3D描述符。

基準(zhǔn)：我們比較C3D特征與幾個基準(zhǔn)：目前最好的人為設(shè)計特征，即改進(jìn)的密集軌跡(iDT)，以及流行的深層圖像特征，即Imagenet，使用Caffe的Imagenet預(yù)訓(xùn)練模型。對于iDT，我們使用iDT的每個特征通道(軌跡、HOG、HOF、MBHx和MBHy)的碼本大小為5000的碼字表示。我們使用L1范數(shù)分別對每個通道的直方圖進(jìn)行歸一化，并且堆疊這些歸一化直方圖以形成一個視頻的25K特征向量。對于Imagenet基準(zhǔn)，類似于C3D，我們?yōu)槊恳粠崛magenet fc6特征，平均這些幀特征來制作視頻描述符。對于這兩個基準(zhǔn)，也可以使用多類線性SVM進(jìn)行公平比較。

結(jié)果：表3顯示了與兩個基準(zhǔn)相比較的C3D的動作識別準(zhǔn)確度和當(dāng)前最佳方法。上面部分顯示了兩個基準(zhǔn)的結(jié)果。中間部分顯示了僅使用RGB幀作為輸入的方法。而下面部分報告了使用所有可能的特征組合(例如光流，iDT)的所有當(dāng)前最佳方法。

表3. UCF101的動作識別結(jié)果。C3D與基準(zhǔn)和當(dāng)前最先進(jìn)的方法相比。頂部：線性SVM的簡單特征; 中間：僅采用RGB幀作為輸入的方法；底部：使用多個特征組合的方法。

C3D微調(diào)網(wǎng)絡(luò)在前面描述的三個C3D網(wǎng)絡(luò)中表現(xiàn)最好。然而，這三個網(wǎng)絡(luò)之間的效果差距很小(1％)。從現(xiàn)在開始，除非另有說明，否則我們將微調(diào)后的網(wǎng)絡(luò)稱為C3D。C3D使用一個僅具有4,096維的網(wǎng)絡(luò)，得到了82.3％的精度。具有3個網(wǎng)絡(luò)的C3D將精度提高到85.2％，維度增加到12,288。C3D與iDT組合進(jìn)一步將精度提高到90.4％，而與Imagenet相結(jié)合，我們觀察到只有0.6％的提高。這表明C3D可以很好地捕獲外觀和運(yùn)動信息，因此與Imagenet相結(jié)合沒有任何好處，Imagenet是基于外觀的深層特征。另一方面，將C3D與iDT相結(jié)合是有益的，因?yàn)樗鼈儽舜烁叨然パa(bǔ)。事實(shí)上，iDT是基于光流跟蹤和低級梯度直方圖的人為設(shè)計特征，而C3D則捕獲高級抽象/語義信息。

具有3個網(wǎng)絡(luò)的C3D了達(dá)到85.2％，比iDT和Imagenet基線分別提高了9％和16.4％。在只有RGB輸入設(shè)置中，與基于CNN的方法相比，我們的C3D在[36]中分別優(yōu)于深度網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)為19.8％和12.6％。深層網(wǎng)絡(luò)和[36]的空間流網(wǎng)絡(luò)都使用AlexNet架構(gòu)。在[18]中，網(wǎng)絡(luò)由他們在Sports-1M上預(yù)訓(xùn)練的模型進(jìn)行微調(diào)，[36]中的空間流網(wǎng)絡(luò)由Imagenet預(yù)訓(xùn)練模型進(jìn)行了微調(diào)。我們的C3D在網(wǎng)絡(luò)架構(gòu)和基本操作方面與這些CNN基礎(chǔ)方法不同。此外，C3D已經(jīng)在Sports-1M上進(jìn)行了訓(xùn)練，并且在沒有任何微調(diào)的情況下被使用。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法相比，C3D性能分別優(yōu)于長期循環(huán)卷積網(wǎng)絡(luò)(LRCN)和LSTM復(fù)合模型14.1％和9.4％。只有RGB輸入的C3D在使用光流和RGB以及[36]中的時間流網(wǎng)絡(luò)時仍然優(yōu)于這兩種基于RNN的方法。然而，C3D需要與iDT組合以優(yōu)于雙流網(wǎng)絡(luò)，另一種基于iDT的方法[31,25]以及專注于長期建模的方法[29]。除了有希望的數(shù)字外，與其他方法相比，C3D還具有簡單的優(yōu)點(diǎn)。

C3D是緊湊的：為了評估C3D特征的緊湊性，我們使用PCA將特征投影到較低維度，并使用線性SVM報告在UCF101上投影特征的分類精度。我們對iDT ]和Imagenet特征應(yīng)用相同的過程，并比較圖5中的結(jié)果。在僅有10個維度的極限設(shè)置下，C3D精度為52.8％，比Imagenet和iDT的準(zhǔn)確度高出20％的，Imagenet和iDT的準(zhǔn)確度約為32％。在50和100維度時，C3D得到的精度為72.6％和75.6％，比Imagenet和iDT好10-12％。最后，具有500個維度，C3D能夠?qū)崿F(xiàn)79.4％的精度，比iDT好6％，比Imagenet好11％。這表明我們的特征既緊湊又具有識別力。這對于低存儲成本和快速檢索至關(guān)重要的大規(guī)模檢索應(yīng)用非常有用。

圖5. C3D與Imagenet和iDT在低尺寸下的比較。C3D，Imagenet和iDT在UCF101上使用PCA維數(shù)降低和線性SVM的精度。C3D在低尺寸下優(yōu)于Imagenet和iDT 10-20％。

圖6.特征嵌入。在UCF101數(shù)據(jù)集上使用t-SNE對Imagenet和C3D的特征嵌入可視化。與Imagenet相比，C3D特征在語義上可分離，表明對于視頻它是更好的特征。每個片段可視化為一個點(diǎn)，屬于同一動作的片段具有相同的顏色。

我們定性地評估了學(xué)習(xí)到的C3D特征，以通過可視化嵌入在另一個數(shù)據(jù)集上的學(xué)習(xí)特征來驗(yàn)證它是否是視頻的一個很好的通用特征。我們從UCF101隨機(jī)選擇100K個片段，然后使用來自Imagenet和C3D的特征來提取這些片段的fc6特征。然后使用t-SNE將這些特征投影到二維空間。圖6顯示了嵌入在UCF101上Imagenet和C3D的特征。值得注意的是，我們沒有做任何微調(diào)，因?yàn)槲覀兿腧?yàn)證這些特征是否顯示出跨數(shù)據(jù)集的良好的泛化能力。我們定量觀察到C3D優(yōu)于Imagenet。

5. 動作相似性標(biāo)簽

數(shù)據(jù)集：ASLAN數(shù)據(jù)集由432個動作類的3,631個視頻組成。任務(wù)是預(yù)測給定的一對視頻對象是否屬于相同或不同的動作。我們使用數(shù)據(jù)集提供的拆分進(jìn)行規(guī)定的10折交叉驗(yàn)證。這個問題與動作識別不同，因?yàn)槿蝿?wù)著重于預(yù)測動作相似性而不是實(shí)際動作標(biāo)簽。這個任務(wù)是非常具有挑戰(zhàn)性的，因?yàn)闇y試集包含“從未見過的”動作的視頻。

特征：我們將視頻分為重疊8幀的16幀片段。我們提取每個片段的C3D特征：prob，fc7，fc6，pool5。通過分別平均每種特征類型的片段特征，然后進(jìn)行L2歸一化，來計算視頻特征。

分類模型：我們遵循[21]中使用的相同設(shè)置。給出一對視頻，我們計算[21]中提供的12個不同的距離。具有4種特征，我們從每對視頻獲得48維(12×4 = 48)特征向量。由于這48個距離彼此無法比較，我們將它們獨(dú)立地歸一化，使得每個維度具有零平均值和單位方差。最后，訓(xùn)練線性SVM以根據(jù)這48維特征向量將視頻對歸類為相同或不同的。除了與當(dāng)前的方法進(jìn)行比較，我們還使用基于深度圖像的特征將C3D與強(qiáng)基線進(jìn)行比較?；鶞?zhǔn)與我們的C3D設(shè)置相同，我們用Imagenet特征替換C3D特征。

結(jié)論：我們報告C3D的結(jié)果并與表4中的最佳方法進(jìn)行比較。盡管目前大多數(shù)方法使用多種人為設(shè)計特征，強(qiáng)編碼方法(VLAD，F(xiàn)isher Vector)和復(fù)雜的學(xué)習(xí)模型，但我們的方法使用一種視頻上的C3D特征和線性SVM的簡單平均。C3D在ROC曲線(AUC)下顯著優(yōu)于最先進(jìn)的方法，精度提升了9.6％，面積提升了11.1％。Imagenet基線表現(xiàn)相當(dāng)好，僅比最佳方法低1.2％，但由于缺乏運(yùn)動模型，比C3D差10.8％。圖7繪制了C3D與當(dāng)前方法和人類表現(xiàn)相比的ROC曲線。C3D已經(jīng)顯著提升，這是目前最先進(jìn)的方法到人類表現(xiàn)(98.9％)的一半。

表4. ASLAN的動作相似性標(biāo)注結(jié)果。C3D顯著優(yōu)于最先進(jìn)的方法[45]，精度提升了9.6％，ROC曲線下面積提升了11.1％。

圖7.動作相似性標(biāo)注結(jié)果。C3D的ROC曲線在ASLAN上評估。C3D在AUC上達(dá)到86.5％，優(yōu)于目前最先進(jìn)的11.1％。

6. 場景和目標(biāo)識別

數(shù)據(jù)集：對于動態(tài)場景識別，我們在兩個基準(zhǔn)上評估C3D：YUPENN和Maryland。 YUPENN包括14個場景類別的420個視頻，Maryland有13個場景類別的130個視頻。對于對事物識別，我們測試了自然中心數(shù)據(jù)集[32]上的C3D，它包含42種類型的日常事物。值得注意的是，該數(shù)據(jù)集是以自我為中心的，所有視頻都記錄在第一人稱視圖中，它們具有與我們在訓(xùn)練數(shù)據(jù)集中擁有的任何視頻所完全不同的外觀和運(yùn)動特征。

分類模型：對于兩個數(shù)據(jù)集，我們使用相同的特征提取體系和線性SVM進(jìn)行分類，并遵循這些數(shù)據(jù)集的作者所述的相同的留一法估計協(xié)議。對于事物數(shù)據(jù)集，標(biāo)準(zhǔn)評估基于幀。但是，C3D會拍攝長度為16幀的視頻片段來提取特征。我們在所有視頻中滑動16幀的窗口，以提取C3D特征。我們選擇每個片段的地面真實(shí)標(biāo)簽作為片段最常發(fā)生的標(biāo)簽。如果片段中最常見的標(biāo)簽發(fā)生少于8幀，我們認(rèn)為它是沒有事物的負(fù)片段，并在訓(xùn)練和測試中丟棄它。我們使用線性SVM訓(xùn)練和測試C3D特征，并報告事物識別精度。我們遵循[32]中提供的相同分割。我們還在這3個基準(zhǔn)上對C3D與使用Imagenet特征基準(zhǔn)線進(jìn)行比較。

結(jié)果：表5報告了我們的C3D結(jié)果，并將其與當(dāng)前最佳方法進(jìn)行比較。在場景分類中，C3D在Maryland和YUPENN分別優(yōu)于最先進(jìn)的方法10％和1.9％。C3D僅使用具有簡單平均片段特征的線性SVM是不值得的，而第二好的方法[9]使用不同的復(fù)雜特征編碼(FV，LLC和動態(tài)池)。 Imagenet基線在Maryland與C3D表現(xiàn)相似，在YUPENN上比C3D低1.4％。在事物識別方面，只有線性SVM的情況下，C3D獲得22.3％的精度，優(yōu)于[32]10.3％，比較方法在強(qiáng)SIFT-RANSAC特征匹配的情況下使用RBF-內(nèi)核。與Imagenet基線相比，C3D更差3.4％。這可以解釋為與Imagenet使用的全尺寸分辨率(256×256)相比，C3D使用較小的輸入分辨率(128×128)。由于C3D僅在Sports-1M視頻上進(jìn)行了訓(xùn)練，而沒有任何微調(diào)，而Imagenet已經(jīng)對1000個事物類別進(jìn)行了全面訓(xùn)練，因此我們并不期望C3D能夠很好地完成此任務(wù)。結(jié)果非常令人驚訝，并顯示了通用C3D如何捕捉視頻中的外觀和運(yùn)動信息。

表5.場景識別精度。使用簡單線性SVM的C3D優(yōu)于Maryland和YUPENN上的當(dāng)前方法。

7. 運(yùn)行時間分析

我們比較C3D和iDT和時間流網(wǎng)絡(luò)的運(yùn)行時間。對于iDT，我們使用作者提供的代碼。對于時間流網(wǎng)絡(luò)，沒有可用的評估公共模型。然而，該方法使用Brox的光流作為輸入。我們設(shè)法使用兩種不同的版本來評估Brox方法的運(yùn)行時間：作者提供的CPU實(shí)現(xiàn)和OpenCV中提供的GPU實(shí)現(xiàn)。

我們報告上述三種方法的運(yùn)行時間，以使用單個CPU或單個K40 Tesla GPU來提取表6中整個UCF101數(shù)據(jù)集的特征(包括I/O)。[36]報告了一對圖像的計算時間(無I/O)為0.06s。在我們的試驗(yàn)中，Brox的GPU實(shí)現(xiàn)需要0.85-0.9s每個圖像對，包括I/O。請注意，對于iDT這不是公平的比較，因?yàn)樗皇褂肅PU。我們找不到此方法的任何GPU實(shí)現(xiàn)，并且在GPU上實(shí)現(xiàn)此算法的并行版本并不是微不足道的。請注意，C3D比實(shí)時快得多，處理速度為313 fps，而其他兩種方法的處理速度小于4 fps。

表6. UCF101的運(yùn)行時間分析。C3D比iDT快了91倍，比Brox在OpenCV中的GPU實(shí)現(xiàn)速度快了274倍。

8.結(jié)論

在這項(xiàng)工作中，我們試圖解決使用經(jīng)過大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的3D ConvNets來學(xué)習(xí)視頻的時空特征的問題。我們進(jìn)行了系統(tǒng)的研究，以找到3D ConvNets的最佳時間核長度。我們展示了C3D可以同時對外觀和運(yùn)動信息進(jìn)行建模，在各種視頻分析任務(wù)上優(yōu)于2D ConvNet特征。我們展示了具有線性分類器的C3D特征可以在不同的視頻分析基準(zhǔn)上勝過或接近現(xiàn)行的最佳方法。最后，提出的C3D特征是高效的、緊湊的、使用非常簡單的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

C3D：使用3D卷積網(wǎng)絡(luò)學(xué)習(xí)時空特征

C3D：使用3D卷積網(wǎng)絡(luò)學(xué)習(xí)時空特征

摘要

1. 引言

2. 相關(guān)工作

3. 使用3D ConvNets學(xué)習(xí)特征

3.1. 3D卷積和池化

3.2.探索內(nèi)核時間深度

3.3.時空特征學(xué)習(xí)

4. 動作識別

5. 動作相似性標(biāo)簽

6. 場景和目標(biāo)識別

7. 運(yùn)行時間分析

8.結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

C3D：使用3D卷積網(wǎng)絡(luò)學(xué)習(xí)時空特征

摘要

1. 引言

2. 相關(guān)工作

3. 使用3D ConvNets學(xué)習(xí)特征

3.1. 3D卷積和池化

3.2.探索內(nèi)核時間深度

3.3.時空特征學(xué)習(xí)

4. 動作識別

5. 動作相似性標(biāo)簽

6. 場景和目標(biāo)識別

7. 運(yùn)行時間分析

8.結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av