91福利一二三,亚洲国产视频网,人妻东京热

Quo Vadis，行為識(shí)別？一個(gè)新的模型以及Kinetics數(shù)據(jù)集

摘要

在現(xiàn)有的的行為分類數(shù)據(jù)集（UCF-101 and HMDB-51）中，視頻數(shù)據(jù)的缺乏使得確定一個(gè)好的視頻結(jié)構(gòu)很困難，大部分方法在小規(guī)模數(shù)據(jù)集上取得差不多的效果。這篇文章根據(jù)Kinetics人類行為動(dòng)作來重新評(píng)估這些先進(jìn)的結(jié)構(gòu)。Kinetics有兩個(gè)數(shù)量級(jí)的數(shù)據(jù)，400類人類行為，每一類有超過400剪輯，并且這些都是從現(xiàn)實(shí)的，有挑戰(zhàn)性的YouTube視頻中收集的。我們分析了現(xiàn)有的結(jié)構(gòu)在這個(gè)數(shù)據(jù)集上進(jìn)行行為分類任務(wù)的過程以及在Kinetics上預(yù)訓(xùn)練后是如何提高在小樣本集上的表現(xiàn)。

我們引入了一個(gè)基于二維卷積膨脹網(wǎng)絡(luò)的Two-Stream Inflated 三維卷積網(wǎng)絡(luò)（I3D）：深度圖像分類卷積網(wǎng)絡(luò)中的濾波器和pooling卷積核推廣到了3D的情況，這樣能夠?qū)W到從視頻中提取好的時(shí)空特征的能力，同時(shí)可以利用ImageNet結(jié)構(gòu)的設(shè)計(jì)以及參數(shù)；我們發(fā)現(xiàn)在Kinetics上預(yù)訓(xùn)練之后，I3D模型在行為分類上提高了很多，在HMDB-51上達(dá)到了80.7%的正確率，在UCF-101上達(dá)到了98.0%的正確率。

1.引言

從ImageNet挑戰(zhàn)賽中獲得的一個(gè)意想不到的好處就是在1000類圖像（每一類有1000幅圖像）訓(xùn)練的結(jié)果可以用到其他的任務(wù)上或者是其他的領(lǐng)域。一個(gè)早期的例子是用在ImageNet數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)，然后把訓(xùn)練出來的fc7特征用到PASCAL VOC分類和檢測(cè)任務(wù)上。在深度網(wǎng)絡(luò)上的改進(jìn)，從AlexNet到VGG-16，在PASCAL

VOC上的表現(xiàn)都有相應(yīng)的提升。從那之后，有大量從ImageNet上訓(xùn)練的網(wǎng)絡(luò)然后充分用到其他任務(wù)上的例子，比如分割，深度預(yù)測(cè)，姿勢(shì)估計(jì)，行為分類等等。

在視頻領(lǐng)域，在一個(gè)充分大的數(shù)據(jù)集上訓(xùn)練一個(gè)行為分類應(yīng)用到一個(gè)不同的任務(wù)上或者數(shù)據(jù)集上也會(huì)有一個(gè)相似的提高仍然是一個(gè)開放的問題。創(chuàng)建10000數(shù)量級(jí)的視頻數(shù)據(jù)集的挑戰(zhàn)意味著行為識(shí)別中最受歡迎的基準(zhǔn)數(shù)據(jù)集很小。

在這篇文章中，我們用全新的Kinetics人類行為視頻數(shù)據(jù)集來回答這個(gè)問題，這是一個(gè)比之前的HMDB-51和UCF-101數(shù)據(jù)集大兩個(gè)數(shù)量級(jí)的數(shù)據(jù)集。Kinetics有400類人類行為，每一類有超過400個(gè)實(shí)例，并且每一類是來自一個(gè)YouTube視頻。

我們的實(shí)驗(yàn)策略是重新實(shí)現(xiàn)文獻(xiàn)中一些有代表性的神經(jīng)網(wǎng)絡(luò)，分析在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練每一個(gè)網(wǎng)絡(luò)然后在HMDB-51和UCF-101數(shù)據(jù)集上微調(diào)的這種遷移行為。結(jié)果表明通過預(yù)訓(xùn)練后在性能上有很大的提升，但是不同類型網(wǎng)絡(luò)上提升的程度相差很大。基于這些發(fā)現(xiàn)，我們提出了一種有能力利用在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的優(yōu)勢(shì)的模型，并且能實(shí)現(xiàn)一個(gè)很好的性能。這個(gè)模型叫“Two-Stream

Inflated 3D ConvNets”（I3D），建立在先進(jìn)的圖像分類網(wǎng)絡(luò)結(jié)構(gòu)上，但是把他們的濾波器以及pooling核（參數(shù)隨意）“膨脹”成了3D，成為了一個(gè)很深，時(shí)空上的分類器。I3D模型基于Inception-V1，在Kinetics上預(yù)訓(xùn)練之后的性能遠(yuǎn)遠(yuǎn)超過當(dāng)今最先進(jìn)的其他模型。

在我們的模型比較中，我們不考慮更多的比如bag-of-visual-words表示的經(jīng)典方法。然而，Kinetics數(shù)據(jù)集是可以公開獲得的，其他人也可以用它來做一些比較。

下一節(jié)概述已有的一些行為分類模型。第三節(jié)概述Kinetics數(shù)據(jù)集，第四節(jié)報(bào)告在之前的基準(zhǔn)數(shù)據(jù)集和Kinetics數(shù)據(jù)集上模型的性能，第五節(jié)研究了在Kinetics上學(xué)到的特征是如何很好的遷移到其他的數(shù)據(jù)集上。文章還總結(jié)了對(duì)結(jié)果的討論。

2.行為分類結(jié)構(gòu)

隨著近些年圖像表示結(jié)構(gòu)的迅猛發(fā)展，仍然沒有清晰的，前沿的視頻分析結(jié)構(gòu)。一些現(xiàn)有的視頻結(jié)構(gòu)主要不同的地方在于卷積層是2D（基于圖像）的還是3D（基于視頻）的，網(wǎng)絡(luò)輸入只是一個(gè)RGB的視頻還是包括光流；在2D卷積網(wǎng)絡(luò)的情況下，信息傳播的框架可以用時(shí)間上的循環(huán)神經(jīng)網(wǎng)絡(luò)比如LSTM或者隨時(shí)間變化的特征增強(qiáng)。

這篇文章中我們比較和研究跨越這個(gè)空間大部分的模型。2D卷積網(wǎng)絡(luò)的方法中，我們考慮頂層有LSTM的卷積網(wǎng)絡(luò)以及兩種不同類型（流擴(kuò)散不同）的two-stream網(wǎng)絡(luò)。我們也考慮了一個(gè)3D的卷積網(wǎng)絡(luò)：C3D。

作為主要的技術(shù)上的貢獻(xiàn)，我們引入了Two-Stream Inflated 3D卷積網(wǎng)絡(luò)（I3D）。由于高維的參數(shù)和缺乏有標(biāo)簽的視頻數(shù)據(jù)集，之前的3D卷積網(wǎng)絡(luò)相對(duì)比較淺（至多8層）。我們注意到，很深的圖像分類網(wǎng)絡(luò)，比如Inception，VGG-16和ResNet，可以簡(jiǎn)單地“膨脹”成時(shí)空特征提取器并且他們預(yù)訓(xùn)練的權(quán)重可以提供值的初始化。我們也發(fā)現(xiàn)two-stream的配置也是有用的。

圖2是我們?cè)u(píng)估的5種網(wǎng)絡(luò)結(jié)構(gòu)圖的概述，表1種是明確的時(shí)間上接口的參數(shù)。

很多模型（除了C3D）都會(huì)把ImageNet預(yù)訓(xùn)練的模型作為一部分。我們的實(shí)驗(yàn)策略是把一個(gè)普遍的預(yù)訓(xùn)練的ImageNet圖像分類網(wǎng)絡(luò)作為主要部分，我們選擇的是批量正則化過的Inception-v1模型，并且用不同方法把它變形。預(yù)期是把這個(gè)作為主要部分，我們來梳理能給行為分類帶來好處的變化。

2.1.The Old Ⅰ:ConvNet+LSTM

圖像分類網(wǎng)絡(luò)的高性能表現(xiàn)使得可以把它小改一下用在視頻上。當(dāng)把pooling整個(gè)視頻的預(yù)測(cè)時(shí)這可以單獨(dú)來提取每幀的特征。這是詞包圖像模型方法的基礎(chǔ)；雖然實(shí)踐中很方便，但是還是有忽視了時(shí)間結(jié)構(gòu)的問題（比如模型不能區(qū)分是開門還是關(guān)門）。

理論上，一個(gè)更滿意的模型是增加循環(huán)層到模型中，比如LSTM，它可以用來編碼狀態(tài)和捕獲時(shí)間順序以及大范圍的依賴關(guān)系。我們把批量正則化的LSTM層放在Inception-v1的最后一個(gè)平均pooling層后面，有512個(gè)隱藏單元。頂部是一個(gè)全連接網(wǎng)絡(luò)層用來分類。

模型是用交叉熵?fù)p失函數(shù)來訓(xùn)練的。在測(cè)試階段我們只考慮最后一幀的輸出。輸入視頻框架是通過從每秒25幀，并且每5幀都選一幀的下采樣的方法。表1中是整個(gè)細(xì)節(jié)。

2.2.The Old Ⅱ:3D ConvNets

3D卷積網(wǎng)絡(luò)是一個(gè)自然的視頻建模方法，就像標(biāo)準(zhǔn)的卷積網(wǎng)絡(luò)，不同的是它有時(shí)空卷積。之前有過幾次研究。他們有個(gè)很重要的特征：直接構(gòu)建時(shí)空數(shù)據(jù)的分層表示。這些模型有個(gè)問題，由于額外核的維度使得比2D卷積網(wǎng)絡(luò)多很多參數(shù)，并且這使得他們很難訓(xùn)練。他們還似乎妨礙了ImageNet預(yù)訓(xùn)練帶來的好處，這等于他們的工作都是從頭開始訓(xùn)練這種淺層的網(wǎng)絡(luò)。在基準(zhǔn)數(shù)據(jù)集上的結(jié)果雖然還不錯(cuò)但不能和先進(jìn)的方法競(jìng)爭(zhēng)的方法可以用來評(píng)估我們更大的數(shù)據(jù)集。

這篇文章中，我們實(shí)現(xiàn)了微小改變的C3D有8個(gè)卷積層，5個(gè)pooling層以及頂層有兩個(gè)全連接層。模型的輸入是從原始輸入16幀剪輯，每幀再裁剪出112*112像素。和其他文獻(xiàn)不同的是我們?cè)谒械木矸e層和全連接層后用了批量正則化。另一個(gè)不同之處是原始模型用的是步長(zhǎng)為1的pooling層，我們用的是步長(zhǎng)為2的pooling層，這樣降低了內(nèi)存以及允許更大的batches-這對(duì)于批量正則化很重要（尤其在全連接層之后，這里沒有weight tying）。用這個(gè)步長(zhǎng)我們可以每個(gè)GPU訓(xùn)練15個(gè)視頻，用的是標(biāo)準(zhǔn)的K40 GPU。

2.3.The Old Ⅲ：Two-Stream Networks

很多情況下，在卷積網(wǎng)絡(luò)最后一層的特征上，LSTM可以出模擬高級(jí)的動(dòng)作變化，不能捕獲重要的低級(jí)的動(dòng)作。當(dāng)他需要展開網(wǎng)絡(luò)通過多幀圖像用隨時(shí)間變化的反向傳播時(shí)很難訓(xùn)練。

Simonyan 和 Zisserman引入了一個(gè)不同的，很實(shí)際的方法就是在兩個(gè)預(yù)訓(xùn)練的ImageNet卷積網(wǎng)絡(luò)間傳遞之后，從一幀RGB圖像以及另外10幀計(jì)算的光流中通過平均預(yù)測(cè)模擬視頻短時(shí)的快照。Flow stream 有一個(gè)自適應(yīng)的卷積網(wǎng)絡(luò)，層數(shù)是flow frames輸入通道數(shù)的兩倍（因?yàn)閒low有兩個(gè)通道，水平和垂直的），并且在測(cè)試的時(shí)候，多個(gè)快照是從視頻中采樣的，行為預(yù)測(cè)是平均的。這可以在已有的基準(zhǔn)數(shù)據(jù)集上有好的性能，并且訓(xùn)練和預(yù)測(cè)都很高效。

最近的一個(gè)模型是在最后一個(gè)卷積層后融合了spatial 和 flow streams，在HMDB上有些提升同時(shí)花更少的測(cè)試時(shí)間來增強(qiáng)（快照采樣）。我們的方法和這篇文章差不多，用的是Inception-v1.網(wǎng)絡(luò)的輸入是從分開的10幀中選取5個(gè)連續(xù)的RGB幀以及對(duì)應(yīng)的光流小片。在最后一個(gè)Inception-v1平均pooling層（5*7*7特征格子，對(duì)應(yīng)時(shí)間，x和y坐標(biāo)）之前，空間和動(dòng)作特征通過1個(gè)3*3*3 3D有512個(gè)輸出通道的卷積層傳遞，這個(gè)緊接著一個(gè)3*3*3 D的max-pooling層和一個(gè)全連接的卷積層。這些權(quán)重的初始值是用高斯噪聲初始化的。

原始的two-scream模型和3D融合的模型都是以一種”端到端”的方式訓(xùn)練的（包括原始模型中的two-scream平均過程）。

2.4.The New：Two-Stream Inflated 3DConvNets

用這個(gè)結(jié)構(gòu)，我們展示了3D的卷積網(wǎng)絡(luò)是怎樣可以從ImageNet的2D卷積網(wǎng)絡(luò)的設(shè)計(jì)以及學(xué)到的參數(shù)中得到好處的。我們也這里也采用了two-stream的配置-這會(huì)在第4節(jié)說明3D的卷積網(wǎng)絡(luò)可以直接從RGB stream中學(xué)到時(shí)間上的模式，并且性能通過包括光流stream有很大的改進(jìn)。

Inflating 2D ConvNets into 3D. 近些年來一些很成功的圖像分類結(jié)構(gòu)發(fā)展起來了，部分是通過小心的試驗(yàn)和錯(cuò)誤。我們不是重復(fù)時(shí)空模型的過程，而是提出了將成功的圖像（2D）分類模型轉(zhuǎn)化為3D的卷積網(wǎng)絡(luò)。這可以通過一個(gè)2D的結(jié)構(gòu)開始，并且“膨脹”了所有的濾波器和pooling核-賦予它們一個(gè)額外的時(shí)間上的維度。濾波器一般是平面的我們只要把它變成是立體的-N*N濾波器成為N*N*N。

Bootstrapping 3D filters from 2D Filters.除了結(jié)構(gòu)，可能還想從預(yù)訓(xùn)練的ImageNet模型中開發(fā)參數(shù)。我們觀察到一幅圖片通過重復(fù)的復(fù)制到一個(gè)視頻序列中可以轉(zhuǎn)化成一個(gè)（無聊的）視頻。在那之后，3D模型可以在ImageNet上預(yù)訓(xùn)練，滿足（把無聊的視頻稱作固定點(diǎn)）：在無聊的視頻中的pooled激活函數(shù)應(yīng)該核原始圖像輸入的激活函數(shù)一樣。由于線性性，這可以沿著時(shí)間維度通過重復(fù)2D濾波器的權(quán)重N次。這保證了卷積核的反應(yīng)是相同的。因?yàn)閷?duì)于無聊視頻的卷積層輸出是常數(shù)，對(duì)于2D的情況，內(nèi)積非線性層以及平均和max-pooling層的輸出是相同的，因此總體的網(wǎng)絡(luò)反應(yīng)關(guān)聯(lián)了無聊視頻的固定點(diǎn)。有些人研究了開發(fā)策略。

Pacing receptive field growth in space，time and network depth.無聊視頻的固定點(diǎn)在怎樣沿著時(shí)間維度“膨脹”pooling算子和怎樣設(shè)定卷積/pooling時(shí)間上的步長(zhǎng)方面給了充分的自由度-這些是體現(xiàn)特征感受野尺寸的初始因素。實(shí)際上所有的圖像模型都是同等對(duì)待兩個(gè)空間維度（水平和垂直）的-pooling核和步長(zhǎng)也是一樣的。這是很自然的并且意味著越深層的網(wǎng)絡(luò)在兩個(gè)維度上是同樣被圖像的位置影響的。一個(gè)對(duì)稱的感受野當(dāng)考慮時(shí)間的時(shí)候沒必要是最優(yōu)的-這應(yīng)該依賴于幀率和圖像維度。如果在時(shí)間上相對(duì)空間增長(zhǎng)的太快的話，可能會(huì)合并不同物體的邊緣從而破壞了早期的特征檢測(cè)，然而增長(zhǎng)的不那么快，就不能很好的捕獲到場(chǎng)景的動(dòng)態(tài)變化。

在Inception-v1中，第一個(gè)卷積層步長(zhǎng)為2，然后有4個(gè)步長(zhǎng)為2的max-pooling層和一個(gè)7*7的平均-pooling層后面接一個(gè)線性分類層，平行的Inception分支中還有一個(gè)max-pooling層。我們的實(shí)驗(yàn)中，輸入的視頻處理成了每秒鐘25幀；我們發(fā)現(xiàn)在其他的max-pooling層有對(duì)稱核和步長(zhǎng)時(shí)在前兩個(gè)max-pooling層（1*3*3核，時(shí)間步長(zhǎng)是1）中的時(shí)間上的pooling操作沒什么幫助。最后的平均pooling層用2*7*7核。圖3中有整體的結(jié)構(gòu)。我們用64幀的小片訓(xùn)練模型，測(cè)試的時(shí)候用整個(gè)的視頻，并且平均時(shí)間上的預(yù)測(cè)。

Two 3D Streams.一個(gè)3D卷積網(wǎng)絡(luò)應(yīng)該能夠從RGB輸入中直接學(xué)到動(dòng)作特征，但是在光流算法的一些循環(huán)中它仍然需要大量的前饋運(yùn)算（比如flow

fields的迭代優(yōu)化）。大概是由于循環(huán)不夠，實(shí)驗(yàn)中我們發(fā)現(xiàn)two-stream的配置-圖2中展示了-在RGB輸入預(yù)訓(xùn)練過的I3D網(wǎng)絡(luò)以及在flow輸入上優(yōu)化過的光滑flow信息。我們分開訓(xùn)練了這兩個(gè)網(wǎng)絡(luò)，并且測(cè)試的時(shí)候平均了它們的預(yù)測(cè)。

2.5. 實(shí)驗(yàn)細(xì)節(jié)

除了C3D，其他模型喜歡把用ImageNet預(yù)訓(xùn)練過的3D卷積網(wǎng)絡(luò)作為基本網(wǎng)絡(luò)。所有結(jié)構(gòu)中除了最后一個(gè)計(jì)算類別分?jǐn)?shù)的卷積層，其他卷積層后面都接著一個(gè)批量正則化層和ReLU激活函數(shù)。

眾所周知，數(shù)據(jù)增強(qiáng)對(duì)深度網(wǎng)絡(luò)的性能至關(guān)重要。在訓(xùn)練過程中，我們用隨機(jī)裁剪的方法，空間上-把視頻的小邊調(diào)整為256個(gè)像素，然后隨機(jī)裁剪一個(gè)224*224的patch-時(shí)間上，在能夠保證一個(gè)理想幀數(shù)中挑選前面的幀。對(duì)于更短的視頻，我們盡可能的循環(huán)視頻以滿足每個(gè)模型的輸入界面。訓(xùn)練中，我們也隨機(jī)左右翻轉(zhuǎn)視頻。測(cè)試期間，模型是在整個(gè)視頻中心裁剪224*224上卷積，預(yù)測(cè)也是被平均。我們也在256*256視頻上試過空間的卷積，但是沒有改進(jìn)。在測(cè)試的時(shí)候考慮左右翻轉(zhuǎn)視頻能夠獲得更好的性能。在訓(xùn)練期間增加數(shù)據(jù)增強(qiáng)，比如光度測(cè)量也可以獲得好的性能。我們把這個(gè)留在未來的工作。

我們用TV-L1算法計(jì)算光流。

3、Kinetics人類動(dòng)作數(shù)據(jù)集

??Kinetics數(shù)據(jù)集是專注于人類行為（而不是人類活動(dòng)或事件）。動(dòng)作列表包括：個(gè)人行為，比如畫畫、飲水、笑和拳擊；雙人行為，比如擁抱、親吻和握手；以及人與物的動(dòng)作，比如打開禮物，割草和洗盤子。一些動(dòng)作細(xì)粒度不同，需要時(shí)間推理來區(qū)分：比如不同的游泳方式。其他動(dòng)作需要更加強(qiáng)調(diào)對(duì)象來區(qū)分，例如演奏不同類型的樂器。

??數(shù)據(jù)集有400個(gè)人類動(dòng)作類，每個(gè)類有400個(gè)或更多個(gè)剪輯，每個(gè)剪輯來自一個(gè)獨(dú)特的視頻。剪輯持續(xù)10秒左右，沒有未剪輯的視頻。測(cè)試集由每個(gè)類的100個(gè)剪輯組成。文獻(xiàn)【16】給出了數(shù)據(jù)集的完整描述以及它是如何構(gòu)建的。

??在本文中，對(duì)于大多數(shù)的實(shí)驗(yàn)，我們使用比完整的Kinetics更小的數(shù)據(jù)集，稱為miniKinetics數(shù)據(jù)集。這是一個(gè)早期版本的數(shù)據(jù)集，它只有213個(gè)類，總共有三個(gè)分割的120個(gè)剪輯，一個(gè)用于每個(gè)類150到1000個(gè)剪輯，一個(gè)用于每個(gè)類25個(gè)剪輯，另一個(gè)用于每個(gè)類75個(gè)剪輯的測(cè)試。

?????? Mini’Kinetics能加快實(shí)驗(yàn)，并且優(yōu)先于完整的Kinetics

4、不同結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果比較

??在本節(jié)中，我們?cè)诟淖儨y(cè)試和訓(xùn)練的數(shù)據(jù)集時(shí)比較第二節(jié)中描述的五種架構(gòu)的性能。

? 表2顯示了訓(xùn)練和檢驗(yàn)在UCF-101、HMDB-51或miniKinetics的分類準(zhǔn)確率。我們對(duì)UCF-101和HMPD-51的1個(gè)測(cè)試集進(jìn)行了測(cè)試，并在Kinetics的同樣測(cè)試集上進(jìn)行了測(cè)試。有幾個(gè)值得注意的觀察結(jié)果。首先，我們的新I3D模型在所有數(shù)據(jù)集中都是最好的，無論是RGB、Flow還是RGB +Flow。這非常有趣，因?yàn)樗膮?shù)非常大，并且UCF-101和HMDS-51非常小，這表明ImageNet預(yù)訓(xùn)練的好處可以擴(kuò)展到3D ConvNETs。

??第二，在miniKinetics上所有模型的性能遠(yuǎn)低于UCF-101，這是兩個(gè)數(shù)據(jù)集不同難度級(jí)別的指示。然而，它比HMPD-51更高；這可能部分是由于HMPD-51中缺少訓(xùn)練數(shù)據(jù)，但也因?yàn)檫@個(gè)數(shù)據(jù)集有目的地建立為難度系數(shù)較大：許多剪輯在完全相同的場(chǎng)景中有不同的動(dòng)作。第三，不同架構(gòu)的排名大多是一致的。第四，LSTM和3D ConvNETS模型在miniKinetics上比在更小的數(shù)據(jù)集更具競(jìng)爭(zhēng)性；這些模型看起來相當(dāng)數(shù)據(jù)饑餓。

此外，兩個(gè)流架構(gòu)在所有數(shù)據(jù)集上表現(xiàn)出優(yōu)異的性能，但是RGB和flow的相對(duì)值在miniKinetics和其他數(shù)據(jù)集之間顯著不同。單獨(dú)的流的貢獻(xiàn)，在UCF-101上略高于RGB，比在HMPD-51上高得多，在MiniKenitics上低得多。數(shù)據(jù)集可視化表明，MiniKenitics有更多的相機(jī)運(yùn)動(dòng)，這可能使工作流的運(yùn)動(dòng)更困難。I3D模型似乎能夠比其他模型獲得更多的流，但是，它可以通過更長(zhǎng)的時(shí)間接受場(chǎng)（訓(xùn)練期間的64幀對(duì)10）和更完整的時(shí)間特征提取機(jī)制來解釋。雖然RGB流有更多可辨識(shí)的信息看起來更合理，我們卻經(jīng)常用肉眼從Kinetics的flow中理解動(dòng)作，這在RGB中是非常罕見的。這或許對(duì)于將來的研究是一個(gè)機(jī)會(huì)：整合某種運(yùn)動(dòng)的穩(wěn)定形式于結(jié)構(gòu)中。

5、特征的實(shí)驗(yàn)評(píng)估

在這一節(jié)，我們研究了在Kinetics上通用網(wǎng)絡(luò)的訓(xùn)練，我們考慮兩種方法：第一，我們固定神經(jīng)網(wǎng)絡(luò)的權(quán)重并且使用這個(gè)神經(jīng)網(wǎng)絡(luò)產(chǎn)生UCF-101/HMDB-51數(shù)據(jù)集上視頻（未知）的特征，我們接著訓(xùn)練多路Soft-max分類器用于分類UCF-101/HMDB-51（使用他們的訓(xùn)練數(shù)據(jù)），并且在他們的測(cè)試集上進(jìn)行評(píng)估；第二，我們對(duì)用于UCF-101/HMDB-51分類的每個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)（使用UCF-101/HMDB-51的訓(xùn)練數(shù)據(jù)），接著再次在UCF-101/HMDB-51測(cè)試集上進(jìn)行評(píng)估。

?????? 這個(gè)結(jié)果我們?cè)诒?中給出，清晰的結(jié)果是，所有體系結(jié)構(gòu)都受益于miniKinetics附加視頻數(shù)據(jù)的預(yù)訓(xùn)練，但其中一些益處明顯優(yōu)于其他體系——尤其是I3D-ConvNet和3D-ConvNet（盡管后者從更低的基礎(chǔ)開始）。僅僅在MiniKinetics（固定）預(yù)訓(xùn)練之后的模型最后幾層進(jìn)行訓(xùn)練也會(huì)比直接在UCF-101和HMDB-51訓(xùn)練I3D模型帶來更好的性能。

對(duì)I3D模型特征可轉(zhuǎn)換性的顯著提升一個(gè)解釋是它們的高時(shí)間分辨率——它們?cè)诿棵?5幀的64幀視頻片段上訓(xùn)練，并在測(cè)試時(shí)處理所有視頻幀，這使得它們可以捕捉運(yùn)動(dòng)時(shí)細(xì)微的時(shí)間結(jié)構(gòu)。換一種說法，稀疏視頻輸入的方法可能不如在大視頻數(shù)據(jù)集的訓(xùn)練，因?yàn)閺乃麄兊慕嵌葋砜?，視頻與ImageNet中的圖像沒有太大差別。其他類似C3D的模型的可以通過我們的I3D模型更深入的解釋，而我們的參數(shù)少得多，通過利用ImageNet熱啟動(dòng)，通過對(duì)4倍以上的長(zhǎng)視頻進(jìn)行訓(xùn)練以及對(duì)2倍以上的空間分辨率視頻進(jìn)行操作。

5.1、與最先進(jìn)的技術(shù)進(jìn)行比較

?????? 我們?cè)赨CF-101和HMDB-51上比較了I3D模型和以前最先進(jìn)方法的性能，見表4。我們的結(jié)果包含了在MiniKinetics和在全Kinetics數(shù)據(jù)集上的預(yù)訓(xùn)練。圖4中顯示了訓(xùn)練模型的第一層的卷積濾波。

?????? 許多方法得到了相似的結(jié)果，但是目前這些數(shù)據(jù)集上表現(xiàn)最好的方法是Feichtenhofer及其同事[7]，它使用RGB和光流的ResNet-50模型，在與密集軌跡模型結(jié)合[30]之后，在UCF-101與HMDB-51上分別取得了94.6%與70.3%的結(jié)果。我們使用三種標(biāo)準(zhǔn)訓(xùn)練/測(cè)試分組的平均準(zhǔn)確度對(duì)我們的方法進(jìn)行了基準(zhǔn)測(cè)試。我們的RGB-I3D模型或RGB-Flow模型中的任何一個(gè)，當(dāng)在Kinetics上進(jìn)行預(yù)訓(xùn)練后，表現(xiàn)均優(yōu)于先前發(fā)布任何模型或模型組合。我們的組合式雙流體系結(jié)構(gòu)與之前的模型相比顯著提高了性能，使UCF-101的整體性能達(dá)到98.0，在HMDB-51的整體性能達(dá)到了80.7％，將其分別與以前最優(yōu)的模型進(jìn)行比較相當(dāng)于減少了57％和33％錯(cuò)誤分類率。

?????? 在Kinetics上預(yù)訓(xùn)練的I3D模型與之前的3D ConvNets（C3D）之間的區(qū)別甚至更大，盡管C3D在更多視頻中訓(xùn)練，來自與 Sports-1M加上一個(gè)內(nèi)部數(shù)據(jù)集的1M例子，甚至整體化和與IDT結(jié)合。這可以通過Kinetics的質(zhì)量更好來解釋，但也因?yàn)镮3D只是一個(gè)更好的體系結(jié)構(gòu)。

?????? 另一個(gè)值得注意的效果是從miniKinetics到Kinetics預(yù)訓(xùn)練時(shí)，HMDB-5上的I3D RGB流的提高，這表明3D ConvNets可能需要大量數(shù)據(jù)來學(xué)習(xí)穩(wěn)健的運(yùn)動(dòng)特征。在Kinetics預(yù)訓(xùn)練之后，雙流得到類似的表現(xiàn)，但仍然是互補(bǔ)的：它們的平均預(yù)測(cè)結(jié)果在74.8%到80.7%之間。

6、討論

我們回到引言中提出的問題，“從視頻中遷移學(xué)習(xí)有沒有好處？”。很明顯，在（大量視頻數(shù)據(jù)集）Kinetics的預(yù)訓(xùn)練中有相當(dāng)大的好處，就像在ImageNet上ConvNets進(jìn)行預(yù)訓(xùn)練一樣有很多好處。這表明將一個(gè)數(shù)據(jù)集（Kinetics）轉(zhuǎn)移到另一個(gè)數(shù)據(jù)集（UCF-101 / HMDB-51）進(jìn)行類似任務(wù)的遷移學(xué)習(xí)（盡管對(duì)于不同的動(dòng)作類）。但是，如果將Kinetics預(yù)訓(xùn)練用于其他視頻任務(wù)，如語義視頻分割，視頻對(duì)象檢測(cè)或光流計(jì)算是否有好處，還有待觀察。我們計(jì)劃公開發(fā)布在官方Kinetics數(shù)據(jù)集上訓(xùn)練的I3D模型，以促進(jìn)該領(lǐng)域的研究。

當(dāng)然，我們并沒有對(duì)體系結(jié)構(gòu)進(jìn)行全面的探索——例如我們沒有采用行動(dòng)管[11,17]或關(guān)注機(jī)理[20]來關(guān)注人類行為。最近的工作提出了想象性的方法，通過在時(shí)間上加入鏈接的物體檢測(cè)來確定雙流體系結(jié)構(gòu)中運(yùn)動(dòng)者的空間和時(shí)間范圍（檢測(cè)）[22,24]。時(shí)空之間的關(guān)系是神秘的。最近幾篇非常有創(chuàng)意的論文試圖捕捉這種關(guān)系，例如通過學(xué)習(xí)幀排序函數(shù)來進(jìn)行運(yùn)動(dòng)分類并將這些函數(shù)用作表示[9]，通過在動(dòng)作和變換之間進(jìn)行類比[33]，或者通過創(chuàng)建幀序列的2D視覺快照[2]——這個(gè)想法與[3]的經(jīng)典運(yùn)動(dòng)歷史工作有關(guān)。在我們的比較中，包含這些模型是非常有價(jià)值的，但由于缺乏時(shí)間和空間，我們無法做到這一點(diǎn)。

在未來的工作中，我們計(jì)劃使用Kinetics代替miniKinetics重復(fù)所有實(shí)驗(yàn)，不論是否使用ImageNet預(yù)培訓(xùn)，并探索其他現(xiàn)有的2DConvNets。

感想：

本文針對(duì)視頻運(yùn)動(dòng)分類中存在的問題提出了自己的方法，即利用遷移學(xué)習(xí)的方法解決，具體的操作先利用imageNet數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)的訓(xùn)練，然后利用Kinetics數(shù)據(jù)集對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)，并以此種方法得到了模型，文中作者將其與其他最先進(jìn)的方法進(jìn)行了比較，得到了利用遷移學(xué)習(xí)的效果要優(yōu)于目前所有已有的模型或模型組合的結(jié)論。從文中看，采用遷移學(xué)習(xí)的確顯著提高了模型的性能。

這個(gè)模型的主要思想就是遷移學(xué)習(xí)，還有就是將卷積核進(jìn)行了拓展，由二維到三維，并在不同規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練，得到了在大數(shù)據(jù)集下魯棒性較好的結(jié)論。本文給讀者提供了使用遷移學(xué)習(xí)的辦法提高性能的想法，這種想法可以借鑒到其他領(lǐng)域。

本文也存在著一些缺點(diǎn)，首先，沒有提出新的模型，僅僅是利用了遷移學(xué)習(xí)，而且在體系結(jié)構(gòu)上沒有深入的介紹，也沒有將遷移學(xué)習(xí)應(yīng)用到其他領(lǐng)域，來驗(yàn)證遷移學(xué)習(xí)的有效性，需要后期繼續(xù)進(jìn)行實(shí)驗(yàn)和修正。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

18組-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

18組-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

18組-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av