18組-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Quo Vadis,行為識(shí)別?一個(gè)新的模型以及Kinetics數(shù)據(jù)集


摘要

在現(xiàn)有的的行為分類數(shù)據(jù)集(UCF-101 and HMDB-51)中,視頻數(shù)據(jù)的缺乏使得確定一個(gè)好的視頻結(jié)構(gòu)很困難,大部分方法在小規(guī)模數(shù)據(jù)集上取得差不多的效果。這篇文章根據(jù)Kinetics人類行為動(dòng)作來重新評(píng)估這些先進(jìn)的結(jié)構(gòu)。Kinetics有兩個(gè)數(shù)量級(jí)的數(shù)據(jù),400類人類行為,每一類有超過400剪輯,并且這些都是從現(xiàn)實(shí)的,有挑戰(zhàn)性的YouTube視頻中收集的。我們分析了現(xiàn)有的結(jié)構(gòu)在這個(gè)數(shù)據(jù)集上進(jìn)行行為分類任務(wù)的過程以及在Kinetics上預(yù)訓(xùn)練后是如何提高在小樣本集上的表現(xiàn)。

我們引入了一個(gè)基于二維卷積膨脹網(wǎng)絡(luò)的Two-Stream Inflated 三維卷積網(wǎng)絡(luò)(I3D):深度圖像分類卷積網(wǎng)絡(luò)中的濾波器和pooling卷積核推廣到了3D的情況,這樣能夠?qū)W到從視頻中提取好的時(shí)空特征的能力,同時(shí)可以利用ImageNet結(jié)構(gòu)的設(shè)計(jì)以及參數(shù);我們發(fā)現(xiàn)在Kinetics上預(yù)訓(xùn)練之后,I3D模型在行為分類上提高了很多,在HMDB-51上達(dá)到了80.7%的正確率,在UCF-101上達(dá)到了98.0%的正確率。

1.引言

從ImageNet挑戰(zhàn)賽中獲得的一個(gè)意想不到的好處就是在1000類圖像(每一類有1000幅圖像)訓(xùn)練的結(jié)果可以用到其他的任務(wù)上或者是其他的領(lǐng)域。一個(gè)早期的例子是用在ImageNet數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò),然后把訓(xùn)練出來的fc7特征用到PASCAL VOC分類和檢測(cè)任務(wù)上。在深度網(wǎng)絡(luò)上的改進(jìn),從AlexNet到VGG-16,在PASCAL

VOC上的表現(xiàn)都有相應(yīng)的提升。從那之后,有大量從ImageNet上訓(xùn)練的網(wǎng)絡(luò)然后充分用到其他任務(wù)上的例子,比如分割,深度預(yù)測(cè),姿勢(shì)估計(jì),行為分類等等。

在視頻領(lǐng)域,在一個(gè)充分大的數(shù)據(jù)集上訓(xùn)練一個(gè)行為分類應(yīng)用到一個(gè)不同的任務(wù)上或者數(shù)據(jù)集上也會(huì)有一個(gè)相似的提高仍然是一個(gè)開放的問題。創(chuàng)建10000數(shù)量級(jí)的視頻數(shù)據(jù)集的挑戰(zhàn)意味著行為識(shí)別中最受歡迎的基準(zhǔn)數(shù)據(jù)集很小。

在這篇文章中,我們用全新的Kinetics人類行為視頻數(shù)據(jù)集來回答這個(gè)問題,這是一個(gè)比之前的HMDB-51和UCF-101數(shù)據(jù)集大兩個(gè)數(shù)量級(jí)的數(shù)據(jù)集。Kinetics有400類人類行為,每一類有超過400個(gè)實(shí)例,并且每一類是來自一個(gè)YouTube視頻。

我們的實(shí)驗(yàn)策略是重新實(shí)現(xiàn)文獻(xiàn)中一些有代表性的神經(jīng)網(wǎng)絡(luò),分析在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練每一個(gè)網(wǎng)絡(luò)然后在HMDB-51和UCF-101數(shù)據(jù)集上微調(diào)的這種遷移行為。結(jié)果表明通過預(yù)訓(xùn)練后在性能上有很大的提升,但是不同類型網(wǎng)絡(luò)上提升的程度相差很大。基于這些發(fā)現(xiàn),我們提出了一種有能力利用在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的優(yōu)勢(shì)的模型,并且能實(shí)現(xiàn)一個(gè)很好的性能。這個(gè)模型叫“Two-Stream

Inflated 3D ConvNets”(I3D),建立在先進(jìn)的圖像分類網(wǎng)絡(luò)結(jié)構(gòu)上,但是把他們的濾波器以及pooling核(參數(shù)隨意)“膨脹”成了3D,成為了一個(gè)很深,時(shí)空上的分類器。I3D模型基于Inception-V1,在Kinetics上預(yù)訓(xùn)練之后的性能遠(yuǎn)遠(yuǎn)超過當(dāng)今最先進(jìn)的其他模型。

在我們的模型比較中,我們不考慮更多的比如bag-of-visual-words表示的經(jīng)典方法。然而,Kinetics數(shù)據(jù)集是可以公開獲得的,其他人也可以用它來做一些比較。

下一節(jié)概述已有的一些行為分類模型。第三節(jié)概述Kinetics數(shù)據(jù)集,第四節(jié)報(bào)告在之前的基準(zhǔn)數(shù)據(jù)集和Kinetics數(shù)據(jù)集上模型的性能,第五節(jié)研究了在Kinetics上學(xué)到的特征是如何很好的遷移到其他的數(shù)據(jù)集上。文章還總結(jié)了對(duì)結(jié)果的討論。

2.行為分類結(jié)構(gòu)

隨著近些年圖像表示結(jié)構(gòu)的迅猛發(fā)展,仍然沒有清晰的,前沿的視頻分析結(jié)構(gòu)。一些現(xiàn)有的視頻結(jié)構(gòu)主要不同的地方在于卷積層是2D(基于圖像)的還是3D(基于視頻)的,網(wǎng)絡(luò)輸入只是一個(gè)RGB的視頻還是包括光流;在2D卷積網(wǎng)絡(luò)的情況下,信息傳播的框架可以用時(shí)間上的循環(huán)神經(jīng)網(wǎng)絡(luò)比如LSTM或者隨時(shí)間變化的特征增強(qiáng)。

這篇文章中我們比較和研究跨越這個(gè)空間大部分的模型。2D卷積網(wǎng)絡(luò)的方法中,我們考慮頂層有LSTM的卷積網(wǎng)絡(luò)以及兩種不同類型(流擴(kuò)散不同)的two-stream網(wǎng)絡(luò)。我們也考慮了一個(gè)3D的卷積網(wǎng)絡(luò):C3D。

作為主要的技術(shù)上的貢獻(xiàn),我們引入了Two-Stream Inflated 3D卷積網(wǎng)絡(luò)(I3D)。由于高維的參數(shù)和缺乏有標(biāo)簽的視頻數(shù)據(jù)集,之前的3D卷積網(wǎng)絡(luò)相對(duì)比較淺(至多8層)。我們注意到,很深的圖像分類網(wǎng)絡(luò),比如Inception,VGG-16和ResNet,可以簡(jiǎn)單地“膨脹”成時(shí)空特征提取器并且他們預(yù)訓(xùn)練的權(quán)重可以提供值的初始化。我們也發(fā)現(xiàn)two-stream的配置也是有用的。

圖2是我們?cè)u(píng)估的5種網(wǎng)絡(luò)結(jié)構(gòu)圖的概述,表1種是明確的時(shí)間上接口的參數(shù)。

很多模型(除了C3D)都會(huì)把ImageNet預(yù)訓(xùn)練的模型作為一部分。我們的實(shí)驗(yàn)策略是把一個(gè)普遍的預(yù)訓(xùn)練的ImageNet圖像分類網(wǎng)絡(luò)作為主要部分,我們選擇的是批量正則化過的Inception-v1模型,并且用不同方法把它變形。預(yù)期是把這個(gè)作為主要部分,我們來梳理能給行為分類帶來好處的變化。

2.1.The Old :ConvNet+LSTM

圖像分類網(wǎng)絡(luò)的高性能表現(xiàn)使得可以把它小改一下用在視頻上。當(dāng)把pooling整個(gè)視頻的預(yù)測(cè)時(shí)這可以單獨(dú)來提取每幀的特征。這是詞包圖像模型方法的基礎(chǔ);雖然實(shí)踐中很方便,但是還是有忽視了時(shí)間結(jié)構(gòu)的問題(比如模型不能區(qū)分是開門還是關(guān)門)。

理論上,一個(gè)更滿意的模型是增加循環(huán)層到模型中,比如LSTM,它可以用來編碼狀態(tài)和捕獲時(shí)間順序以及大范圍的依賴關(guān)系。我們把批量正則化的LSTM層放在Inception-v1的最后一個(gè)平均pooling層后面,有512個(gè)隱藏單元。頂部是一個(gè)全連接網(wǎng)絡(luò)層用來分類。

模型是用交叉熵?fù)p失函數(shù)來訓(xùn)練的。在測(cè)試階段我們只考慮最后一幀的輸出。輸入視頻框架是通過從每秒25幀,并且每5幀都選一幀的下采樣的方法。表1中是整個(gè)細(xì)節(jié)。

2.2.The Old :3D ConvNets

3D卷積網(wǎng)絡(luò)是一個(gè)自然的視頻建模方法,就像標(biāo)準(zhǔn)的卷積網(wǎng)絡(luò),不同的是它有時(shí)空卷積。之前有過幾次研究。他們有個(gè)很重要的特征:直接構(gòu)建時(shí)空數(shù)據(jù)的分層表示。這些模型有個(gè)問題,由于額外核的維度使得比2D卷積網(wǎng)絡(luò)多很多參數(shù),并且這使得他們很難訓(xùn)練。他們還似乎妨礙了ImageNet預(yù)訓(xùn)練帶來的好處,這等于他們的工作都是從頭開始訓(xùn)練這種淺層的網(wǎng)絡(luò)。在基準(zhǔn)數(shù)據(jù)集上的結(jié)果雖然還不錯(cuò)但不能和先進(jìn)的方法競(jìng)爭(zhēng)的方法可以用來評(píng)估我們更大的數(shù)據(jù)集。

這篇文章中,我們實(shí)現(xiàn)了微小改變的C3D有8個(gè)卷積層,5個(gè)pooling層以及頂層有兩個(gè)全連接層。模型的輸入是從原始輸入16幀剪輯,每幀再裁剪出112*112像素。和其他文獻(xiàn)不同的是我們?cè)谒械木矸e層和全連接層后用了批量正則化。另一個(gè)不同之處是原始模型用的是步長(zhǎng)為1的pooling層,我們用的是步長(zhǎng)為2的pooling層,這樣降低了內(nèi)存以及允許更大的batches-這對(duì)于批量正則化很重要(尤其在全連接層之后,這里沒有weight tying)。用這個(gè)步長(zhǎng)我們可以每個(gè)GPU訓(xùn)練15個(gè)視頻,用的是標(biāo)準(zhǔn)的K40 GPU。


2.3.The Old :Two-Stream Networks

很多情況下,在卷積網(wǎng)絡(luò)最后一層的特征上,LSTM可以出模擬高級(jí)的動(dòng)作變化,不能捕獲重要的低級(jí)的動(dòng)作。當(dāng)他需要展開網(wǎng)絡(luò)通過多幀圖像用隨時(shí)間變化的反向傳播時(shí)很難訓(xùn)練。

Simonyan 和 Zisserman引入了一個(gè)不同的,很實(shí)際的方法就是在兩個(gè)預(yù)訓(xùn)練的ImageNet卷積網(wǎng)絡(luò)間傳遞之后,從一幀RGB圖像以及另外10幀計(jì)算的光流中通過平均預(yù)測(cè)模擬視頻短時(shí)的快照。Flow stream 有一個(gè)自適應(yīng)的卷積網(wǎng)絡(luò),層數(shù)是flow frames輸入通道數(shù)的兩倍(因?yàn)閒low有兩個(gè)通道,水平和垂直的),并且在測(cè)試的時(shí)候,多個(gè)快照是從視頻中采樣的,行為預(yù)測(cè)是平均的。這可以在已有的基準(zhǔn)數(shù)據(jù)集上有好的性能,并且訓(xùn)練和預(yù)測(cè)都很高效。

最近的一個(gè)模型是在最后一個(gè)卷積層后融合了spatial 和 flow streams,在HMDB上有些提升同時(shí)花更少的測(cè)試時(shí)間來增強(qiáng)(快照采樣)。我們的方法和這篇文章差不多,用的是Inception-v1.網(wǎng)絡(luò)的輸入是從分開的10幀中選取5個(gè)連續(xù)的RGB幀以及對(duì)應(yīng)的光流小片。在最后一個(gè)Inception-v1平均pooling層(5*7*7特征格子,對(duì)應(yīng)時(shí)間,x和y坐標(biāo))之前,空間和動(dòng)作特征通過1個(gè)3*3*3 3D有512個(gè)輸出通道的卷積層傳遞,這個(gè)緊接著一個(gè)3*3*3 D的max-pooling層和一個(gè)全連接的卷積層。這些權(quán)重的初始值是用高斯噪聲初始化的。

原始的two-scream模型和3D融合的模型都是以一種”端到端”的方式訓(xùn)練的(包括原始模型中的two-scream平均過程)。

2.4.The New:Two-Stream Inflated 3DConvNets

用這個(gè)結(jié)構(gòu),我們展示了3D的卷積網(wǎng)絡(luò)是怎樣可以從ImageNet的2D卷積網(wǎng)絡(luò)的設(shè)計(jì)以及學(xué)到的參數(shù)中得到好處的。我們也這里也采用了two-stream的配置-這會(huì)在第4節(jié)說明3D的卷積網(wǎng)絡(luò)可以直接從RGB stream中學(xué)到時(shí)間上的模式,并且性能通過包括光流stream有很大的改進(jìn)。

Inflating 2D ConvNets into 3D. 近些年來一些很成功的圖像分類結(jié)構(gòu)發(fā)展起來了,部分是通過小心的試驗(yàn)和錯(cuò)誤。我們不是重復(fù)時(shí)空模型的過程,而是提出了將成功的圖像(2D)分類模型轉(zhuǎn)化為3D的卷積網(wǎng)絡(luò)。這可以通過一個(gè)2D的結(jié)構(gòu)開始,并且“膨脹”了所有的濾波器和pooling核-賦予它們一個(gè)額外的時(shí)間上的維度。濾波器一般是平面的我們只要把它變成是立體的-N*N濾波器成為N*N*N。

Bootstrapping 3D filters from 2D Filters.除了結(jié)構(gòu),可能還想從預(yù)訓(xùn)練的ImageNet模型中開發(fā)參數(shù)。我們觀察到一幅圖片通過重復(fù)的復(fù)制到一個(gè)視頻序列中可以轉(zhuǎn)化成一個(gè)(無聊的)視頻。在那之后,3D模型可以在ImageNet上預(yù)訓(xùn)練,滿足(把無聊的視頻稱作固定點(diǎn)):在無聊的視頻中的pooled激活函數(shù)應(yīng)該核原始圖像輸入的激活函數(shù)一樣。由于線性性,這可以沿著時(shí)間維度通過重復(fù)2D濾波器的權(quán)重N次。這保證了卷積核的反應(yīng)是相同的。因?yàn)閷?duì)于無聊視頻的卷積層輸出是常數(shù),對(duì)于2D的情況,內(nèi)積非線性層以及平均和max-pooling層的輸出是相同的,因此總體的網(wǎng)絡(luò)反應(yīng)關(guān)聯(lián)了無聊視頻的固定點(diǎn)。有些人研究了開發(fā)策略。

Pacing receptive field growth in space,time and network depth.無聊視頻的固定點(diǎn)在怎樣沿著時(shí)間維度“膨脹”pooling算子和怎樣設(shè)定卷積/pooling時(shí)間上的步長(zhǎng)方面給了充分的自由度-這些是體現(xiàn)特征感受野尺寸的初始因素。實(shí)際上所有的圖像模型都是同等對(duì)待兩個(gè)空間維度(水平和垂直)的-pooling核和步長(zhǎng)也是一樣的。這是很自然的并且意味著越深層的網(wǎng)絡(luò)在兩個(gè)維度上是同樣被圖像的位置影響的。一個(gè)對(duì)稱的感受野當(dāng)考慮時(shí)間的時(shí)候沒必要是最優(yōu)的-這應(yīng)該依賴于幀率和圖像維度。如果在時(shí)間上相對(duì)空間增長(zhǎng)的太快的話,可能會(huì)合并不同物體的邊緣從而破壞了早期的特征檢測(cè),然而增長(zhǎng)的不那么快,就不能很好的捕獲到場(chǎng)景的動(dòng)態(tài)變化。

在Inception-v1中,第一個(gè)卷積層步長(zhǎng)為2,然后有4個(gè)步長(zhǎng)為2的max-pooling層和一個(gè)7*7的平均-pooling層后面接一個(gè)線性分類層,平行的Inception分支中還有一個(gè)max-pooling層。我們的實(shí)驗(yàn)中,輸入的視頻處理成了每秒鐘25幀;我們發(fā)現(xiàn)在其他的max-pooling層有對(duì)稱核和步長(zhǎng)時(shí)在前兩個(gè)max-pooling層(1*3*3核,時(shí)間步長(zhǎng)是1)中的時(shí)間上的pooling操作沒什么幫助。最后的平均pooling層用2*7*7核。圖3中有整體的結(jié)構(gòu)。我們用64幀的小片訓(xùn)練模型,測(cè)試的時(shí)候用整個(gè)的視頻,并且平均時(shí)間上的預(yù)測(cè)。

Two 3D Streams.一個(gè)3D卷積網(wǎng)絡(luò)應(yīng)該能夠從RGB輸入中直接學(xué)到動(dòng)作特征,但是在光流算法的一些循環(huán)中它仍然需要大量的前饋運(yùn)算(比如flow

fields的迭代優(yōu)化)。大概是由于循環(huán)不夠,實(shí)驗(yàn)中我們發(fā)現(xiàn)two-stream的配置-圖2中展示了-在RGB輸入預(yù)訓(xùn)練過的I3D網(wǎng)絡(luò)以及在flow輸入上優(yōu)化過的光滑flow信息。我們分開訓(xùn)練了這兩個(gè)網(wǎng)絡(luò),并且測(cè)試的時(shí)候平均了它們的預(yù)測(cè)。

2.5. 實(shí)驗(yàn)細(xì)節(jié)

除了C3D,其他模型喜歡把用ImageNet預(yù)訓(xùn)練過的3D卷積網(wǎng)絡(luò)作為基本網(wǎng)絡(luò)。所有結(jié)構(gòu)中除了最后一個(gè)計(jì)算類別分?jǐn)?shù)的卷積層,其他卷積層后面都接著一個(gè)批量正則化層和ReLU激活函數(shù)。

眾所周知,數(shù)據(jù)增強(qiáng)對(duì)深度網(wǎng)絡(luò)的性能至關(guān)重要。在訓(xùn)練過程中,我們用隨機(jī)裁剪的方法,空間上-把視頻的小邊調(diào)整為256個(gè)像素,然后隨機(jī)裁剪一個(gè)224*224的patch-時(shí)間上,在能夠保證一個(gè)理想幀數(shù)中挑選前面的幀。對(duì)于更短的視頻,我們盡可能的循環(huán)視頻以滿足每個(gè)模型的輸入界面。訓(xùn)練中,我們也隨機(jī)左右翻轉(zhuǎn)視頻。測(cè)試期間,模型是在整個(gè)視頻中心裁剪224*224上卷積,預(yù)測(cè)也是被平均。我們也在256*256視頻上試過空間的卷積,但是沒有改進(jìn)。在測(cè)試的時(shí)候考慮左右翻轉(zhuǎn)視頻能夠獲得更好的性能。在訓(xùn)練期間增加數(shù)據(jù)增強(qiáng),比如光度測(cè)量也可以獲得好的性能。我們把這個(gè)留在未來的工作。

我們用TV-L1算法計(jì)算光流。

3、Kinetics人類動(dòng)作數(shù)據(jù)集

??Kinetics數(shù)據(jù)集是專注于人類行為(而不是人類活動(dòng)或事件)。動(dòng)作列表包括:個(gè)人行為,比如畫畫、飲水、笑和拳擊;雙人行為,比如擁抱、親吻和握手;以及人與物的動(dòng)作,比如打開禮物,割草和洗盤子。一些動(dòng)作細(xì)粒度不同,需要時(shí)間推理來區(qū)分:比如不同的游泳方式。其他動(dòng)作需要更加強(qiáng)調(diào)對(duì)象來區(qū)分,例如演奏不同類型的樂器。

??數(shù)據(jù)集有400個(gè)人類動(dòng)作類,每個(gè)類有400個(gè)或更多個(gè)剪輯,每個(gè)剪輯來自一個(gè)獨(dú)特的視頻。剪輯持續(xù)10秒左右,沒有未剪輯的視頻。測(cè)試集由每個(gè)類的100個(gè)剪輯組成。文獻(xiàn)【16】給出了數(shù)據(jù)集的完整描述以及它是如何構(gòu)建的。

??在本文中,對(duì)于大多數(shù)的實(shí)驗(yàn),我們使用比完整的Kinetics更小的數(shù)據(jù)集,稱為miniKinetics數(shù)據(jù)集。這是一個(gè)早期版本的數(shù)據(jù)集,它只有213個(gè)類,總共有三個(gè)分割的120個(gè)剪輯,一個(gè)用于每個(gè)類150到1000個(gè)剪輯,一個(gè)用于每個(gè)類25個(gè)剪輯,另一個(gè)用于每個(gè)類75個(gè)剪輯的測(cè)試。

?????? Mini’Kinetics能加快實(shí)驗(yàn),并且優(yōu)先于完整的Kinetics


4、不同結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果比較

??在本節(jié)中,我們?cè)诟淖儨y(cè)試和訓(xùn)練的數(shù)據(jù)集時(shí)比較第二節(jié)中描述的五種架構(gòu)的性能。

? 表2顯示了訓(xùn)練和檢驗(yàn)在UCF-101、HMDB-51或miniKinetics的分類準(zhǔn)確率。我們對(duì)UCF-101和HMPD-51的1個(gè)測(cè)試集進(jìn)行了測(cè)試,并在Kinetics的同樣測(cè)試集上進(jìn)行了測(cè)試。有幾個(gè)值得注意的觀察結(jié)果。首先,我們的新I3D模型在所有數(shù)據(jù)集中都是最好的,無論是RGB、Flow還是RGB +Flow。這非常有趣,因?yàn)樗膮?shù)非常大,并且UCF-101和HMDS-51非常小,這表明ImageNet預(yù)訓(xùn)練的好處可以擴(kuò)展到3D ConvNETs。

??第二,在miniKinetics上所有模型的性能遠(yuǎn)低于UCF-101,這是兩個(gè)數(shù)據(jù)集不同難度級(jí)別的指示。然而,它比HMPD-51更高;這可能部分是由于HMPD-51中缺少訓(xùn)練數(shù)據(jù),但也因?yàn)檫@個(gè)數(shù)據(jù)集有目的地建立為難度系數(shù)較大:許多剪輯在完全相同的場(chǎng)景中有不同的動(dòng)作。第三,不同架構(gòu)的排名大多是一致的。第四,LSTM和3D ConvNETS模型在miniKinetics上比在更小的數(shù)據(jù)集更具競(jìng)爭(zhēng)性;這些模型看起來相當(dāng)數(shù)據(jù)饑餓。

此外,兩個(gè)流架構(gòu)在所有數(shù)據(jù)集上表現(xiàn)出優(yōu)異的性能,但是RGB和flow的相對(duì)值在miniKinetics和其他數(shù)據(jù)集之間顯著不同。單獨(dú)的流的貢獻(xiàn),在UCF-101上略高于RGB,比在HMPD-51上高得多,在MiniKenitics上低得多。數(shù)據(jù)集可視化表明,MiniKenitics有更多的相機(jī)運(yùn)動(dòng),這可能使工作流的運(yùn)動(dòng)更困難。I3D模型似乎能夠比其他模型獲得更多的流,但是,它可以通過更長(zhǎng)的時(shí)間接受場(chǎng)(訓(xùn)練期間的64幀對(duì)10)和更完整的時(shí)間特征提取機(jī)制來解釋。雖然RGB流有更多可辨識(shí)的信息看起來更合理,我們卻經(jīng)常用肉眼從Kinetics的flow中理解動(dòng)作,這在RGB中是非常罕見的。這或許對(duì)于將來的研究是一個(gè)機(jī)會(huì):整合某種運(yùn)動(dòng)的穩(wěn)定形式于結(jié)構(gòu)中。

5、特征的實(shí)驗(yàn)評(píng)估

在這一節(jié),我們研究了在Kinetics上通用網(wǎng)絡(luò)的訓(xùn)練,我們考慮兩種方法:第一,我們固定神經(jīng)網(wǎng)絡(luò)的權(quán)重并且使用這個(gè)神經(jīng)網(wǎng)絡(luò)產(chǎn)生UCF-101/HMDB-51數(shù)據(jù)集上視頻(未知)的特征,我們接著訓(xùn)練多路Soft-max分類器用于分類UCF-101/HMDB-51(使用他們的訓(xùn)練數(shù)據(jù)),并且在他們的測(cè)試集上進(jìn)行評(píng)估;第二,我們對(duì)用于UCF-101/HMDB-51分類的每個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)(使用UCF-101/HMDB-51的訓(xùn)練數(shù)據(jù)),接著再次在UCF-101/HMDB-51測(cè)試集上進(jìn)行評(píng)估。

?????? 這個(gè)結(jié)果我們?cè)诒?中給出,清晰的結(jié)果是,所有體系結(jié)構(gòu)都受益于miniKinetics附加視頻數(shù)據(jù)的預(yù)訓(xùn)練,但其中一些益處明顯優(yōu)于其他體系——尤其是I3D-ConvNet和3D-ConvNet(盡管后者從更低的基礎(chǔ)開始)。僅僅在MiniKinetics(固定)預(yù)訓(xùn)練之后的模型最后幾層進(jìn)行訓(xùn)練也會(huì)比直接在UCF-101和HMDB-51訓(xùn)練I3D模型帶來更好的性能。

對(duì)I3D模型特征可轉(zhuǎn)換性的顯著提升一個(gè)解釋是它們的高時(shí)間分辨率——它們?cè)诿棵?5幀的64幀視頻片段上訓(xùn)練,并在測(cè)試時(shí)處理所有視頻幀,這使得它們可以捕捉運(yùn)動(dòng)時(shí)細(xì)微的時(shí)間結(jié)構(gòu)。換一種說法,稀疏視頻輸入的方法可能不如在大視頻數(shù)據(jù)集的訓(xùn)練,因?yàn)閺乃麄兊慕嵌葋砜?,視頻與ImageNet中的圖像沒有太大差別。 其他類似C3D的模型的可以通過我們的I3D模型更深入的解釋,而我們的參數(shù)少得多,通過利用ImageNet熱啟動(dòng),通過對(duì)4倍以上的長(zhǎng)視頻進(jìn)行訓(xùn)練以及對(duì)2倍以上的空間分辨率視頻進(jìn)行操作。

5.1、與最先進(jìn)的技術(shù)進(jìn)行比較

?????? 我們?cè)赨CF-101和HMDB-51上比較了I3D模型和以前最先進(jìn)方法的性能,見表4。 我們的結(jié)果包含了在MiniKinetics和在全Kinetics數(shù)據(jù)集上的預(yù)訓(xùn)練。圖4中顯示了訓(xùn)練模型的第一層的卷積濾波。

?????? 許多方法得到了相似的結(jié)果,但是目前這些數(shù)據(jù)集上表現(xiàn)最好的方法是Feichtenhofer及其同事[7],它使用RGB和光流的ResNet-50模型,在與密集軌跡模型結(jié)合[30]之后,在UCF-101與HMDB-51上分別取得了94.6%與70.3%的結(jié)果。我們使用三種標(biāo)準(zhǔn)訓(xùn)練/測(cè)試分組的平均準(zhǔn)確度對(duì)我們的方法進(jìn)行了基準(zhǔn)測(cè)試。我們的RGB-I3D模型或RGB-Flow模型中的任何一個(gè),當(dāng)在Kinetics上進(jìn)行預(yù)訓(xùn)練后,表現(xiàn)均優(yōu)于先前發(fā)布任何模型或模型組合。我們的組合式雙流體系結(jié)構(gòu)與之前的模型相比顯著提高了性能,使UCF-101的整體性能達(dá)到98.0,在HMDB-51的整體性能達(dá)到了80.7%,將其分別與以前最優(yōu)的模型進(jìn)行比較相當(dāng)于減少了57%和33%錯(cuò)誤分類率。

?????? 在Kinetics上預(yù)訓(xùn)練的I3D模型與之前的3D ConvNets(C3D)之間的區(qū)別甚至更大,盡管C3D在更多視頻中訓(xùn)練,來自與 Sports-1M加上一個(gè)內(nèi)部數(shù)據(jù)集的1M例子,甚至整體化和與IDT結(jié)合。這可以通過Kinetics的質(zhì)量更好來解釋,但也因?yàn)镮3D只是一個(gè)更好的體系結(jié)構(gòu)。

?????? 另一個(gè)值得注意的效果是從miniKinetics到Kinetics預(yù)訓(xùn)練時(shí),HMDB-5上的I3D RGB流的提高,這表明3D ConvNets可能需要大量數(shù)據(jù)來學(xué)習(xí)穩(wěn)健的運(yùn)動(dòng)特征。在Kinetics預(yù)訓(xùn)練之后,雙流得到類似的表現(xiàn),但仍然是互補(bǔ)的:它們的平均預(yù)測(cè)結(jié)果在74.8%到80.7%之間。

6、討論

我們回到引言中提出的問題,“從視頻中遷移學(xué)習(xí)有沒有好處?”。 很明顯,在(大量視頻數(shù)據(jù)集)Kinetics的預(yù)訓(xùn)練中有相當(dāng)大的好處,就像在ImageNet上ConvNets進(jìn)行預(yù)訓(xùn)練一樣有很多好處。 這表明將一個(gè)數(shù)據(jù)集(Kinetics)轉(zhuǎn)移到另一個(gè)數(shù)據(jù)集(UCF-101 / HMDB-51)進(jìn)行類似任務(wù)的遷移學(xué)習(xí)(盡管對(duì)于不同的動(dòng)作類)。 但是,如果將Kinetics預(yù)訓(xùn)練用于其他視頻任務(wù),如語義視頻分割,視頻對(duì)象檢測(cè)或光流計(jì)算是否有好處,還有待觀察。 我們計(jì)劃公開發(fā)布在官方Kinetics數(shù)據(jù)集上訓(xùn)練的I3D模型,以促進(jìn)該領(lǐng)域的研究。

當(dāng)然,我們并沒有對(duì)體系結(jié)構(gòu)進(jìn)行全面的探索——例如我們沒有采用行動(dòng)管[11,17]或關(guān)注機(jī)理[20]來關(guān)注人類行為。最近的工作提出了想象性的方法,通過在時(shí)間上加入鏈接的物體檢測(cè)來確定雙流體系結(jié)構(gòu)中運(yùn)動(dòng)者的空間和時(shí)間范圍(檢測(cè))[22,24]。時(shí)空之間的關(guān)系是神秘的。最近幾篇非常有創(chuàng)意的論文試圖捕捉這種關(guān)系,例如通過學(xué)習(xí)幀排序函數(shù)來進(jìn)行運(yùn)動(dòng)分類并將這些函數(shù)用作表示[9],通過在動(dòng)作和變換之間進(jìn)行類比[33],或者通過創(chuàng)建幀序列的2D視覺快照[2]——這個(gè)想法與[3]的經(jīng)典運(yùn)動(dòng)歷史工作有關(guān)。在我們的比較中,包含這些模型是非常有價(jià)值的,但由于缺乏時(shí)間和空間,我們無法做到這一點(diǎn)。

在未來的工作中,我們計(jì)劃使用Kinetics代替miniKinetics重復(fù)所有實(shí)驗(yàn),不論是否使用ImageNet預(yù)培訓(xùn),并探索其他現(xiàn)有的2DConvNets。


感想:

本文針對(duì)視頻運(yùn)動(dòng)分類中存在的問題提出了自己的方法,即利用遷移學(xué)習(xí)的方法解決,具體的操作先利用imageNet數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,然后利用Kinetics數(shù)據(jù)集對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),并以此種方法得到了模型,文中作者將其與其他最先進(jìn)的方法進(jìn)行了比較,得到了利用遷移學(xué)習(xí)的效果要優(yōu)于目前所有已有的模型或模型組合的結(jié)論。從文中看,采用遷移學(xué)習(xí)的確顯著提高了模型的性能。

這個(gè)模型的主要思想就是遷移學(xué)習(xí),還有就是將卷積核進(jìn)行了拓展,由二維到三維,并在不同規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到了在大數(shù)據(jù)集下魯棒性較好的結(jié)論。本文給讀者提供了使用遷移學(xué)習(xí)的辦法提高性能的想法,這種想法可以借鑒到其他領(lǐng)域。

本文也存在著一些缺點(diǎn),首先,沒有提出新的模型,僅僅是利用了遷移學(xué)習(xí),而且在體系結(jié)構(gòu)上沒有深入的介紹,也沒有將遷移學(xué)習(xí)應(yīng)用到其他領(lǐng)域,來驗(yàn)證遷移學(xué)習(xí)的有效性,需要后期繼續(xù)進(jìn)行實(shí)驗(yàn)和修正。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容