YouTube-8M 大規(guī)模視頻理解時間序列模型的建模方法

本文屬于菜鳥轉(zhuǎn)譯,閱讀對象為非專業(yè)普通人,主要解決普通人的第一層認(rèn)知問題——“不知道自己不知道”,知道科學(xué)界的新知識。

專業(yè)人士請移步原文

****************分割線************************

作者:Fu Li, Chuang Gan, Xiao Liu, Yunlong Bian, Xiang Long, Yandong Li, Zhichao Li, Jie Zhou, Shilei Wen,來自:Baidu IDL & Tsinghua University

摘要

本文描述了在Google Cloud和YouTube-8M視頻理解挑戰(zhàn)賽中獲得第三名的視頻識別任務(wù)解決方案。由于挑戰(zhàn)賽提供的是預(yù)先提取的視覺和音頻特征而不是原始視頻,因此我們主要研究聚合多標(biāo)簽視頻識別幀級特征的時間建模方法。我們的系統(tǒng)主要由三部分組成:雙流序列模型、快進(jìn)序列模型和時間剩余神經(jīng)網(wǎng)絡(luò)。實驗結(jié)果表明,我們提出的時間建模方法可以極大地改善現(xiàn)有的大規(guī)模視頻識別任務(wù)的現(xiàn)有時間建模方法。值得注意的是,我們的快速LSTM深度為7層,以Kaggle公開測試集測試,精度達(dá)到82.75%(評估指標(biāo)為GAP@20)。

1、簡介

視頻理解是一項具有挑戰(zhàn)性的任務(wù),在計算機(jī)視覺和機(jī)器學(xué)習(xí)的研究中得到了大量的關(guān)注。無處不在的視頻捕捉設(shè)備已經(jīng)創(chuàng)造了遠(yuǎn)遠(yuǎn)超過人力所能觀看和處理的視頻數(shù)量,因此迫切需要能開發(fā)各種應(yīng)用程序進(jìn)行自動視頻理解的算法。

為了識別視頻中的動作和事件,基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[11、15、6、20]以及重復(fù)網(wǎng)絡(luò)[9、18、10、3]的現(xiàn)有方法已經(jīng)取得了顯著的成果。然而,由于缺乏可公開的數(shù)據(jù)集,現(xiàn)有的視頻識別方法僅限于小規(guī)模的數(shù)據(jù),而大規(guī)模的視頻理解仍然是一個未解決的問題。為了解決這個問題,谷歌發(fā)布了一個新的網(wǎng)絡(luò)抓取大型視頻數(shù)據(jù)集,名為YouTube-8M,它包含了超過700萬個YouTube視頻,標(biāo)簽類量約為4716類。一個視頻可能有多個標(biāo)簽類,每個視頻的標(biāo)簽類的平均數(shù)量是1.8。在此之前, al [5,7]還研究了使用Web視頻和圖像學(xué)習(xí)視頻識別模型。

Youtube-8M數(shù)據(jù)集的另一個吸引人的地方是,比賽僅提供預(yù)先提取的視頻每秒視覺和音頻特征,而不是原始視頻。我們既不能訓(xùn)練不同的CNN構(gòu)架,也不能學(xué)習(xí)原始視頻的光流特性。因此,我們將重點專注在時間建模方法上,以聚合幀級特性,從而為進(jìn)一步的多標(biāo)簽識別提供豐富的、有區(qū)別的視頻表示。特別提出三種新穎的時間建模方法,即雙流序列模型,快進(jìn)序列模型和時間剩余神經(jīng)網(wǎng)絡(luò)。實驗結(jié)果證明了這三種模型在傳統(tǒng)的時間建模方法上的有效性。我們還發(fā)現(xiàn)這三種時間建模方法是互補(bǔ)的,整體應(yīng)用可以表現(xiàn)優(yōu)異。

本文的后續(xù)內(nèi)容主要有:第2節(jié)介紹了我們的時間建模方法,以學(xué)習(xí)豐富且有區(qū)別的視頻特性表示;第3節(jié)報告實驗結(jié)果;并在第4節(jié)討論和總結(jié)。

2、方法

在這一節(jié)中,我們分別描述了我們的三種時間方法。

2.1雙流序列模型

我們的雙流序列模型建立在雙向LSTM [10]和GRU [3]之上,因為它們已經(jīng)在視頻識別中顯示出強(qiáng)大的時間建模能力。本文主要解決的是如何整合視頻中包含的視覺和音頻信息。為了最好地利用多模態(tài)線索的優(yōu)勢,我們提出的幾個序列架構(gòu)融合了這兩種模式的特點。

原始雙流CNN [15]框架分別對具有RGB和光流特征的CNN進(jìn)行訓(xùn)練,然后依靠后期得分融合策略來利用兩種模式的互補(bǔ)特性。最近,Ma et.al [14]提出的時域網(wǎng)絡(luò)RNN將兩種形態(tài)特征連接在一起并將它們輸入到一個LSTM以獲得視頻識別。

與他們不同,我們建議訓(xùn)練兩個雙向的LSTM或GRU模型(例如,一個用于RGB特征,另一個用于音頻特征)。注意層插入在序列模型之后,并連接到兩個模式的特征向量。最后,特征向量被輸入到兩個完全連接的層和一個s形結(jié)構(gòu)層,用于多標(biāo)簽的分類。我們在圖1中概述了這種機(jī)制。最終實驗結(jié)果驗證了我們所提出的兩流序列模型比融合方法的更為有效。

圖1.雙流LSTM模型的架構(gòu)

2.2 快進(jìn)序列模型

最近,我們見證了深度CNN在大規(guī)模圖像分類上的成功[16,19,8]。通常,具有較深的卷積層的模型要比淺的模型表現(xiàn)得更好。然而,并沒有成功轉(zhuǎn)移到視頻識別任務(wù)中使用的序列模型中。文獻(xiàn)中報道的最好的序列模型仍然是淺的模型。這種現(xiàn)象主要是由兩個問題造成的。首先,在以前存在的小型視頻識別數(shù)據(jù)集[17,12]中,不可能探索更深層次的序列模型,它只包含大約10萬個視頻。其次,優(yōu)化深層次序列模型比訓(xùn)練深層CNN更具挑戰(zhàn)性,因為存在更多的非線性活動和循環(huán)計算導(dǎo)致更小和不穩(wěn)定的梯度。

新的Youtube8M數(shù)據(jù)集提供了探索具有深層結(jié)構(gòu)的序列模型的機(jī)會。由于大規(guī)模視頻識別是一個非常困難和具有挑戰(zhàn)性的問題,因此我們認(rèn)為,采用更復(fù)雜架構(gòu)的深層次序列模型對于捕獲幀之間的時間關(guān)系是必要的。在競賽中,我們通過增加模型的深度來提高序列模型的復(fù)雜度。然而,我們觀察到,單純地增加LSTM和GRU的深度會導(dǎo)致過度擬合和優(yōu)化問題,對視頻識別有負(fù)面影響。這種現(xiàn)象與原始Youtube8M技術(shù)報告中的描述一致。

為了解決這些問題,我們通過向序列模型添加快進(jìn)的方法來探索一個新穎的深LSTM/GRU體系結(jié)構(gòu),它在構(gòu)建一個具有7層雙向LSTM序列模型方面起著至關(guān)重要的作用。我們在圖2中概述了框架。我們首先將每個幀的RGB和音頻功能連接在一起,然后將它們輸入進(jìn)快進(jìn)序列模型中。快進(jìn)連接被添加在相鄰循環(huán)層的兩個前饋計算塊之間。每一個快進(jìn)的連接都將前面的快進(jìn)和重復(fù)層的輸出作為輸入,并使用一個完全連接的層來嵌入它們??爝M(jìn)連接提供了快速傳播信息的路徑,因此我們稱之為路徑快進(jìn)連接。在接下來的技術(shù)報告中,我們將詳細(xì)介紹我們提出的快進(jìn)序列模型和實現(xiàn)細(xì)節(jié)。


圖2快進(jìn)序列模型架構(gòu)

2.3 時間殘差神經(jīng)網(wǎng)絡(luò)

盡管周期性模型(LSTM和GRU)的功能得到了廣泛的認(rèn)可,但是最近的序列卷積體系架構(gòu)[13,14]顯示出對時間建模任務(wù)具有的很大潛力。Li et.al[13]提出了一種基于ResCNN的神經(jīng)語音識別系統(tǒng),用于識別和驗證講話者。Maet.al[14]提出了一個用于視頻識別的時間啟發(fā)架構(gòu),并在UCF101和HMDB51數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果。

在比賽中,我們研究了時間卷積神經(jīng)網(wǎng)絡(luò)對視頻識別的時間建模的使用。與對幀級特征進(jìn)行卷積以學(xué)習(xí)全局視頻級別表示的[14]不同,我們結(jié)合卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)這兩種模型的優(yōu)點。時間卷積神經(jīng)網(wǎng)絡(luò)用于將原始幀級特征變換為更具辨別力的特征序列,并且將LSTM用于最終分類。

提出的時間CNN的架構(gòu)如圖3所示。每個幀中的RGB和音頻特征都被連接起來,零值特征被填充以產(chǎn)生固定長度的數(shù)據(jù)。所輸入數(shù)據(jù)的大小為4000×1152×300,其中4000,1152,300表示小批量大小,通道號和幀長度。然后,我們將批量數(shù)據(jù)傳播到一個時間重分配網(wǎng)(Temporal Resnet),它是一個9個時間重定向塊(TRB)的堆棧,每個TRB由兩個時間卷積層(后面是批量規(guī)范和激活)和快捷連接組成。對于所有時間卷積層,我們使用1024 3×1濾波器。然后,關(guān)注時間CNN的輸出被輸入到一個雙向的LSTM。


圖3.時間殘差CNN的架構(gòu)。

3、實驗

在本節(jié)中,我們將介紹數(shù)據(jù)集、實驗設(shè)置和實驗結(jié)果。

3.1 數(shù)據(jù)集

我們利用Youtube-8M數(shù)據(jù)集[1]進(jìn)行實驗。這個數(shù)據(jù)集包含了大約700萬個Youtube視頻。每個視頻都帶有一個或多個標(biāo)簽。競賽中的視頻和音頻特征是預(yù)先處理的,視頻的每一秒都提供了數(shù)據(jù)集。視頻特征是由ImageNet [4]預(yù)先訓(xùn)練的Google Inception CNN獲得的,隨后PCA壓縮為1024維矢量。音頻功能是VGG[16]網(wǎng)絡(luò)中預(yù)先訓(xùn)練好提取出來的。在正式的分析過程中,數(shù)據(jù)集分成三個部分:70%用于培訓(xùn),20%用于驗證,10%用于測試。在競賽中,我們只保留了來自官方驗證集的60K個視頻來驗證參數(shù)。驗證集中的其他視頻被包含在訓(xùn)練集里。我們觀察到這個策略可以稍微提高分類的效果。使用Youtube-8M Kaggle比賽中使用的前20名的全球平均精度(GAP)指標(biāo)來評估結(jié)果。

3.2 實驗結(jié)果

?表1報告了Youtube8M測試集上各個模型的性能。對于視頻級別的方法,我們使用平均池來聚合幀級特征向量。對于基于VLAD編碼的方法,我們使用256個集群中心,然后是[2,21]中建議的簽名的平方根和L2標(biāo)準(zhǔn)化。然后我們將這些表示輸入到一個MLP分類器中以獲得最終的視頻分類分?jǐn)?shù)


表1. Youtube8M測試集的比較結(jié)果

在表1中,我們得到三個關(guān)鍵的觀察結(jié)果。

(1)與以前的視頻匯集方法相比,我們提出的雙流序列模型和快速序列模型實現(xiàn)了更好的結(jié)果。

(2)具有7層深度的快進(jìn)LSTM模型可以在GAP方面提升約0.5%的淺序列模型。

(3)不同的時間建模方法相互補(bǔ)充。

我們的最終作品集合了57種具有不同隱藏元件和深度的模型。

4、結(jié)論

在這項工作中,我們提出了三種時間建模方法來應(yīng)對具有挑戰(zhàn)性的大規(guī)模視頻識別任務(wù)。實驗結(jié)果驗證了我們的方法比傳統(tǒng)的時間建模方法具有更明顯更好的效果。我們的模型已經(jīng)被證明可以進(jìn)一步提高性能,也使得我們的方法能夠在挑戰(zhàn)競賽中獲得第3名的好成績。我們的PaddlePaddle視頻工具可從https://github.com/baidu/Youtube-8M下載,里面包含了三種時間建模方法的實現(xiàn)。

注:如果本文侵犯了您權(quán)益,請聯(lián)系我進(jìn)行刪除。聯(lián)系方式: zhuazhua365@qq.com

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容