伊人久久亚洲中文一区,中文字幕日韩欧美

本文屬于菜鳥轉(zhuǎn)譯，閱讀對象為非專業(yè)普通人，主要解決普通人的第一層認(rèn)知問題——“不知道自己不知道”，知道科學(xué)界的新知識。

專業(yè)人士請移步原文。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊分割線＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

作者：Fu Li, Chuang Gan, Xiao Liu, Yunlong Bian, Xiang Long, Yandong Li, Zhichao Li, Jie Zhou, Shilei Wen，來自：Baidu IDL & Tsinghua University

摘要

本文描述了在Google Cloud和YouTube-8M視頻理解挑戰(zhàn)賽中獲得第三名的視頻識別任務(wù)解決方案。由于挑戰(zhàn)賽提供的是預(yù)先提取的視覺和音頻特征而不是原始視頻，因此我們主要研究聚合多標(biāo)簽視頻識別幀級特征的時間建模方法。我們的系統(tǒng)主要由三部分組成:雙流序列模型、快進(jìn)序列模型和時間剩余神經(jīng)網(wǎng)絡(luò)。實驗結(jié)果表明，我們提出的時間建模方法可以極大地改善現(xiàn)有的大規(guī)模視頻識別任務(wù)的現(xiàn)有時間建模方法。值得注意的是，我們的快速LSTM深度為7層，以Kaggle公開測試集測試，精度達(dá)到82.75％（評估指標(biāo)為GAP@20）。

1、簡介

視頻理解是一項具有挑戰(zhàn)性的任務(wù)，在計算機(jī)視覺和機(jī)器學(xué)習(xí)的研究中得到了大量的關(guān)注。無處不在的視頻捕捉設(shè)備已經(jīng)創(chuàng)造了遠(yuǎn)遠(yuǎn)超過人力所能觀看和處理的視頻數(shù)量，因此迫切需要能開發(fā)各種應(yīng)用程序進(jìn)行自動視頻理解的算法。

為了識別視頻中的動作和事件，基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)［11、15、6、20］以及重復(fù)網(wǎng)絡(luò)［9、18、10、3］的現(xiàn)有方法已經(jīng)取得了顯著的成果。然而，由于缺乏可公開的數(shù)據(jù)集，現(xiàn)有的視頻識別方法僅限于小規(guī)模的數(shù)據(jù)，而大規(guī)模的視頻理解仍然是一個未解決的問題。為了解決這個問題，谷歌發(fā)布了一個新的網(wǎng)絡(luò)抓取大型視頻數(shù)據(jù)集，名為YouTube-8M，它包含了超過700萬個YouTube視頻，標(biāo)簽類量約為4716類。一個視頻可能有多個標(biāo)簽類，每個視頻的標(biāo)簽類的平均數(shù)量是1.8。在此之前， al [5,7]還研究了使用Web視頻和圖像學(xué)習(xí)視頻識別模型。

Youtube－8M數(shù)據(jù)集的另一個吸引人的地方是，比賽僅提供預(yù)先提取的視頻每秒視覺和音頻特征，而不是原始視頻。我們既不能訓(xùn)練不同的CNN構(gòu)架，也不能學(xué)習(xí)原始視頻的光流特性。因此，我們將重點專注在時間建模方法上，以聚合幀級特性，從而為進(jìn)一步的多標(biāo)簽識別提供豐富的、有區(qū)別的視頻表示。特別提出三種新穎的時間建模方法，即雙流序列模型，快進(jìn)序列模型和時間剩余神經(jīng)網(wǎng)絡(luò)。實驗結(jié)果證明了這三種模型在傳統(tǒng)的時間建模方法上的有效性。我們還發(fā)現(xiàn)這三種時間建模方法是互補(bǔ)的，整體應(yīng)用可以表現(xiàn)優(yōu)異。

本文的后續(xù)內(nèi)容主要有：第2節(jié)介紹了我們的時間建模方法，以學(xué)習(xí)豐富且有區(qū)別的視頻特性表示；第3節(jié)報告實驗結(jié)果；并在第4節(jié)討論和總結(jié)。

2、方法

在這一節(jié)中，我們分別描述了我們的三種時間方法。

2.1雙流序列模型

我們的雙流序列模型建立在雙向LSTM [10]和GRU [3]之上，因為它們已經(jīng)在視頻識別中顯示出強(qiáng)大的時間建模能力。本文主要解決的是如何整合視頻中包含的視覺和音頻信息。為了最好地利用多模態(tài)線索的優(yōu)勢，我們提出的幾個序列架構(gòu)融合了這兩種模式的特點。

原始雙流CNN [15]框架分別對具有RGB和光流特征的CNN進(jìn)行訓(xùn)練，然后依靠后期得分融合策略來利用兩種模式的互補(bǔ)特性。最近，Ma et.al [14]提出的時域網(wǎng)絡(luò)RNN將兩種形態(tài)特征連接在一起并將它們輸入到一個LSTM以獲得視頻識別。

與他們不同，我們建議訓(xùn)練兩個雙向的LSTM或GRU模型(例如，一個用于RGB特征，另一個用于音頻特征)。注意層插入在序列模型之后，并連接到兩個模式的特征向量。最后，特征向量被輸入到兩個完全連接的層和一個s形結(jié)構(gòu)層，用于多標(biāo)簽的分類。我們在圖1中概述了這種機(jī)制。最終實驗結(jié)果驗證了我們所提出的兩流序列模型比融合方法的更為有效。

圖1.雙流LSTM模型的架構(gòu)

2.2 快進(jìn)序列模型

最近，我們見證了深度CNN在大規(guī)模圖像分類上的成功［16，19，8］。通常，具有較深的卷積層的模型要比淺的模型表現(xiàn)得更好。然而，并沒有成功轉(zhuǎn)移到視頻識別任務(wù)中使用的序列模型中。文獻(xiàn)中報道的最好的序列模型仍然是淺的模型。這種現(xiàn)象主要是由兩個問題造成的。首先，在以前存在的小型視頻識別數(shù)據(jù)集[17,12]中，不可能探索更深層次的序列模型，它只包含大約10萬個視頻。其次，優(yōu)化深層次序列模型比訓(xùn)練深層CNN更具挑戰(zhàn)性，因為存在更多的非線性活動和循環(huán)計算導(dǎo)致更小和不穩(wěn)定的梯度。

新的Youtube8M數(shù)據(jù)集提供了探索具有深層結(jié)構(gòu)的序列模型的機(jī)會。由于大規(guī)模視頻識別是一個非常困難和具有挑戰(zhàn)性的問題，因此我們認(rèn)為，采用更復(fù)雜架構(gòu)的深層次序列模型對于捕獲幀之間的時間關(guān)系是必要的。在競賽中，我們通過增加模型的深度來提高序列模型的復(fù)雜度。然而，我們觀察到，單純地增加LSTM和GRU的深度會導(dǎo)致過度擬合和優(yōu)化問題，對視頻識別有負(fù)面影響。這種現(xiàn)象與原始Youtube8M技術(shù)報告中的描述一致。

為了解決這些問題，我們通過向序列模型添加快進(jìn)的方法來探索一個新穎的深LSTM/GRU體系結(jié)構(gòu)，它在構(gòu)建一個具有7層雙向LSTM序列模型方面起著至關(guān)重要的作用。我們在圖2中概述了框架。我們首先將每個幀的RGB和音頻功能連接在一起，然后將它們輸入進(jìn)快進(jìn)序列模型中。快進(jìn)連接被添加在相鄰循環(huán)層的兩個前饋計算塊之間。每一個快進(jìn)的連接都將前面的快進(jìn)和重復(fù)層的輸出作為輸入，并使用一個完全連接的層來嵌入它們?？爝M(jìn)連接提供了快速傳播信息的路徑，因此我們稱之為路徑快進(jìn)連接。在接下來的技術(shù)報告中，我們將詳細(xì)介紹我們提出的快進(jìn)序列模型和實現(xiàn)細(xì)節(jié)。

圖2快進(jìn)序列模型架構(gòu)

2.3 時間殘差神經(jīng)網(wǎng)絡(luò)

盡管周期性模型（LSTM和GRU）的功能得到了廣泛的認(rèn)可，但是最近的序列卷積體系架構(gòu)[13,14]顯示出對時間建模任務(wù)具有的很大潛力。Li et.al[13]提出了一種基于ResCNN的神經(jīng)語音識別系統(tǒng)，用于識別和驗證講話者。Maet.al[14]提出了一個用于視頻識別的時間啟發(fā)架構(gòu)，并在UCF101和HMDB51數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果。

在比賽中，我們研究了時間卷積神經(jīng)網(wǎng)絡(luò)對視頻識別的時間建模的使用。與對幀級特征進(jìn)行卷積以學(xué)習(xí)全局視頻級別表示的[14]不同，我們結(jié)合卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)這兩種模型的優(yōu)點。時間卷積神經(jīng)網(wǎng)絡(luò)用于將原始幀級特征變換為更具辨別力的特征序列，并且將LSTM用于最終分類。

提出的時間CNN的架構(gòu)如圖3所示。每個幀中的RGB和音頻特征都被連接起來，零值特征被填充以產(chǎn)生固定長度的數(shù)據(jù)。所輸入數(shù)據(jù)的大小為4000×1152×300，其中4000,1152,300表示小批量大小，通道號和幀長度。然后，我們將批量數(shù)據(jù)傳播到一個時間重分配網(wǎng)（Temporal Resnet），它是一個9個時間重定向塊（TRB）的堆棧，每個TRB由兩個時間卷積層（后面是批量規(guī)范和激活）和快捷連接組成。對于所有時間卷積層，我們使用1024 3×1濾波器。然后，關(guān)注時間CNN的輸出被輸入到一個雙向的LSTM。

圖3.時間殘差CNN的架構(gòu)。

3、實驗

在本節(jié)中，我們將介紹數(shù)據(jù)集、實驗設(shè)置和實驗結(jié)果。

3.1 數(shù)據(jù)集

我們利用Youtube-8M數(shù)據(jù)集［1］進(jìn)行實驗。這個數(shù)據(jù)集包含了大約700萬個Youtube視頻。每個視頻都帶有一個或多個標(biāo)簽。競賽中的視頻和音頻特征是預(yù)先處理的，視頻的每一秒都提供了數(shù)據(jù)集。視頻特征是由ImageNet [4]預(yù)先訓(xùn)練的Google Inception CNN獲得的，隨后PCA壓縮為1024維矢量。音頻功能是VGG［16］網(wǎng)絡(luò)中預(yù)先訓(xùn)練好提取出來的。在正式的分析過程中，數(shù)據(jù)集分成三個部分:70%用于培訓(xùn)，20%用于驗證，10%用于測試。在競賽中，我們只保留了來自官方驗證集的60K個視頻來驗證參數(shù)。驗證集中的其他視頻被包含在訓(xùn)練集里。我們觀察到這個策略可以稍微提高分類的效果。使用Youtube-8M Kaggle比賽中使用的前20名的全球平均精度（GAP）指標(biāo)來評估結(jié)果。

3.2 實驗結(jié)果

?表1報告了Youtube8M測試集上各個模型的性能。對于視頻級別的方法，我們使用平均池來聚合幀級特征向量。對于基于VLAD編碼的方法，我們使用256個集群中心，然后是[2，21]中建議的簽名的平方根和L2標(biāo)準(zhǔn)化。然后我們將這些表示輸入到一個MLP分類器中以獲得最終的視頻分類分?jǐn)?shù)

表1. Youtube8M測試集的比較結(jié)果

在表1中，我們得到三個關(guān)鍵的觀察結(jié)果。

（1）與以前的視頻匯集方法相比，我們提出的雙流序列模型和快速序列模型實現(xiàn)了更好的結(jié)果。

（2）具有7層深度的快進(jìn)LSTM模型可以在GAP方面提升約0.5％的淺序列模型。

（3）不同的時間建模方法相互補(bǔ)充。

我們的最終作品集合了57種具有不同隱藏元件和深度的模型。

4、結(jié)論

在這項工作中，我們提出了三種時間建模方法來應(yīng)對具有挑戰(zhàn)性的大規(guī)模視頻識別任務(wù)。實驗結(jié)果驗證了我們的方法比傳統(tǒng)的時間建模方法具有更明顯更好的效果。我們的模型已經(jīng)被證明可以進(jìn)一步提高性能，也使得我們的方法能夠在挑戰(zhàn)競賽中獲得第3名的好成績。我們的PaddlePaddle視頻工具可從https://github.com/baidu/Youtube-8M下載，里面包含了三種時間建模方法的實現(xiàn)。

注：如果本文侵犯了您權(quán)益，請聯(lián)系我進(jìn)行刪除。聯(lián)系方式： zhuazhua365@qq.com

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

YouTube-8M 大規(guī)模視頻理解時間序列模型的建模方法

YouTube-8M 大規(guī)模視頻理解時間序列模型的建模方法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

YouTube-8M 大規(guī)模視頻理解時間序列模型的建模方法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av