視頻分類的前世與今生:deep learning for video classification

一 寫在前面

未經(jīng)允許,不得轉(zhuǎn)載,謝謝~

本篇文章是對視頻分類方法的一點總結(jié)與概括,主要參考論文:
Deep Learning for Video Classi?cation and Captioning

知道它的過去和現(xiàn)在,才能更好的把握它的未來

這里概括了文章中對于視頻分類任務(wù)的一些內(nèi)容,主要包括:

  • 視頻分類常用模型;
  • 視頻分類常用方法;
  • 視頻分類常用數(shù)據(jù)集;

二 視頻分類常用模型

2.1 CNN網(wǎng)絡(luò)

文中提到的常用的一些經(jīng)典CNN網(wǎng)絡(luò)包括:

  • AlexNet
  • VGGNet
  • GoogleNet
  • ResNet

當(dāng)然還有最近也很火熱的SqueezeNet、DenseNet都可以被用來做特征提取等。

2.2 RNN網(wǎng)絡(luò)

  • 通用的RNN網(wǎng)絡(luò):
  • 但是通用RNN網(wǎng)絡(luò)在訓(xùn)練過程中會碰到梯度消失或者梯度爆炸的問題。
  • 用到更多其實的RNN里面的LSTM長短時記憶網(wǎng)絡(luò):

三 視頻分類常用方法

3.1 image_based video classification

  • 最顯著的特征就是這種方法是基于圖像幀進(jìn)行的。
  • 把視頻看成是a collection of frames,簡單的看成幀的集合來處理。
  • 通常這類方法會直接用在ImageNet上預(yù)訓(xùn)練好的網(wǎng)絡(luò)(2.1節(jié))來提取圖像特征,然后疊加圖像特征作為視頻特征。

3.2 end to end CNN architectures

  • 與3.1中的方法很不一樣的地方就是會把特征提取的部分直接放到網(wǎng)絡(luò)中訓(xùn)練,整個過程是端到端進(jìn)行的。
  • 比較經(jīng)典的有用3D CNN學(xué)習(xí)視頻的時空特征。
  • 但是完全用3D CNN會比較耗時、并且3D kernels 不能很好的學(xué)習(xí)到空間信息,所以也會有一些底層用2D卷積,高層用3D卷積的做法。
  • 另外由于視頻本身可以很清楚的分成空間和時間2個維度,所以又有了很經(jīng)典的two-stream模型:
  • 上面Spatial stream CNN是在raw images上做的空間卷積操作,目的是為了得到視頻的空間信息。
  • 下面Motion stream CNN是在stacked optical flow上做的時間卷積,目的是為了得到視頻的時間信息。
  • 最后對兩個流得到的結(jié)果做一個融合,作為最終判別得到的視頻類別。
  • 再這個two-stream的基礎(chǔ)上又做了很多的改進(jìn)工作,具體可以看看參考資料的論文。

3.3 modeling long-term temporal dynamics

  • 3.1與3.2用的都是CNN模型來做的。
  • 但也有一些為了提取視頻的時序信息,采用RNN來建模的,通常用的都是LSTM;
  • 相對來說LSTM在視頻描述、自然語言翻譯這樣的場景下使用的比較多。
  • 在視頻分類上也有相應(yīng)的應(yīng)用,例:
  • 該結(jié)構(gòu)中就用CNN提取視頻幀的特征,然后用兩個LSTM來探索各幀之間的時序關(guān)系,最后得到分類值。

3.4 Incorporating Visual Attention

  • 視頻往往有很多幀構(gòu)成,而通常很多幀可能是冗余的,甚至有的時候只需要幾個key frames就可以推斷出視頻類別了。
  • 所以就可以在LSTM中加入注意力機制;
  • Sharma等人提出了第一個attention LSTM;
  • 最近又有VideoLSTM結(jié)構(gòu)的提出。

3.5 Unsupervised Video Feature Learning

  • 我們注意到以上提到的4種方法都是監(jiān)督學(xué)習(xí),也就是需要有標(biāo)注數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練的。
  • 由于視頻標(biāo)注需要的人力比較多,所以最近也興起了對視頻特征的無監(jiān)督學(xué)習(xí);
  • 我還沒有具體學(xué)習(xí)做無監(jiān)督這一個方向的,就不再瞎概括了,歡迎有大佬補充指導(dǎo)。

四 視頻分類常用數(shù)據(jù)集

4.1 常用數(shù)據(jù)集

  • 主要有以下幾個:


  • 相對比較常用的: UCF101、 HMDB51、Sports-1M、 FCVID

4.2 state-of-art

  • 該文中統(tǒng)計了對UCF101以及HMDB51這兩個數(shù)據(jù)集的一些方法精度,供我們參考。


  • 到現(xiàn)在應(yīng)該又很很多突破了。

參考資料

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容