一寫在前面

未經(jīng)允許，不得轉(zhuǎn)載，謝謝~

本篇文章是對視頻分類方法的一點總結(jié)與概括，主要參考論文：
Deep Learning for Video Classi?cation and Captioning

知道它的過去和現(xiàn)在，才能更好的把握它的未來

這里概括了文章中對于視頻分類任務(wù)的一些內(nèi)容，主要包括：

視頻分類常用模型；
視頻分類常用方法；
視頻分類常用數(shù)據(jù)集；

二視頻分類常用模型

2.1 CNN網(wǎng)絡(luò)

文中提到的常用的一些經(jīng)典CNN網(wǎng)絡(luò)包括:

AlexNet
VGGNet
GoogleNet
ResNet

當(dāng)然還有最近也很火熱的SqueezeNet、DenseNet都可以被用來做特征提取等。

2.2 RNN網(wǎng)絡(luò)

通用的RNN網(wǎng)絡(luò)：

但是通用RNN網(wǎng)絡(luò)在訓(xùn)練過程中會碰到梯度消失或者梯度爆炸的問題。
用到更多其實的RNN里面的LSTM長短時記憶網(wǎng)絡(luò)：

三視頻分類常用方法

3.1 image_based video classification

最顯著的特征就是這種方法是基于圖像幀進(jìn)行的。
把視頻看成是a collection of frames，簡單的看成幀的集合來處理。
通常這類方法會直接用在ImageNet上預(yù)訓(xùn)練好的網(wǎng)絡(luò)(2.1節(jié))來提取圖像特征，然后疊加圖像特征作為視頻特征。

3.2 end to end CNN architectures

與3.1中的方法很不一樣的地方就是會把特征提取的部分直接放到網(wǎng)絡(luò)中訓(xùn)練，整個過程是端到端進(jìn)行的。
比較經(jīng)典的有用3D CNN學(xué)習(xí)視頻的時空特征。
但是完全用3D CNN會比較耗時、并且3D kernels 不能很好的學(xué)習(xí)到空間信息，所以也會有一些底層用2D卷積，高層用3D卷積的做法。
另外由于視頻本身可以很清楚的分成空間和時間2個維度，所以又有了很經(jīng)典的two-stream模型：

上面Spatial stream CNN是在raw images上做的空間卷積操作，目的是為了得到視頻的空間信息。
下面Motion stream CNN是在stacked optical flow上做的時間卷積，目的是為了得到視頻的時間信息。
最后對兩個流得到的結(jié)果做一個融合，作為最終判別得到的視頻類別。
再這個two-stream的基礎(chǔ)上又做了很多的改進(jìn)工作，具體可以看看參考資料的論文。

3.3 modeling long-term temporal dynamics

3.1與3.2用的都是CNN模型來做的。
但也有一些為了提取視頻的時序信息，采用RNN來建模的，通常用的都是LSTM；
相對來說LSTM在視頻描述、自然語言翻譯這樣的場景下使用的比較多。
在視頻分類上也有相應(yīng)的應(yīng)用，例：

該結(jié)構(gòu)中就用CNN提取視頻幀的特征，然后用兩個LSTM來探索各幀之間的時序關(guān)系，最后得到分類值。

3.4 Incorporating Visual Attention

視頻往往有很多幀構(gòu)成，而通常很多幀可能是冗余的，甚至有的時候只需要幾個key frames就可以推斷出視頻類別了。
所以就可以在LSTM中加入注意力機制；
Sharma等人提出了第一個attention LSTM；
最近又有VideoLSTM結(jié)構(gòu)的提出。

3.5 Unsupervised Video Feature Learning

我們注意到以上提到的4種方法都是監(jiān)督學(xué)習(xí)，也就是需要有標(biāo)注數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練的。
由于視頻標(biāo)注需要的人力比較多，所以最近也興起了對視頻特征的無監(jiān)督學(xué)習(xí)；
我還沒有具體學(xué)習(xí)做無監(jiān)督這一個方向的，就不再瞎概括了，歡迎有大佬補充指導(dǎo)。

四視頻分類常用數(shù)據(jù)集

4.1 常用數(shù)據(jù)集

主要有以下幾個：
相對比較常用的： UCF101、 HMDB51、Sports-1M、 FCVID

4.2 state-of-art

該文中統(tǒng)計了對UCF101以及HMDB51這兩個數(shù)據(jù)集的一些方法精度，供我們參考。
到現(xiàn)在應(yīng)該又很很多突破了。

參考資料

Deep Learning for Video Classi?cation and Captioning

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

視頻分類的前世與今生：deep learning for video classification

視頻分類的前世與今生：deep learning for video classification

一寫在前面

二視頻分類常用模型

2.1 CNN網(wǎng)絡(luò)

2.2 RNN網(wǎng)絡(luò)

三視頻分類常用方法

3.1 image_based video classification

3.2 end to end CNN architectures

3.3 modeling long-term temporal dynamics

3.4 Incorporating Visual Attention

3.5 Unsupervised Video Feature Learning

四視頻分類常用數(shù)據(jù)集

4.1 常用數(shù)據(jù)集

4.2 state-of-art

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

視頻分類的前世與今生：deep learning for video classification

一 寫在前面

二 視頻分類常用模型

2.1 CNN網(wǎng)絡(luò)

2.2 RNN網(wǎng)絡(luò)

三 視頻分類常用方法

3.1 image_based video classification

3.2 end to end CNN architectures

3.3 modeling long-term temporal dynamics

3.4 Incorporating Visual Attention

3.5 Unsupervised Video Feature Learning

四 視頻分類常用數(shù)據(jù)集

4.1 常用數(shù)據(jù)集

4.2 state-of-art

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一寫在前面

二視頻分類常用模型

三視頻分類常用方法

四視頻分類常用數(shù)據(jù)集