《Two-Stream Convolutional Networks for Action Recognition in Videos》算法詳解

論文鏈接:Two-Stream Convolutional Networks for Action Recognition in Videos

文章由牛津大學(xué)VGG實(shí)驗(yàn)室提出,收錄于NIPS2014。
該文章認(rèn)為視頻的信息可以分為空間信息和時間信息,所以該文章提出了一種利用普通rgb圖像(代表空間信息)和光流信息(代表時間信息)來解決視頻的動作分類問題。

首先需要了解什么是光流,請看博客《光流估計——從傳統(tǒng)方法到深度學(xué)習(xí)》

一、網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)有兩種輸入,一種是代表空間信息的視頻幀,一種是代表時間信息的特征幀。所以網(wǎng)絡(luò)也由兩種深度網(wǎng)絡(luò)組成,兩個網(wǎng)絡(luò)都是由CNN加softmax組成。最后的輸出也有兩種形式:兩個網(wǎng)絡(luò)softmax輸出的平均值、在兩個網(wǎng)絡(luò)softmax輸出結(jié)果堆疊的基礎(chǔ)上訓(xùn)練一個SVM。

對于空間網(wǎng)絡(luò)(輸入為普通rgb圖片的網(wǎng)絡(luò))來說,輸入的是大小為224*224*3的圖像。
對于時間網(wǎng)絡(luò)(輸入為光流信息的網(wǎng)絡(luò))來說,輸入的是大小為224*224*2L的光流棧。

1.png

上述講到光流網(wǎng)絡(luò)由代表時間信息的特征幀作為輸入,文章實(shí)際上討論了四種輸入形式

討論時序特征之前還需要定義一個目前在雙流系列網(wǎng)絡(luò)經(jīng)常會用到的術(shù)語,叫snippet,一個snippet由一幀圖像幀和幾幀光流幀組成

光流棧

計算每兩幀之間的光流,將多幀光流堆疊起來形成網(wǎng)絡(luò)的輸入。因?yàn)楣饬靼瑑蓚€方向,所以每個光流場是包含x和y方向兩個通道的特征圖。對于將L個連續(xù)光流幀作為輸入,那么網(wǎng)絡(luò)的輸入通道數(shù)為2L,即I_{\tau}\in R^{w \times h \times 2L},\tau表示第\tau個輸入網(wǎng)絡(luò)的光流棧,用snippet來說的話就是第\tau個snippet的光流輸入。
I_{\tau}光流棧中的某兩個光流幀在坐標(biāo)點(diǎn)(u,v)位置的值可以用公式表示如下:
I_{\tau}(u, v, 2k-1)=d^x_{\tau+k-1}(u,v),
I_{\tau}(u, v, 2k)=d^y_{\tau+k-1}(u,v), u=[1:w],v=[1:h],k=[1:L]
上面w,h為圖像大小,L為輸入的光流??値瑪?shù)。

軌跡疊加

軌跡疊加就是假設(shè)第一幀的某個像素點(diǎn),我們可以通過光流來追蹤它在視頻中的軌跡。而簡單的光流場疊加并沒有追蹤。光流和軌跡的區(qū)別如下圖所示。


2.png

軌跡特征使用公式表示如下,類似于光流表示:
I_{\tau}(u, v, 2k-1)=d^x_{\tau+k-1}(p_k),
I_{\tau}(u, v, 2k)=d^y_{\tau+k-1}(p_k), u=[1:w],v=[1:h],k=[1:L]
上式中p_k表示在第一個以(u,v)點(diǎn)為起始點(diǎn),在特征棧中第k幀的坐標(biāo)點(diǎn)位置(即原始的(u,v)點(diǎn)經(jīng)過k幀后到達(dá)的點(diǎn)位置),上式中d表示光流信息,其它同光流。
p_k的計算公式如下:
p_1=(u,v);
p_k=p_{k-1}+d_{\tau+k-2}(p_{k-1}),k>1.
通俗來說p_k就是從初始位置(u,v)開始根據(jù)光流信息計算出來的在k幀到達(dá)的位置。

雙向光流

上述講的都是單向光流,即以某一幀為初始幀,計算后面的光流。雙向光流是以當(dāng)前幀為中間幀,光流場來源于前面幾幀和后面幾幀計算出的光流的疊加。

減去平均值光流

為了減少攝像機(jī)拍攝時本身的運(yùn)動帶來的影響,輸入光流之前減去平均的光流作為網(wǎng)絡(luò)的輸入。

該文章的原理就是這些,具體實(shí)驗(yàn)請參考原文。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容