Two-stream Convolution Networks for Action Recognition in Videos

two-stream architecture

1.Spatial stream Convnet:隨機采樣單幀圖片輸入,提取靜態(tài)特征(顏色,形狀)

網(wǎng)絡(luò)結(jié)構(gòu)很常用,類似于圖像領(lǐng)域上的應(yīng)用,可以現(xiàn)在Imagnet預(yù)訓(xùn)練,再微調(diào)。

2.Temporal stream Convnet:本文的亮點。

與以往將堆疊的視頻幀作為輸入不同,本文采用堆疊的光流作為網(wǎng)絡(luò)的輸入。將多幀(L幀)光流作為多個輸入通道(2L)

以往堆疊的視頻幀,將堆疊的視頻幀作為輸入,未從時序上處理視頻幀,只是簡單地作為多個輸入通道,難以提取時空運動信息。

而將堆疊的光流輸入,光流本身已描述了運動的速度和方向,然而存在著計算量大的問題。

3.spatial stream convnet與Temporal stream convnet融合:

簡單求平均或者兩者用L2范式融合再用SVM分類

summary:

1.光流的多種變體:

a。簡單計算選定幀I的前向L幀光流

b。只計算稠密軌跡點上的光流(計算量減???效果差一些?)

問題Q:實驗結(jié)果表明該效果比單純的光流效果差?為什么?

c。計算選定幀I的前L/2幀以及后L/2幀光流

2.相機運動消除

減去平均光流

3.多任務(wù)學(xué)習(xí)

針對數(shù)據(jù)集小,樣本數(shù)量少:本文聯(lián)合UCF101與HMDB51數(shù)據(jù)集進行訓(xùn)練,用兩層softmax分別進行兩個數(shù)據(jù)集的分類

4.訓(xùn)練:

a。每次迭代從視頻樣本中隨機抽取一幀(I)作為空域卷積網(wǎng)絡(luò)的輸入

當(dāng)?shù)螖?shù)多時,可以保證隨機采樣得到的幀均勻分布整個視頻樣本。

問題Q:迭代的次數(shù)能否滿足上述要求?每次只學(xué)習(xí)到一幀?是否存在效率低的問題?

b。計算選定幀I的L幀光流,作為時域卷積網(wǎng)絡(luò)的輸入

問題Q:選定幀I位于視頻的開始,結(jié)束時,如何計算L幀光流

5.測試

從待測試的視頻中均勻抽取固定數(shù)量的視頻幀作為輸入

問題Q:不同長度的視頻是否需要不一樣的數(shù)量

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容