
1.Spatial stream Convnet:隨機采樣單幀圖片輸入,提取靜態(tài)特征(顏色,形狀)
網(wǎng)絡(luò)結(jié)構(gòu)很常用,類似于圖像領(lǐng)域上的應(yīng)用,可以現(xiàn)在Imagnet預(yù)訓(xùn)練,再微調(diào)。
2.Temporal stream Convnet:本文的亮點。
與以往將堆疊的視頻幀作為輸入不同,本文采用堆疊的光流作為網(wǎng)絡(luò)的輸入。將多幀(L幀)光流作為多個輸入通道(2L)
以往堆疊的視頻幀,將堆疊的視頻幀作為輸入,未從時序上處理視頻幀,只是簡單地作為多個輸入通道,難以提取時空運動信息。
而將堆疊的光流輸入,光流本身已描述了運動的速度和方向,然而存在著計算量大的問題。
3.spatial stream convnet與Temporal stream convnet融合:
簡單求平均或者兩者用L2范式融合再用SVM分類
summary:
1.光流的多種變體:
a。簡單計算選定幀I的前向L幀光流
b。只計算稠密軌跡點上的光流(計算量減???效果差一些?)
問題Q:實驗結(jié)果表明該效果比單純的光流效果差?為什么?
c。計算選定幀I的前L/2幀以及后L/2幀光流
2.相機運動消除
減去平均光流
3.多任務(wù)學(xué)習(xí)
針對數(shù)據(jù)集小,樣本數(shù)量少:本文聯(lián)合UCF101與HMDB51數(shù)據(jù)集進行訓(xùn)練,用兩層softmax分別進行兩個數(shù)據(jù)集的分類
4.訓(xùn)練:
a。每次迭代從視頻樣本中隨機抽取一幀(I)作為空域卷積網(wǎng)絡(luò)的輸入
當(dāng)?shù)螖?shù)多時,可以保證隨機采樣得到的幀均勻分布整個視頻樣本。
問題Q:迭代的次數(shù)能否滿足上述要求?每次只學(xué)習(xí)到一幀?是否存在效率低的問題?
b。計算選定幀I的L幀光流,作為時域卷積網(wǎng)絡(luò)的輸入
問題Q:選定幀I位于視頻的開始,結(jié)束時,如何計算L幀光流
5.測試
從待測試的視頻中均勻抽取固定數(shù)量的視頻幀作為輸入
問題Q:不同長度的視頻是否需要不一樣的數(shù)量