VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL VIDEOS 問題:1、設(shè)計合適...
問題:無監(jiān)督學(xué)習(xí)到的特征更好的泛化到監(jiān)督訓(xùn)練分布之外的樣例上。 任務(wù):通過視頻預(yù)測,將預(yù)測的幀作為分類器的輸入,從而提高行為預(yù)測的精度。 通過視頻預(yù)測生成的圖像進(jìn)行什么任務(wù)?
問題:CNN-based光流預(yù)測在合成的數(shù)據(jù)上表現(xiàn)很好,但是在真是的場景中表現(xiàn)不好 方法:訓(xùn)練中加入真實(shí)數(shù)據(jù),進(jìn)行自監(jiān)督的視頻預(yù)測任務(wù)。 改進(jìn)方向:1、動作編碼采用VAE 2...
問題: 視頻預(yù)測需要捕捉:1、pixe-wise appearance. 2、motion change。然而現(xiàn)在的方法并不對pixel-wise motion trajec...
1、給定兩幀的關(guān)節(jié)點(diǎn)位置信息,學(xué)習(xí)到類似光流的轉(zhuǎn)換,應(yīng)用到第一幀的圖像上,生成下一幀? 2、身份信息并沒有保留? 生成過程:通過合理地表示生成的意圖控制生成過程。 條件圖像生...
任務(wù): 預(yù)測未來幀的場景分割,給定視頻幀的輸入序列,預(yù)測未觀察到的幀的場景圖。 動機(jī): 預(yù)測像素值與預(yù)測高層次的場景相比過于復(fù)雜,然而后者對于大多數(shù)應(yīng)用都已經(jīng)足夠。例如軌跡。...
編碼-解碼框架不同于: 1、先解碼再編碼。 2、每次對groundtruth和預(yù)測的幀之間的差進(jìn)行編碼,進(jìn)行下一次預(yù)測。 3、多幀預(yù)測時對相鄰兩幀預(yù)測的差(t, t+1)進(jìn)行...
動機(jī): 之前的方法都使用固定的先驗(yàn)?zāi)P腿ヌ崛D像的表示,但是不能根據(jù)數(shù)據(jù)調(diào)整學(xué)到的先驗(yàn)信息。 方法: “top-dowm”信息去改變底層的先驗(yàn)知識,從而進(jìn)行“bottom-u...
動機(jī): 前饋網(wǎng)絡(luò)能夠很好的訓(xùn)練靜止圖片的有監(jiān)督任務(wù),但是不一定適合視頻數(shù)據(jù)。 利用人類視覺系統(tǒng),構(gòu)建了一個網(wǎng)絡(luò)不僅可以bottom-up前向傳播,還可以top-down反饋傳...
任務(wù): 已知N個行人的T個時刻的軌跡信息,預(yù)測接下來時刻他們的軌跡。 優(yōu)點(diǎn): 既考慮了行人交互間的動態(tài)信息,又考慮了行人與周圍環(huán)境間的靜態(tài)信息。但是方法是其他方法的累加,沒有...
論文解決的問題:靜態(tài)場景下估計物體最可能的運(yùn)動軌跡。 Motivation: 用神經(jīng)網(wǎng)絡(luò),對行人和周圍環(huán)境進(jìn)行建模(空間上下文)和行人的方向建模(時間上下文)。 估計出行人與...