VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL V...
難點: 1、模型必須理解如何傳播運動以及處理遮擋。 2、短期預測:從模型改進(從預測像素值改為預測動作) 3、模糊:從代價函數(shù)改進(加入GAN)...
計劃:上午調試prednet的代碼,完成refine net的訓練,以及多幀的訓練。 下午: 看有關光流估計的paper, 以及在Caltech...
問題:無監(jiān)督學習到的特征更好的泛化到監(jiān)督訓練分布之外的樣例上。 任務:通過視頻預測,將預測的幀作為分類器的輸入,從而提高行為預測的精度。 通過視...
問題:CNN-based光流預測在合成的數(shù)據(jù)上表現(xiàn)很好,但是在真是的場景中表現(xiàn)不好 方法:訓練中加入真實數(shù)據(jù),進行自監(jiān)督的視頻預測任務。 改進方...
問題: 視頻預測需要捕捉:1、pixe-wise appearance. 2、motion change。然而現(xiàn)在的方法并不對pixel-wis...
1、給定兩幀的關節(jié)點位置信息,學習到類似光流的轉換,應用到第一幀的圖像上,生成下一幀? 2、身份信息并沒有保留? 生成過程:通過合理地表示生成的...
任務: 預測未來幀的場景分割,給定視頻幀的輸入序列,預測未觀察到的幀的場景圖。 動機: 預測像素值與預測高層次的場景相比過于復雜,然而后者對于大...
編碼-解碼框架不同于: 1、先解碼再編碼。 2、每次對groundtruth和預測的幀之間的差進行編碼,進行下一次預測。 3、多幀預測時對相鄰兩...