論文閱讀:TGANs-C

時(shí)間很快,一天又一天,一下子月中了,害,沒想到整個(gè)2020居然已經(jīng)過了快三分之一。今天依舊是論文閱讀。

論文題目:《To Create What You Tell: Generating Videos from Captions》
論文地址:https://arxiv.org/pdf/1804.08264.pdf
論文閱讀參考:https://www.jiqizhixin.com/articles/2018-09-25-5

本篇文章只記錄個(gè)人閱讀論文的筆記,具體翻譯、代碼等不展開,詳細(xì)可見上述的連接

Backgrond

Task(what to do )
Generating Videos from Captions,顧名思義,即需要完成的任務(wù)是:由描述的標(biāo)題生成相對(duì)應(yīng)的視頻(如下圖所示)

Challenge
In general, there are two critical issues in video generation employing caption conditioning: temporal coherence across video frames and semantic match between caption and the generated video
在采用標(biāo)題調(diào)節(jié)的視頻生成中存在兩個(gè)關(guān)鍵問題:
1.跨視頻幀的時(shí)間一致性
2.標(biāo)題描述與生成的視頻之間的語義匹配

第一點(diǎn),主要是對(duì)生成模型的學(xué)習(xí)的見識(shí),即相鄰視頻幀通常在視覺和語義上是連貫的,因此應(yīng)隨時(shí)間平滑連接。這可以被視為制作視頻的內(nèi)在屬性和通用屬性。
第二點(diǎn),追求的模型能夠創(chuàng)建與給定標(biāo)題描述相關(guān)的真實(shí)視頻。
補(bǔ)充:(對(duì)圖像和視頻的生成和建模的任務(wù)來說,一個(gè)基本問題是難以量化圖像和視頻中的復(fù)雜變化和統(tǒng)計(jì)結(jié)構(gòu)。 這激發(fā)了最近的研究探索生成對(duì)抗性網(wǎng)絡(luò)(GAN)來生成合理圖像的方法。然而,視頻是一幀幀序列,另外還包含時(shí)間依賴性,這使得將GAN擴(kuò)展到視頻域存在一些困難。

Related work
a.Image Synthesis
b.Video Generation
(我們的工作屬于后者, 但和后者主要基于的gan的生成存在一些不同,除了我們針對(duì)的是標(biāo)題字幕上生成視頻,還有在判別器和加強(qiáng)跨幀的時(shí)間連接等方面有所改進(jìn))

Work

Do?
a.we present a novel Temporal GANs conditioning on Captions, namely TGANs-C.
b.We qualitatively demonstrate the capability of our TGANs-C to generate plausible videos conditioning on the given captions on two synthetic datasets (SBMG and TBMG) and one real-world dataset (MSVD).
工作(創(chuàng)新)
1.這是第一個(gè)在標(biāo)題描述下生成視頻的工作之一
2.實(shí)現(xiàn)了視頻/幀內(nèi)容與給定標(biāo)題對(duì)齊
3.通過一系列廣泛的定量和定性實(shí)驗(yàn),驗(yàn)證了 TGANs-C 模型的有效性

Model
整個(gè)模型結(jié)構(gòu)如下所示:

整體上,整個(gè)TGANs-C模型分為左右兩塊,左邊是生成器,右邊就是判別器,是以 GAN 為主體框架的模型,接下來分開來分析。

生成網(wǎng)絡(luò)

生成網(wǎng)絡(luò)下由兩塊組成,下面是標(biāo)題描述的文本編碼,上面是以隨機(jī)噪聲和文本編碼特征作為輸入的生成器

文本編碼
在這里,作者采用的是雙向 LSTM 做的編碼。
文字描述的時(shí)序和語義結(jié)構(gòu)是緊密相關(guān)的,需要保留時(shí)序信息,所以 RNN 的思想是處理的關(guān)鍵。對(duì)于文本編碼過程中采用逐個(gè)單詞雙向處理,雙向 LSTM 可以保證文本上更加緊密的時(shí)序和語義結(jié)構(gòu)。
整個(gè)過程如下:
首先,輸入句子S, S ={w_1,w_2, ...,w_{N_{s-1}},w_{N_s} }令w_t表示句子S中第t個(gè)單詞的d_w維“one-hot”向量(詞匯中的二進(jìn)制索引向量),因此文本特征w_t的維數(shù),即d_w,是詞匯量。
雙向LSTM分為前向和后向:
1.前向LSTM按其自然順序(從w_1w_{N_s})讀取輸入單詞序列,然后計(jì)算前向隱藏狀態(tài)序列{\overrightarrow{h}_{1}, \overrightarrow{h}_{2}, \ldots , \overrightarrow{h}_{N_{s}}}
2.后向LSTM產(chǎn)生反向隱藏狀態(tài)序列{\overrightarrow{h}_{1}, \overrightarrow{h}_{2}, \ldots , \overrightarrow{h}_{N_{s}}},其中輸入序列的順序相反(從w_{N_s}w_1)。

這樣之后,前向LSTM和后向LSTM的輸出被連接為上下文嵌入的單詞序列{h_1,h_2, ...,h_{N_{s-1}},h_{N_s} },其中h_t = \left[ \overrightarrow{h}_{t}^{T}, \overline{h}_{t}^{T} \right]^{T}
然后,我們將嵌入的單詞序列輸入到下一個(gè)基于LSTM的編碼器中,并將最終的LSTM輸出視為句子表示S∈R_{d_s}
請(qǐng)注意,bi-LSTM和基于LSTM的編碼器都是在無監(jiān)督學(xué)習(xí)方式下使用序列自動(dòng)編碼器進(jìn)行預(yù)學(xué)習(xí)的。

生成器
給定輸入語句S和隨機(jī)噪聲變量z∈R^{d_z}?N(0,1),設(shè)計(jì)了一個(gè)生成器網(wǎng)絡(luò)G來合成幀序列:{R^{d_s},R^{d_z}}→R^{d_c×d_l×d_h×d_d},
這里的d_c×d_l×d_h×d_d代表的是通道數(shù)、幀、高、寬,高和寬對(duì)應(yīng)的是視頻一幀圖像的長(zhǎng)寬,幀代表反卷積下包括多少視頻幀,比如最后的輸出文中取的是 16 幀作為視頻的輸出。
為了對(duì)視頻中的時(shí)空信息進(jìn)行建模,最自然的方法是利用帶反卷積的3D卷積濾波器,它可以通過2D卷積濾波器同時(shí)合成空間信息,并提供跨幀的時(shí)間不變性.在這里,生成器網(wǎng)絡(luò)G首先將隨機(jī)噪聲變量z和輸入語句S都封裝為固定長(zhǎng)度的輸入潛變量p,然后對(duì)其進(jìn)行特征變換和級(jí)聯(lián),然后合成對(duì)應(yīng)的視頻v_{syn} = G(z,S)
總的來說,整個(gè)生成器我們可以將標(biāo)題描述特征作為條件,那么它就是類似于條件生成器,由標(biāo)題描述特征作為條件生成對(duì)應(yīng)的視頻。

判別網(wǎng)絡(luò)

整個(gè)判別網(wǎng)絡(luò)中,有三個(gè)判別器,
a.video discriminator:
根據(jù)生成的視頻對(duì)現(xiàn)實(shí)視頻進(jìn)行分類并優(yōu)化視頻字幕匹配
b.frame discriminator
在真實(shí)和假幀之間進(jìn)行區(qū)分,并使幀與條件說明字幕對(duì)齊
c.motion discriminator
強(qiáng)調(diào)所生成視頻中的相鄰幀應(yīng)像在真實(shí)視頻中一樣平滑連接的理念。

首先最上面的判別器D_0(視頻判別器),D_0首先通過3D卷積層將輸入視頻v∈R^{d_z}編碼為視頻級(jí)張量。 然后,用調(diào)節(jié)字幕S增加視頻級(jí)張量,以判別輸入視頻是否是真實(shí)的并且同時(shí)與給定字幕在語義上匹配。
判別器不僅判斷視頻的真假還判斷視頻是否和標(biāo)題描述對(duì)應(yīng),有 3 組配對(duì)關(guān)系:真實(shí)視頻和正確標(biāo)題描述(V_{real^+},S)、生成視頻和真實(shí)標(biāo)題描述(V_{synl^+},S),真實(shí)視頻和錯(cuò)誤標(biāo)題描述(V_{real^-},S)。判別器只有在真實(shí)視頻和正確標(biāo)題對(duì)應(yīng)上才判斷為真,否則為假,即(V_{real^+},S)為真。
對(duì)應(yīng)的損失函數(shù)為
(Video-level matching-aware loss)

中間的判別器D_1(幀判別器)
D_1通過2D卷積層將v中的每個(gè)幀f^i∈R^{d_f}轉(zhuǎn)換為幀級(jí)張量,(f^i描述視頻的第 i 幀對(duì)應(yīng)的圖像),然后使用條件說明S擴(kuò)展幀級(jí)張量來識(shí)別具有匹配標(biāo)題的真實(shí)幀。
對(duì)應(yīng)的損失函數(shù)為
(Frame-level matching-aware loss):

最下面的判別器D_2(運(yùn)動(dòng)判別器),它的目的是為了在時(shí)序上調(diào)整前后幀的關(guān)系,一般視頻中前后幀之間不會(huì)有太大的變動(dòng),由此思想文章設(shè)計(jì)了時(shí)序關(guān)聯(lián)損失。它的作用是保證視頻的前后幀之間不會(huì)有太大的差異,用 D 表示:

由于決定生成的視頻幀的幀之間的關(guān)系的是生成器,對(duì)于真實(shí)視頻沒必要再做差異優(yōu)化,所以這部分主要作用的是生成器,
在這里作者提供了兩個(gè)損失,第一個(gè)可以寫為:
這一部分是考慮到生成視頻幀之間的關(guān)聯(lián)差異,將為時(shí)間相干約束損失命名為 TGANs-C-C
第二個(gè)損失為:
這一部分,從動(dòng)態(tài)差異上實(shí)現(xiàn)對(duì)抗,是另一種實(shí)現(xiàn)時(shí)序關(guān)聯(lián)的方法。 這一部分用 Φ2 判斷真假,將時(shí)間相干性對(duì)抗性損失命名為 TGANs-C-A。

故整合一下對(duì)于TGANs-C-C 對(duì)應(yīng)的判別器和生成器最終損失為:

對(duì)于TGANs-C-A 對(duì)應(yīng)的判別器和生成器最終損失為:

偽代碼

Experiment

Datasets
實(shí)驗(yàn)的數(shù)據(jù)集選擇了單數(shù)字邊界 MNIST GIF(SBMG),兩位數(shù)的彈跳 MNIST GIF(TBMG)和微軟研究視頻描述語料庫(MSVD)。
SBMG 是通過在 64×64 幀內(nèi)彈出單個(gè)手寫數(shù)字而產(chǎn)生的。它由 12,000 個(gè) GIF 組成,每個(gè) GIF 長(zhǎng) 16 幀,包含一個(gè) 28×28 左右移動(dòng)的數(shù)字左右或上下。數(shù)字的起始位置是隨機(jī)均勻選擇的。每個(gè) GIF 都附有描述數(shù)字及其移動(dòng)方向的單句。
TBMG 是 SBMG 的擴(kuò)展合成數(shù)據(jù)集,包含兩個(gè)手寫數(shù)字彈跳,生成過程與 SBMG 相同,每個(gè) GIF 中的兩個(gè)數(shù)字分別左右或上下移動(dòng)。MSVD 包含從 YouTube 收集的 1,970 個(gè)視頻片段。每個(gè)視頻大約有 40 個(gè)可用的英文描述。在實(shí)驗(yàn)中,手動(dòng)過濾掉有關(guān)烹飪的視頻,并生成 518 個(gè)烹飪視頻的子集

Evaluation Metric
1.我們采用生成對(duì)抗標(biāo)準(zhǔn)(GAM),可以通過使兩個(gè)生成對(duì)抗模型相互對(duì)戰(zhàn)來直接比較兩個(gè)生成對(duì)抗模型。給定兩個(gè)生成對(duì)抗模型M1 = { \tilde{G}_{1}, \tilde{D}_{1} ) }和M2 = {\tilde{G}_{2}, \tilde{D}_{2}}兩種模型的判別分?jǐn)?shù)之間的兩種比率的度量為:

其中?(?)表示分類錯(cuò)誤率,xtest是測(cè)試集。測(cè)試比率rtest顯示哪個(gè)模型可以更好地推廣測(cè)試數(shù)據(jù),而樣本比率rsample顯示哪個(gè)模型可以更輕松地欺騙其他模型。最后,GAM評(píng)估指標(biāo)將獲勝者判斷為

  1. Human Evaluation:
    用戶研究三個(gè)標(biāo)準(zhǔn):1)現(xiàn)實(shí)-這些生成的視頻有多真實(shí)? 2)相關(guān)性-視頻是否與給定的字幕相關(guān)? 3)連貫性-判斷視頻的時(shí)間聯(lián)系和可讀性。報(bào)告每種方法生成的所有視頻的每個(gè)標(biāo)準(zhǔn)的平均排名(越低越好)。

Result
1.消融研究:TGANs?C1 為僅考慮視頻對(duì)抗D_0,TGANs?C2 為考慮了D_0,D_1,TGANs-C-C 和 TGANs-C-A 都已經(jīng)知道了構(gòu)成,這幾個(gè)對(duì)比結(jié)果為:


2.定性分析不同模型產(chǎn)生的結(jié)果如下圖,主要對(duì)比了 VGAN、Sync-DRAW(基于 VAE 實(shí)現(xiàn)的)、GAN-CLS 和 TGANs-C:

3.定量上以不同人的選擇,給分越低效果越好,TGANs-C 也展示了很好的效果:

4.為了進(jìn)一步定量地驗(yàn)證我們提出的模型的有效性,我們將我們的TGANs-C與兩個(gè)生成對(duì)抗性基線(即VGAN和GaN-CLS)在GAM評(píng)估度量o方面進(jìn)行了比較。由于Sync-DRAW的方法是通過基于VAES的體系結(jié)構(gòu)而不是生成對(duì)抗性方案生成視頻,因此在這種比較中排除了它
總體而言,考慮到我們的TGANs-C與其他兩個(gè)基準(zhǔn)之間的“battle”,采樣率rsample均小于1,這表明TGANs-C可以制作出更多真實(shí)的合成視頻,并且更容易欺騙其他兩個(gè)模型?;旧献C明了利用幀級(jí)真實(shí)性,幀字幕匹配和相鄰幀之間的時(shí)間相干性來進(jìn)行視頻生成的優(yōu)勢(shì);而且,在比較兩個(gè)基于3D的基準(zhǔn)線時(shí),GAN-CLS可以輕松擊敗VGAN,這在一定程度上揭示了其弱點(diǎn)VGAN的架構(gòu)是在蠻力假設(shè)的基礎(chǔ)上設(shè)計(jì)的,即背景是靜止的,只有前景會(huì)移動(dòng),因此很難模仿具有動(dòng)態(tài)背景的實(shí)詞視頻

Future work

未來的工作將首先著重于改善我們模型的視覺識(shí)別能力,即合成更高分辨率的視頻。首先,可將問題分解為幾個(gè)階段,其中根據(jù)給定標(biāo)題的形狀或基本顏色在主要階段中進(jìn)行草圖繪制,而高級(jí)階段則可以糾正視頻的細(xì)節(jié)。第二,期望如何生成以開放式字幕為條件的視頻。最后,將我們的框架擴(kuò)展到音頻領(lǐng)域也應(yīng)該很有趣。


Ending~
latex公式真的是太累了!
午飯時(shí)間~嘻嘻嘻

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容