時(shí)間很快,一天又一天,一下子月中了,害,沒想到整個(gè)2020居然已經(jīng)過了快三分之一。今天依舊是論文閱讀。
論文題目:《To Create What You Tell: Generating Videos from Captions》
論文地址:https://arxiv.org/pdf/1804.08264.pdf
論文閱讀參考:https://www.jiqizhixin.com/articles/2018-09-25-5
本篇文章只記錄個(gè)人閱讀論文的筆記,具體翻譯、代碼等不展開,詳細(xì)可見上述的連接
Backgrond
Task(what to do )
Generating Videos from Captions,顧名思義,即需要完成的任務(wù)是:由描述的標(biāo)題生成相對(duì)應(yīng)的視頻(如下圖所示)Challenge
In general, there are two critical issues in video generation employing caption conditioning: temporal coherence across video frames and semantic match between caption and the generated video
在采用標(biāo)題調(diào)節(jié)的視頻生成中存在兩個(gè)關(guān)鍵問題:
1.跨視頻幀的時(shí)間一致性
2.標(biāo)題描述與生成的視頻之間的語義匹配
第一點(diǎn),主要是對(duì)生成模型的學(xué)習(xí)的見識(shí),即相鄰視頻幀通常在視覺和語義上是連貫的,因此應(yīng)隨時(shí)間平滑連接。這可以被視為制作視頻的內(nèi)在屬性和通用屬性。
第二點(diǎn),追求的模型能夠創(chuàng)建與給定標(biāo)題描述相關(guān)的真實(shí)視頻。
補(bǔ)充:(對(duì)圖像和視頻的生成和建模的任務(wù)來說,一個(gè)基本問題是難以量化圖像和視頻中的復(fù)雜變化和統(tǒng)計(jì)結(jié)構(gòu)。 這激發(fā)了最近的研究探索生成對(duì)抗性網(wǎng)絡(luò)(GAN)來生成合理圖像的方法。然而,視頻是一幀幀序列,另外還包含時(shí)間依賴性,這使得將GAN擴(kuò)展到視頻域存在一些困難。)Related work
a.Image Synthesis
b.Video Generation
(我們的工作屬于后者, 但和后者主要基于的gan的生成存在一些不同,除了我們針對(duì)的是標(biāo)題字幕上生成視頻,還有在判別器和加強(qiáng)跨幀的時(shí)間連接等方面有所改進(jìn))
Work
Do?
a.we present a novel Temporal GANs conditioning on Captions, namely TGANs-C.
b.We qualitatively demonstrate the capability of our TGANs-C to generate plausible videos conditioning on the given captions on two synthetic datasets (SBMG and TBMG) and one real-world dataset (MSVD).
工作(創(chuàng)新)
1.這是第一個(gè)在標(biāo)題描述下生成視頻的工作之一
2.實(shí)現(xiàn)了視頻/幀內(nèi)容與給定標(biāo)題對(duì)齊
3.通過一系列廣泛的定量和定性實(shí)驗(yàn),驗(yàn)證了 TGANs-C 模型的有效性Model
整個(gè)模型結(jié)構(gòu)如下所示:
整體上,整個(gè)TGANs-C模型分為左右兩塊,左邊是生成器,右邊就是判別器,是以 GAN 為主體框架的模型,接下來分開來分析。生成網(wǎng)絡(luò)
生成網(wǎng)絡(luò)下由兩塊組成,下面是標(biāo)題描述的文本編碼,上面是以隨機(jī)噪聲和文本編碼特征作為輸入的生成器文本編碼
在這里,作者采用的是雙向 LSTM 做的編碼。
文字描述的時(shí)序和語義結(jié)構(gòu)是緊密相關(guān)的,需要保留時(shí)序信息,所以 RNN 的思想是處理的關(guān)鍵。對(duì)于文本編碼過程中采用逐個(gè)單詞雙向處理,雙向 LSTM 可以保證文本上更加緊密的時(shí)序和語義結(jié)構(gòu)。
整個(gè)過程如下:
首先,輸入句子,
{
, ...,
,
}令
表示句子S中第t個(gè)單詞的
維“one-hot”向量(詞匯中的二進(jìn)制索引向量),因此文本特征
的維數(shù),即
,是詞匯量。
雙向LSTM分為前向和后向:
1.前向LSTM按其自然順序(從到
)讀取輸入單詞序列,然后計(jì)算前向隱藏狀態(tài)序列{
}
2.后向LSTM產(chǎn)生反向隱藏狀態(tài)序列{},其中輸入序列的順序相反(從
到
)。
這樣之后,前向LSTM和后向LSTM的輸出被連接為上下文嵌入的單詞序列{, ...,
,
},其中
然后,我們將嵌入的單詞序列輸入到下一個(gè)基于LSTM的編碼器中,并將最終的LSTM輸出視為句子表示
請(qǐng)注意,bi-LSTM和基于LSTM的編碼器都是在無監(jiān)督學(xué)習(xí)方式下使用序列自動(dòng)編碼器進(jìn)行預(yù)學(xué)習(xí)的。生成器
給定輸入語句S和隨機(jī)噪聲變量,設(shè)計(jì)了一個(gè)生成器網(wǎng)絡(luò)G來合成幀序列:{
,
}→
,
這里的代表的是通道數(shù)、幀、高、寬,高和寬對(duì)應(yīng)的是視頻一幀圖像的長(zhǎng)寬,幀代表反卷積下包括多少視頻幀,比如最后的輸出文中取的是 16 幀作為視頻的輸出。
為了對(duì)視頻中的時(shí)空信息進(jìn)行建模,最自然的方法是利用帶反卷積的3D卷積濾波器,它可以通過2D卷積濾波器同時(shí)合成空間信息,并提供跨幀的時(shí)間不變性.在這里,生成器網(wǎng)絡(luò)G首先將隨機(jī)噪聲變量z和輸入語句S都封裝為固定長(zhǎng)度的輸入潛變量p,然后對(duì)其進(jìn)行特征變換和級(jí)聯(lián),然后合成對(duì)應(yīng)的視頻
總的來說,整個(gè)生成器我們可以將標(biāo)題描述特征作為條件,那么它就是類似于條件生成器,由標(biāo)題描述特征作為條件生成對(duì)應(yīng)的視頻。判別網(wǎng)絡(luò)
整個(gè)判別網(wǎng)絡(luò)中,有三個(gè)判別器,
a.video discriminator:
根據(jù)生成的視頻對(duì)現(xiàn)實(shí)視頻進(jìn)行分類并優(yōu)化視頻字幕匹配
b.frame discriminator
在真實(shí)和假幀之間進(jìn)行區(qū)分,并使幀與條件說明字幕對(duì)齊
c.motion discriminator
強(qiáng)調(diào)所生成視頻中的相鄰幀應(yīng)像在真實(shí)視頻中一樣平滑連接的理念。首先最上面的判別器
(視頻判別器),
首先通過3D卷積層將輸入視頻
編碼為視頻級(jí)張量。 然后,用調(diào)節(jié)字幕S增加視頻級(jí)張量,以判別輸入視頻是否是真實(shí)的并且同時(shí)與給定字幕在語義上匹配。
判別器不僅判斷視頻的真假還判斷視頻是否和標(biāo)題描述對(duì)應(yīng),有 3 組配對(duì)關(guān)系:真實(shí)視頻和正確標(biāo)題描述()、生成視頻和真實(shí)標(biāo)題描述(
),真實(shí)視頻和錯(cuò)誤標(biāo)題描述(
)。判別器只有在真實(shí)視頻和正確標(biāo)題對(duì)應(yīng)上才判斷為真,否則為假,即(
)為真。
對(duì)應(yīng)的損失函數(shù)為
(Video-level matching-aware loss):中間的判別器
(幀判別器)
通過2D卷積層將v中的每個(gè)幀
轉(zhuǎn)換為幀級(jí)張量,(
描述視頻的第 i 幀對(duì)應(yīng)的圖像),然后使用條件說明S擴(kuò)展幀級(jí)張量來識(shí)別具有匹配標(biāo)題的真實(shí)幀。
對(duì)應(yīng)的損失函數(shù)為
(Frame-level matching-aware loss):最下面的判別器
(運(yùn)動(dòng)判別器),它的目的是為了在時(shí)序上調(diào)整前后幀的關(guān)系,一般視頻中前后幀之間不會(huì)有太大的變動(dòng),由此思想文章設(shè)計(jì)了時(shí)序關(guān)聯(lián)損失。它的作用是保證視頻的前后幀之間不會(huì)有太大的差異,用 D 表示:
由于決定生成的視頻幀的幀之間的關(guān)系的是生成器,對(duì)于真實(shí)視頻沒必要再做差異優(yōu)化,所以這部分主要作用的是生成器,
在這里作者提供了兩個(gè)損失,第一個(gè)可以寫為:這一部分是考慮到生成視頻幀之間的關(guān)聯(lián)差異,將為時(shí)間相干約束損失命名為 TGANs-C-C
第二個(gè)損失為:這一部分,從動(dòng)態(tài)差異上實(shí)現(xiàn)對(duì)抗,是另一種實(shí)現(xiàn)時(shí)序關(guān)聯(lián)的方法。 這一部分用 Φ2 判斷真假,將時(shí)間相干性對(duì)抗性損失命名為 TGANs-C-A。 故整合一下對(duì)于TGANs-C-C 對(duì)應(yīng)的判別器和生成器最終損失為:對(duì)于TGANs-C-A 對(duì)應(yīng)的判別器和生成器最終損失為:偽代碼
Experiment
Datasets
實(shí)驗(yàn)的數(shù)據(jù)集選擇了單數(shù)字邊界 MNIST GIF(SBMG),兩位數(shù)的彈跳 MNIST GIF(TBMG)和微軟研究視頻描述語料庫(MSVD)。
SBMG 是通過在 64×64 幀內(nèi)彈出單個(gè)手寫數(shù)字而產(chǎn)生的。它由 12,000 個(gè) GIF 組成,每個(gè) GIF 長(zhǎng) 16 幀,包含一個(gè) 28×28 左右移動(dòng)的數(shù)字左右或上下。數(shù)字的起始位置是隨機(jī)均勻選擇的。每個(gè) GIF 都附有描述數(shù)字及其移動(dòng)方向的單句。
TBMG 是 SBMG 的擴(kuò)展合成數(shù)據(jù)集,包含兩個(gè)手寫數(shù)字彈跳,生成過程與 SBMG 相同,每個(gè) GIF 中的兩個(gè)數(shù)字分別左右或上下移動(dòng)。MSVD 包含從 YouTube 收集的 1,970 個(gè)視頻片段。每個(gè)視頻大約有 40 個(gè)可用的英文描述。在實(shí)驗(yàn)中,手動(dòng)過濾掉有關(guān)烹飪的視頻,并生成 518 個(gè)烹飪視頻的子集Evaluation Metric
1.我們采用生成對(duì)抗標(biāo)準(zhǔn)(GAM),可以通過使兩個(gè)生成對(duì)抗模型相互對(duì)戰(zhàn)來直接比較兩個(gè)生成對(duì)抗模型。給定兩個(gè)生成對(duì)抗模型M1 = {) }和M2 = {
}兩種模型的判別分?jǐn)?shù)之間的兩種比率的度量為:
其中?(?)表示分類錯(cuò)誤率,xtest是測(cè)試集。測(cè)試比率rtest顯示哪個(gè)模型可以更好地推廣測(cè)試數(shù)據(jù),而樣本比率rsample顯示哪個(gè)模型可以更輕松地欺騙其他模型。最后,GAM評(píng)估指標(biāo)將獲勝者判斷為
- Human Evaluation:
用戶研究三個(gè)標(biāo)準(zhǔn):1)現(xiàn)實(shí)-這些生成的視頻有多真實(shí)? 2)相關(guān)性-視頻是否與給定的字幕相關(guān)? 3)連貫性-判斷視頻的時(shí)間聯(lián)系和可讀性。報(bào)告每種方法生成的所有視頻的每個(gè)標(biāo)準(zhǔn)的平均排名(越低越好)。Result
1.消融研究:TGANs?C1 為僅考慮視頻對(duì)抗,TGANs?C2 為考慮了
,
,TGANs-C-C 和 TGANs-C-A 都已經(jīng)知道了構(gòu)成,這幾個(gè)對(duì)比結(jié)果為:
2.定性分析不同模型產(chǎn)生的結(jié)果如下圖,主要對(duì)比了 VGAN、Sync-DRAW(基于 VAE 實(shí)現(xiàn)的)、GAN-CLS 和 TGANs-C:
3.定量上以不同人的選擇,給分越低效果越好,TGANs-C 也展示了很好的效果:
4.為了進(jìn)一步定量地驗(yàn)證我們提出的模型的有效性,我們將我們的TGANs-C與兩個(gè)生成對(duì)抗性基線(即VGAN和GaN-CLS)在GAM評(píng)估度量o方面進(jìn)行了比較。由于Sync-DRAW的方法是通過基于VAES的體系結(jié)構(gòu)而不是生成對(duì)抗性方案生成視頻,因此在這種比較中排除了它總體而言,考慮到我們的TGANs-C與其他兩個(gè)基準(zhǔn)之間的“battle”,采樣率rsample均小于1,這表明TGANs-C可以制作出更多真實(shí)的合成視頻,并且更容易欺騙其他兩個(gè)模型?;旧献C明了利用幀級(jí)真實(shí)性,幀字幕匹配和相鄰幀之間的時(shí)間相干性來進(jìn)行視頻生成的優(yōu)勢(shì);而且,在比較兩個(gè)基于3D的基準(zhǔn)線時(shí),GAN-CLS可以輕松擊敗VGAN,這在一定程度上揭示了其弱點(diǎn)VGAN的架構(gòu)是在蠻力假設(shè)的基礎(chǔ)上設(shè)計(jì)的,即背景是靜止的,只有前景會(huì)移動(dòng),因此很難模仿具有動(dòng)態(tài)背景的實(shí)詞視頻
Future work
未來的工作將首先著重于改善我們模型的視覺識(shí)別能力,即合成更高分辨率的視頻。首先,可將問題分解為幾個(gè)階段,其中根據(jù)給定標(biāo)題的形狀或基本顏色在主要階段中進(jìn)行草圖繪制,而高級(jí)階段則可以糾正視頻的細(xì)節(jié)。第二,期望如何生成以開放式字幕為條件的視頻。最后,將我們的框架擴(kuò)展到音頻領(lǐng)域也應(yīng)該很有趣。
Ending~
latex公式真的是太累了!
午飯時(shí)間~嘻嘻嘻

















