思思热国产精品,日本青青伊人午夜影院

時(shí)間很快，一天又一天，一下子月中了，害，沒想到整個(gè)2020居然已經(jīng)過了快三分之一。今天依舊是論文閱讀。

論文題目：《To Create What You Tell: Generating Videos from Captions》
論文地址：https://arxiv.org/pdf/1804.08264.pdf
論文閱讀參考：https://www.jiqizhixin.com/articles/2018-09-25-5
本篇文章只記錄個(gè)人閱讀論文的筆記，具體翻譯、代碼等不展開，詳細(xì)可見上述的連接

Backgrond

Task(what to do )
Generating Videos from Captions,顧名思義，即需要完成的任務(wù)是：由描述的標(biāo)題生成相對(duì)應(yīng)的視頻（如下圖所示）

Challenge
In general, there are two critical issues in video generation employing caption conditioning: temporal coherence across video frames and semantic match between caption and the generated video
在采用標(biāo)題調(diào)節(jié)的視頻生成中存在兩個(gè)關(guān)鍵問題：
1.跨視頻幀的時(shí)間一致性
2.標(biāo)題描述與生成的視頻之間的語義匹配
第一點(diǎn)，主要是對(duì)生成模型的學(xué)習(xí)的見識(shí)，即相鄰視頻幀通常在視覺和語義上是連貫的，因此應(yīng)隨時(shí)間平滑連接。這可以被視為制作視頻的內(nèi)在屬性和通用屬性。
第二點(diǎn)，追求的模型能夠創(chuàng)建與給定標(biāo)題描述相關(guān)的真實(shí)視頻。
補(bǔ)充：(對(duì)圖像和視頻的生成和建模的任務(wù)來說，一個(gè)基本問題是難以量化圖像和視頻中的復(fù)雜變化和統(tǒng)計(jì)結(jié)構(gòu)。這激發(fā)了最近的研究探索生成對(duì)抗性網(wǎng)絡(luò)（GAN）來生成合理圖像的方法。然而，視頻是一幀幀序列，另外還包含時(shí)間依賴性，這使得將GAN擴(kuò)展到視頻域存在一些困難。）

Related work
a.Image Synthesis
b.Video Generation
(我們的工作屬于后者，但和后者主要基于的gan的生成存在一些不同，除了我們針對(duì)的是標(biāo)題字幕上生成視頻，還有在判別器和加強(qiáng)跨幀的時(shí)間連接等方面有所改進(jìn)）

Work

Do?
a.we present a novel Temporal GANs conditioning on Captions, namely TGANs-C.
b.We qualitatively demonstrate the capability of our TGANs-C to generate plausible videos conditioning on the given captions on two synthetic datasets (SBMG and TBMG) and one real-world dataset (MSVD).
工作（創(chuàng)新）
1.這是第一個(gè)在標(biāo)題描述下生成視頻的工作之一
2.實(shí)現(xiàn)了視頻/幀內(nèi)容與給定標(biāo)題對(duì)齊
3.通過一系列廣泛的定量和定性實(shí)驗(yàn)，驗(yàn)證了 TGANs-C 模型的有效性

Model
整個(gè)模型結(jié)構(gòu)如下所示：

整體上，整個(gè)TGANs-C模型分為左右兩塊，左邊是生成器，右邊就是判別器，是以 GAN 為主體框架的模型，接下來分開來分析。

生成網(wǎng)絡(luò)

生成網(wǎng)絡(luò)下由兩塊組成，下面是標(biāo)題描述的文本編碼，上面是以隨機(jī)噪聲和文本編碼特征作為輸入的生成器

文本編碼
在這里，作者采用的是雙向 LSTM 做的編碼。
文字描述的時(shí)序和語義結(jié)構(gòu)是緊密相關(guān)的，需要保留時(shí)序信息，所以 RNN 的思想是處理的關(guān)鍵。對(duì)于文本編碼過程中采用逐個(gè)單詞雙向處理，雙向 LSTM 可以保證文本上更加緊密的時(shí)序和語義結(jié)構(gòu)。
整個(gè)過程如下：
首先，輸入句子 $S$ , $S =$ { $w_1,w_2$ , ..., $w_{N_{s-1}}$ , $w_{N_s}$ }令 $w_t$ 表示句子S中第t個(gè)單詞的 $d_w$ 維“one-hot”向量（詞匯中的二進(jìn)制索引向量），因此文本特征 $w_t$ 的維數(shù)，即 $d_w$ ，是詞匯量。
雙向LSTM分為前向和后向：
1.前向LSTM按其自然順序（從 $w_1$ 到 $w_{N_s}$ ）讀取輸入單詞序列，然后計(jì)算前向隱藏狀態(tài)序列{ $\overrightarrow{h}_{1}, \overrightarrow{h}_{2}, \ldots , \overrightarrow{h}_{N_{s}}$ }
2.后向LSTM產(chǎn)生反向隱藏狀態(tài)序列{ $\overrightarrow{h}_{1}, \overrightarrow{h}_{2}, \ldots , \overrightarrow{h}_{N_{s}}$ }，其中輸入序列的順序相反（從 $w_{N_s}$ 到 $w_1$ ）。
這樣之后，前向LSTM和后向LSTM的輸出被連接為上下文嵌入的單詞序列{ $h_1,h_2$ , ..., $h_{N_{s-1}}$ , $h_{N_s}$ },其中 $h_t = \left[ \overrightarrow{h}_{t}^{T}, \overline{h}_{t}^{T} \right]^{T}$
然后，我們將嵌入的單詞序列輸入到下一個(gè)基于LSTM的編碼器中，并將最終的LSTM輸出視為句子表示 $S∈R_{d_s}$
請(qǐng)注意，bi-LSTM和基于LSTM的編碼器都是在無監(jiān)督學(xué)習(xí)方式下使用序列自動(dòng)編碼器進(jìn)行預(yù)學(xué)習(xí)的。

生成器
給定輸入語句S和隨機(jī)噪聲變量 $z∈R^{d_z}?N(0,1)$ ，設(shè)計(jì)了一個(gè)生成器網(wǎng)絡(luò)G來合成幀序列：{ $R^{d_s}$ ， $R^{d_z}$ }→ $R^{d_c×d_l×d_h×d_d}$ ,
這里的 $d_c×d_l×d_h×d_d$ 代表的是通道數(shù)、幀、高、寬，高和寬對(duì)應(yīng)的是視頻一幀圖像的長(zhǎng)寬，幀代表反卷積下包括多少視頻幀，比如最后的輸出文中取的是 16 幀作為視頻的輸出。
為了對(duì)視頻中的時(shí)空信息進(jìn)行建模，最自然的方法是利用帶反卷積的3D卷積濾波器，它可以通過2D卷積濾波器同時(shí)合成空間信息，并提供跨幀的時(shí)間不變性.在這里，生成器網(wǎng)絡(luò)G首先將隨機(jī)噪聲變量z和輸入語句S都封裝為固定長(zhǎng)度的輸入潛變量p，然后對(duì)其進(jìn)行特征變換和級(jí)聯(lián)，然后合成對(duì)應(yīng)的視頻 $v_{syn} = G(z,S)$
總的來說，整個(gè)生成器我們可以將標(biāo)題描述特征作為條件，那么它就是類似于條件生成器，由標(biāo)題描述特征作為條件生成對(duì)應(yīng)的視頻。

判別網(wǎng)絡(luò)

整個(gè)判別網(wǎng)絡(luò)中，有三個(gè)判別器，
a.video discriminator:
根據(jù)生成的視頻對(duì)現(xiàn)實(shí)視頻進(jìn)行分類并優(yōu)化視頻字幕匹配
b.frame discriminator
在真實(shí)和假幀之間進(jìn)行區(qū)分，并使幀與條件說明字幕對(duì)齊
c.motion discriminator
強(qiáng)調(diào)所生成視頻中的相鄰幀應(yīng)像在真實(shí)視頻中一樣平滑連接的理念。

首先最上面的判別器 $D_0$ （視頻判別器）， $D_0$ 首先通過3D卷積層將輸入視頻 $v∈R^{d_z}$ 編碼為視頻級(jí)張量。然后，用調(diào)節(jié)字幕S增加視頻級(jí)張量，以判別輸入視頻是否是真實(shí)的并且同時(shí)與給定字幕在語義上匹配。
判別器不僅判斷視頻的真假還判斷視頻是否和標(biāo)題描述對(duì)應(yīng)，有 3 組配對(duì)關(guān)系：真實(shí)視頻和正確標(biāo)題描述( $V_{real^+},S$ )、生成視頻和真實(shí)標(biāo)題描述( $V_{synl^+},S$ ),真實(shí)視頻和錯(cuò)誤標(biāo)題描述( $V_{real^-},S$ )。判別器只有在真實(shí)視頻和正確標(biāo)題對(duì)應(yīng)上才判斷為真，否則為假，即( $V_{real^+},S$ )為真。
對(duì)應(yīng)的損失函數(shù)為
（Video-level matching-aware loss）：

中間的判別器 $D_1$ （幀判別器）
$D_1$ 通過2D卷積層將v中的每個(gè)幀 $f^i∈R^{d_f}$ 轉(zhuǎn)換為幀級(jí)張量,( $f^i$ 描述視頻的第 i 幀對(duì)應(yīng)的圖像),然后使用條件說明S擴(kuò)展幀級(jí)張量來識(shí)別具有匹配標(biāo)題的真實(shí)幀。
對(duì)應(yīng)的損失函數(shù)為
(Frame-level matching-aware loss):

最下面的判別器 $D_2$ （運(yùn)動(dòng)判別器），它的目的是為了在時(shí)序上調(diào)整前后幀的關(guān)系，一般視頻中前后幀之間不會(huì)有太大的變動(dòng)，由此思想文章設(shè)計(jì)了時(shí)序關(guān)聯(lián)損失。它的作用是保證視頻的前后幀之間不會(huì)有太大的差異，用 D 表示：

由于決定生成的視頻幀的幀之間的關(guān)系的是生成器，對(duì)于真實(shí)視頻沒必要再做差異優(yōu)化，所以這部分主要作用的是生成器，
在這里作者提供了兩個(gè)損失，第一個(gè)可以寫為：

這一部分是考慮到生成視頻幀之間的關(guān)聯(lián)差異，將為時(shí)間相干約束損失命名為 TGANs-C-C
第二個(gè)損失為：

這一部分，從動(dòng)態(tài)差異上實(shí)現(xiàn)對(duì)抗，是另一種實(shí)現(xiàn)時(shí)序關(guān)聯(lián)的方法。這一部分用 Φ2 判斷真假，將時(shí)間相干性對(duì)抗性損失命名為 TGANs-C-A。

故整合一下對(duì)于TGANs-C-C 對(duì)應(yīng)的判別器和生成器最終損失為:

對(duì)于TGANs-C-A 對(duì)應(yīng)的判別器和生成器最終損失為:

偽代碼

Experiment

Datasets
實(shí)驗(yàn)的數(shù)據(jù)集選擇了單數(shù)字邊界 MNIST GIF（SBMG），兩位數(shù)的彈跳 MNIST GIF（TBMG）和微軟研究視頻描述語料庫（MSVD）。
SBMG 是通過在 64×64 幀內(nèi)彈出單個(gè)手寫數(shù)字而產(chǎn)生的。它由 12,000 個(gè) GIF 組成，每個(gè) GIF 長(zhǎng) 16 幀，包含一個(gè) 28×28 左右移動(dòng)的數(shù)字左右或上下。數(shù)字的起始位置是隨機(jī)均勻選擇的。每個(gè) GIF 都附有描述數(shù)字及其移動(dòng)方向的單句。
TBMG 是 SBMG 的擴(kuò)展合成數(shù)據(jù)集，包含兩個(gè)手寫數(shù)字彈跳，生成過程與 SBMG 相同，每個(gè) GIF 中的兩個(gè)數(shù)字分別左右或上下移動(dòng)。MSVD 包含從 YouTube 收集的 1,970 個(gè)視頻片段。每個(gè)視頻大約有 40 個(gè)可用的英文描述。在實(shí)驗(yàn)中，手動(dòng)過濾掉有關(guān)烹飪的視頻，并生成 518 個(gè)烹飪視頻的子集

Evaluation Metric
1.我們采用生成對(duì)抗標(biāo)準(zhǔn)（GAM），可以通過使兩個(gè)生成對(duì)抗模型相互對(duì)戰(zhàn)來直接比較兩個(gè)生成對(duì)抗模型。給定兩個(gè)生成對(duì)抗模型M1 = { $\tilde{G}_{1}, \tilde{D}_{1}$ ) }和M2 = { $\tilde{G}_{2}, \tilde{D}_{2}$ }兩種模型的判別分?jǐn)?shù)之間的兩種比率的度量為:

其中?（?）表示分類錯(cuò)誤率，xtest是測(cè)試集。測(cè)試比率rtest顯示哪個(gè)模型可以更好地推廣測(cè)試數(shù)據(jù)，而樣本比率rsample顯示哪個(gè)模型可以更輕松地欺騙其他模型。最后，GAM評(píng)估指標(biāo)將獲勝者判斷為

Human Evaluation：
用戶研究三個(gè)標(biāo)準(zhǔn)：1）現(xiàn)實(shí)-這些生成的視頻有多真實(shí)？ 2）相關(guān)性-視頻是否與給定的字幕相關(guān)？ 3）連貫性-判斷視頻的時(shí)間聯(lián)系和可讀性。報(bào)告每種方法生成的所有視頻的每個(gè)標(biāo)準(zhǔn)的平均排名（越低越好）。

Result
1.消融研究：TGANs?C1 為僅考慮視頻對(duì)抗 $D_0$ ，TGANs?C2 為考慮了 $D_0$ , $D_1$ ，TGANs-C-C 和 TGANs-C-A 都已經(jīng)知道了構(gòu)成，這幾個(gè)對(duì)比結(jié)果為：

2.定性分析不同模型產(chǎn)生的結(jié)果如下圖，主要對(duì)比了 VGAN、Sync-DRAW（基于 VAE 實(shí)現(xiàn)的）、GAN-CLS 和 TGANs-C:

3.定量上以不同人的選擇，給分越低效果越好，TGANs-C 也展示了很好的效果:

4.為了進(jìn)一步定量地驗(yàn)證我們提出的模型的有效性，我們將我們的TGANs-C與兩個(gè)生成對(duì)抗性基線(即VGAN和GaN-CLS)在GAM評(píng)估度量o方面進(jìn)行了比較。由于Sync-DRAW的方法是通過基于VAES的體系結(jié)構(gòu)而不是生成對(duì)抗性方案生成視頻，因此在這種比較中排除了它

總體而言，考慮到我們的TGANs-C與其他兩個(gè)基準(zhǔn)之間的“battle”，采樣率rsample均小于1，這表明TGANs-C可以制作出更多真實(shí)的合成視頻，并且更容易欺騙其他兩個(gè)模型?；旧献C明了利用幀級(jí)真實(shí)性，幀字幕匹配和相鄰幀之間的時(shí)間相干性來進(jìn)行視頻生成的優(yōu)勢(shì)；而且，在比較兩個(gè)基于3D的基準(zhǔn)線時(shí)，GAN-CLS可以輕松擊敗VGAN，這在一定程度上揭示了其弱點(diǎn)VGAN的架構(gòu)是在蠻力假設(shè)的基礎(chǔ)上設(shè)計(jì)的，即背景是靜止的，只有前景會(huì)移動(dòng)，因此很難模仿具有動(dòng)態(tài)背景的實(shí)詞視頻

Future work

未來的工作將首先著重于改善我們模型的視覺識(shí)別能力，即合成更高分辨率的視頻。首先，可將問題分解為幾個(gè)階段，其中根據(jù)給定標(biāo)題的形狀或基本顏色在主要階段中進(jìn)行草圖繪制，而高級(jí)階段則可以糾正視頻的細(xì)節(jié)。第二，期望如何生成以開放式字幕為條件的視頻。最后，將我們的框架擴(kuò)展到音頻領(lǐng)域也應(yīng)該很有趣。

Ending~
latex公式真的是太累了！
午飯時(shí)間~嘻嘻嘻

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文閱讀：TGANs-C

論文閱讀：TGANs-C

Backgrond

Work

Experiment

Future work

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文閱讀：TGANs-C

Backgrond

Work

Experiment

Future work

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av