人妻久久区二,大香蕉综合网,网址你懂的

三月了~小李又上線了！最近的更新應(yīng)該都是論文閱讀（為了完成組會(huì)任務(wù) 我可真不容易害）下面這篇論文主要關(guān)于文本到場(chǎng)景的轉(zhuǎn)換。

論文名稱：《Text2Scene: Generating Compositional Scenes from Textual Descriptions》
論文地址：https://arxiv.org/abs/1809.01110
閱讀參考：https://blog.csdn.net/Suyebiubiu/article/details/102250194

Background

What to do(Task):Text to Scene
a.Generates various forms of compositional scene representations
from natural language descriptions
b.Focus on generating a scene representation consisting of a list of objects, along with their attributes (e.g. location,size, aspect ratio, pose, appearance).
簡(jiǎn)單來(lái)說(shuō)，我們要做的是：從給的文本描述來(lái)生成各種形式的場(chǎng)景,這個(gè)場(chǎng)景表示中包括了多個(gè)對(duì)象的空間布局及每個(gè)對(duì)象的屬性，包括姿勢(shì)、表情等。也就是，自然語(yǔ)言描述的可視化表現(xiàn)。

Generate three types of scenes:

a.抽象場(chǎng)景,如上圖第一行是將文本轉(zhuǎn)換成卡通抽象的場(chǎng)景
b.圖像場(chǎng)景相對(duì)應(yīng)的對(duì)象布局（COCO 數(shù)據(jù)集），第二行生成布局
c.針對(duì)對(duì)應(yīng)的圖像合成場(chǎng)景（coco數(shù)據(jù)集中），第三行生成了多只大象的合成的圖。

Challange:
1.輸入的描述語(yǔ)言中可能間接的暗示了對(duì)象的某些屬性（局部屬性）
例如上圖第一行“Mike is surprised”應(yīng)該改變mike的臉部表情
2.輸入文本可能會(huì)包含復(fù)雜的空間屬性的信息（空間屬性）
例如“Jenny is running towards Mike and the duck” 表示jenny跑的方向依賴于mike和duck的位置
3.輸入的文本可能會(huì)間接的暗示圖像中有一個(gè)對(duì)象或者一組對(duì)象（數(shù)量）
例如“some people” 暗示著圖像中應(yīng)該有多個(gè)人以及第三行的多只大象。

Some method:
a. Most of the recent approaches have leveraged conditional Generative Adversarial Networks (GANs). 目前在這個(gè)任務(wù)領(lǐng)域里面使用較多的方法是CGAN，但與此同時(shí)在使用此方法生成高質(zhì)量的合成圖片時(shí)，對(duì)嘗試合成具有多個(gè)交互對(duì)象的復(fù)雜場(chǎng)景的圖像時(shí)，仍然面臨著重大的挑戰(zhàn)。
b. A graphical mode lwas introduced to generate an abstract scene from textual descriptions,引入了圖形化模型來(lái)從文本描述生成一個(gè)抽象場(chǎng)景.
c.Johnson et al proposed agraph-convolutional model to generate images from structured scene graphs.Johnson等人提出了從結(jié)構(gòu)場(chǎng)景圖生成圖像的圖形卷積模型，被呈現(xiàn)的對(duì)象及其關(guān)系作為場(chǎng)景圖的輸入。
d.Hong et al targeted image synthesis using conditional GANs.. Kim et al performed pictorial generation from chat logs.Gupta et al proposed a semiparametric method to generate cartoon-like pictures.Hong等人使用傳統(tǒng)的GANs進(jìn)行圖像合成;Kim等人從聊天日志中生成圖形;Gupta等人提出了一種半?yún)?shù)化的生成類卡通圖像的方法，呈現(xiàn)的對(duì)象也作為輸入提供給模型，預(yù)測(cè)的布局前景和背景是由分開(kāi)訓(xùn)練的模塊執(zhí)行.

Work

Do?
? We propose Text2Scene, a framework to generate compositional scene representations from natural language descriptions.
? We show that Text2Scene can be used to generate, under minor modifications, different forms of scene representations, including cartoon-like scenes, semantic layouts corresponding to real images, and synthetic image composites.
? We conduct extensive experiments on the tasks of abstract image generation for the Abstract Scenes dataset , semantic layout and synthetic image generations for the COCO dataset .
a.提出了Text2Screen模型，一個(gè)從自然語(yǔ)言描述中合成場(chǎng)景的框架
b.展示了Text2Screen模型在不同場(chǎng)景中的表現(xiàn)，包括卡通場(chǎng)景，與真實(shí)圖像對(duì)應(yīng)的語(yǔ)義布局和合成圖像組合三個(gè)方面
c.對(duì)抽象場(chǎng)景數(shù)據(jù)集的抽象圖像生成，COCO數(shù)據(jù)集的語(yǔ)義布局和合成圖像生成做了大量的實(shí)驗(yàn)

Model：

整個(gè)模型的結(jié)構(gòu)如上圖所示，我們的模型，首先使用sequence to sequence方法將對(duì)象放在了一個(gè)空白的畫(huà)布上，Text2Scene里面：
a.首先模型的開(kāi)始是文本編碼器A，用來(lái)可以映射句子的潛在表示，為輸入提供一系列的表征；
b.接著是圖像編碼器B，為目前狀態(tài)的生成場(chǎng)景編碼，生成當(dāng)前的畫(huà)布
c.之后是卷積循環(huán)模塊C，用于追蹤空間位置，目前已經(jīng)生成的歷史，可以將當(dāng)前的狀態(tài)傳給下一個(gè)步驟。
d.再接是D是注意力模塊，集中于輸入文本的不同部分，連續(xù)不斷地集中于輸入文本的不同部分；
e.緊接著E是一個(gè)對(duì)象解碼器，可以根據(jù)當(dāng)前場(chǎng)景狀態(tài)于已參與的輸入文本預(yù)測(cè)下一個(gè)對(duì)象，可以決定放什么對(duì)象。
f.而后F是一個(gè)屬性解碼器，基于注意力的預(yù)測(cè)變量，依次關(guān)注輸入文本的不同部分，先確定要放置的對(duì)象，然后確定要分配給該對(duì)象的屬性。
g.最后是可選的前向嵌入G來(lái)學(xué)習(xí)合成圖像生成任務(wù)中批量檢索外表特征。

各部分詳解：
Text2Scene的模型采用了一個(gè)seq to seq框架，并介紹了空間推理和順序推理的關(guān)鍵設(shè)計(jì)。(補(bǔ)充一下什么是seq to seq？簡(jiǎn)單來(lái)說(shuō)，字面上是序列到序列的模型，是一種通用的編碼器-解碼器的框架）
在每一個(gè)時(shí)間步驟中，模型通過(guò)以下三個(gè)步驟來(lái)修改背景畫(huà)布：
a.模型關(guān)注輸入文本，以決定下一個(gè)要添加的對(duì)象是什么，或者決定生成是否應(yīng)該結(jié)束;
b.如果決定添加一個(gè)新對(duì)象，則模型在該對(duì)象的語(yǔ)言上下文中進(jìn)行縮放，以決定其屬性(如姿態(tài)、大小)和與周圍環(huán)境的關(guān)系(如位置、與其他對(duì)象的交互);
c.模型將提取出的文本屬性返回到畫(huà)布和場(chǎng)景中，并將其轉(zhuǎn)換為相應(yīng)的視覺(jué)表示。

Text Encoder(文本編碼器）

文本編碼器的結(jié)構(gòu)：雙向GRU
作用：對(duì)于給定的句子，我們利用上面的公式計(jì)算每個(gè)單詞w，即把輸入的句子映射到嵌入向量的表示。
（這里BiGRU是一個(gè)雙向的GRU單元， $x_i$ 為與第i個(gè)單詞 $w_i$ 對(duì)應(yīng)的詞嵌入向量， $h_i^E$ 為編碼當(dāng)前單詞及其上下文的隱藏向量。我們用 $h_i^E$ 和 $x_i$ 對(duì)，作為編碼的文本特征，寫(xiě)作[ $h_i^E$ , $x_i$ ]）

Object and Attribute Decoders（對(duì)象和屬性解碼器）：
在每一步t，我們的模型通過(guò)對(duì)象表V（有k個(gè)特征）來(lái)預(yù)測(cè)下一個(gè)對(duì)象。使用上面生成的文本特征[ $h_i^E$ , $x_i$ ]和當(dāng)前畫(huà)布 $B_t$ 作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN) 對(duì) $B_t$ 進(jìn)行編碼，得到一個(gè) $C×H×W$ feature map，表示當(dāng)前場(chǎng)景狀態(tài)。我們使用卷積GRU (ConvGRU)對(duì)歷史場(chǎng)景狀態(tài){ $h_t^D$ }進(jìn)行建模：

對(duì)象和屬性解碼器的結(jié)構(gòu)：卷積GRU（ConvGRU）
作用：根據(jù)當(dāng)前場(chǎng)景卷積操作后的特征、和上一次生成場(chǎng)景的隱含狀態(tài)，生成當(dāng)前場(chǎng)景的隱含狀態(tài)
(初始隱藏狀態(tài)是通過(guò)文本編碼器的最后隱藏狀態(tài)來(lái)創(chuàng)建的。 $h_t^D$ 提供了場(chǎng)景中每個(gè)空間位置的時(shí)間動(dòng)態(tài)信息表示。由于這種表示可能無(wú)法捕獲小對(duì)象，因此上一步 $O_{t-1}$ 中預(yù)測(cè)的對(duì)象的one-hot vector也作為輸入提供給下游解碼器。初始對(duì)象被設(shè)置為一個(gè)特殊的場(chǎng)景開(kāi)始標(biāo)記)

Attention-based Object Decoder（基于注意力的對(duì)象解碼器）：
根據(jù)當(dāng)前生成的圖像和輸入的信息預(yù)測(cè)下一個(gè)要生成的對(duì)象
我們的對(duì)象解碼器是一個(gè)基于注意力機(jī)制的模型，輸出一個(gè)對(duì)象詞匯表V中所有可能的對(duì)象的似然得分。它以循環(huán)場(chǎng)景狀態(tài) $h_t^D$ 、文本特征[ $h_i^E$ , $x_i$ ]和之前預(yù)測(cè)的對(duì)象 $O_{t-1}$ 作為輸入

第一個(gè)式子：據(jù)對(duì)當(dāng)前畫(huà)布做加權(quán)，池化后，得到對(duì)當(dāng)前場(chǎng)景的注意力向量
第二個(gè)式子：據(jù)畫(huà)布的注意力結(jié)果和上一步預(yù)測(cè)的結(jié)果，來(lái)對(duì)輸入的文本做加權(quán)得到文本的注意力結(jié)果。
第三個(gè)式子：據(jù)畫(huà)布的注意力結(jié)果、文本注意力結(jié)果得到這次預(yù)測(cè)的結(jié)果
其中因?yàn)楫?huà)布的表示只表示出了畫(huà)布中整體的信息，但是對(duì)于一些局部的、小的對(duì)象，畫(huà)布表示h不能很好的表示出來(lái) ，所以增加了一項(xiàng)上一次預(yù)測(cè)的結(jié)果，來(lái)幫助這一次的預(yù)測(cè)。
（這里 $Ψ^0$ 是在 $h_t^D$ 上有空間attention的卷積網(wǎng)絡(luò)。 $Ψ^0$ 的目標(biāo)是收集對(duì)象預(yù)測(cè)所需的上下文，例如已經(jīng)添加了哪些對(duì)象。已經(jīng)參加的對(duì)象的空間特征通過(guò)平均池化得到一個(gè)向量 $U_t^0$ 。 $Φ^0$ 是基于文本的注意力模塊，它使用[ $U_t^0$ , $O_{t-1}$ ]去attend語(yǔ)言上下文[ $h_i^E$ , $x_i$ ]和收集上下文向量 $C_t^0$ 。理想情況下， $C_t^0$ 對(duì)所有描述的對(duì)象信息進(jìn)行編碼，這些對(duì)象到目前為止還沒(méi)有添加到場(chǎng)景中。 $Θ^0$ 是一個(gè)雙層感知器，它使用一個(gè)softmax函數(shù)，通過(guò)連接后面三個(gè)來(lái)預(yù)測(cè)下一個(gè)對(duì)象 $p(O_t)$ 的可能性。)
Attention-based Attribute Decoder(基于注意力的屬性解碼器）
基于注意力機(jī)制的屬性解碼器對(duì)響應(yīng)對(duì)象 $O_t$ 的屬性集進(jìn)行相似的預(yù)測(cè)。我們使用另一個(gè)注意力模塊 $Φ^a$ 捕捉 $O_t$ 語(yǔ)言上下文信息，提取一個(gè)新的上下文向量 $C_t^a$ 更側(cè)重于與當(dāng)前對(duì)象 $O_t$ 的內(nèi)容。對(duì)于 $h_t^D$ 每個(gè)空間位置，該模型預(yù)測(cè)一個(gè)位置似然和一組屬性似然。這里，可能的位置被離散成相同的空間分辨率：

第一個(gè)式子表示：根據(jù)上一次預(yù)測(cè)的對(duì)象，放大對(duì)應(yīng)文本的上下文
第二個(gè)式子表示：根據(jù)放大后的上下文，關(guān)注到畫(huà)布上對(duì)應(yīng)的區(qū)域
第三個(gè)式子表示：根據(jù)放大的上下文以及相關(guān)的畫(huà)布，得到上一次預(yù)測(cè)的對(duì)象的相關(guān)屬性，包括位置和其他屬性（例如臉部朝向、大小等）
( $Φ^a$ 是一個(gè)基于文本的注意力模塊，將 $O_t$ 與上下文[ $h_i^E$ , $x_i$ ]對(duì)齊。 $Ψ^a$ 是一個(gè)以圖像為基礎(chǔ)的注意力模塊，旨在找到一個(gè)負(fù)擔(dān)得起的位置來(lái)添加 $O_t$ 。在與htD連接之前， $C_t^a$ 在空間上被復(fù)制。最終的似然映射由卷積網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)，接著是softmax分類器。對(duì)于連續(xù)屬性{如外觀向量Qt用于程序檢索(下一節(jié))。使用L2-范數(shù)對(duì)輸出標(biāo)準(zhǔn)化。）
Foreground Patch Embedding(前向嵌入模塊):
我們預(yù)測(cè)了特定的屬性:外觀向量 $Q_t$ ，僅用于訓(xùn)練生成合成圖像組合的模型。與其他屬性一樣， $Q_t$ 對(duì)輸出特征圖中的每個(gè)位置進(jìn)行預(yù)測(cè)，在測(cè)試時(shí)用于從其他圖像中預(yù)先計(jì)算的對(duì)象段集合中檢索類似的補(bǔ)丁。我們使用CNN訓(xùn)練一個(gè)patch的嵌入網(wǎng)絡(luò)，將目標(biāo)圖像中的前向patch壓縮成一個(gè)一維向量Ft。目標(biāo)是使用triplet embedding loss來(lái)最小化 $Q_t$ 與 $F_t$ 之間的L2-距離。

Loss function(損失函數(shù)）：

前三個(gè)項(xiàng)是對(duì)應(yīng)于對(duì)象，位置和離散屬性的對(duì)數(shù)似然損失為負(fù)
softmax分類器。
Ltriplet是可選用于合成圖像生成任務(wù)的三重態(tài)嵌損失。
$L _attn$ 是受到雙重隨機(jī)性啟發(fā)的正則化術(shù)語(yǔ)提出注意模塊。
這些正則化術(shù)語(yǔ)鼓勵(lì)模型將注意力分散到輸入句子中的所有單詞上，從而不會(huì)丟失任何描述的對(duì)象。

Experiments

(I) constructing abstract scenes of clip-arts in the Abstract Scenes dataset; (II) predicting semantic object layouts of real images in the COCO dataset; (III) generating synthetic image composites in the COCO dataset
實(shí)驗(yàn)?zāi)K分為三大部分,即在“抽象場(chǎng)景”數(shù)據(jù)集中構(gòu)造剪貼畫(huà)的抽象場(chǎng)景（這邊指卡通場(chǎng)景）；預(yù)測(cè)COCO數(shù)據(jù)集中真實(shí)圖像的語(yǔ)義對(duì)象布局；在COCO數(shù)據(jù)集中生成合成圖像合成。

1.抽象場(chǎng)景的生成：
數(shù)據(jù)集：戶外玩的剪貼畫(huà)形象和物品，包括1000個(gè)場(chǎng)景，58個(gè)剪貼畫(huà)
每個(gè)剪貼畫(huà)有3種尺寸、7中姿勢(shì)、5個(gè)表情、兩個(gè)臉部朝向
句子：每個(gè)場(chǎng)景包括三個(gè)描述的句子，詞匯量是2538個(gè)英文單詞。
評(píng)估方法：
a.自動(dòng)評(píng)估:
1.單個(gè)物品的precision/recall
2.邊界框有重合的兩個(gè)物品的precision/recall
3.姿勢(shì)和表情的分類精度
4.單個(gè)物品和多個(gè)物品的邊界框的寬高比和坐標(biāo)的歐式距離
b.人工評(píng)估:
1.描述下列文本的特征圖像是否捕捉到了，包括三個(gè)答案：
true false uncertain
2.文本中出現(xiàn)的一個(gè)對(duì)象、文本中出現(xiàn)的有語(yǔ)義關(guān)系的兩個(gè)對(duì)象
3.對(duì)象的位置、對(duì)象的臉部表情
結(jié)果：

從表格可以看到，分四部分實(shí)驗(yàn)，和先前（Zitnick et al）對(duì)比、沒(méi)有注意力模塊、有基于對(duì)象的注意力模塊、有基于模塊和屬性的注意力模塊、在有基于模塊和屬性的注意力模塊上還加入了L2-范數(shù)對(duì)輸出標(biāo)準(zhǔn)化?？梢钥闯觯詈笠粋€(gè)效果最好（即我們采用的模型）具體效果如下圖：（text2scene是可以捕獲到語(yǔ)義之間的細(xì)微差別的，例如兩個(gè)對(duì)象之間的空間關(guān)系。）

2.** 預(yù)測(cè)COCO數(shù)據(jù)集中真實(shí)圖像的語(yǔ)義對(duì)象布局**
數(shù)據(jù)集：語(yǔ)義布局包含對(duì)象的邊界框來(lái)自于COCO數(shù)據(jù)集中定義的80個(gè)對(duì)象類別。實(shí)驗(yàn)中，我們使用val2017拆分作為測(cè)試集，并使用來(lái)自train2017拆分的5000樣本進(jìn)行驗(yàn)證。
我們將邊界框歸一化，并按照從下到上的順序?qū)?duì)象進(jìn)行排序，因?yàn)閥坐標(biāo)通常表示對(duì)象與相機(jī)之間的距離。我們進(jìn)一步根據(jù)x坐標(biāo)（從左到右）和分類索引對(duì)具有相同y坐標(biāo)的對(duì)象進(jìn)行排序。（在這里，考慮的屬性是位置，包括大小、長(zhǎng)寬比。同時(shí)，我們將規(guī)格化尺寸范圍平均離散為17個(gè)音階)
評(píng)價(jià)指標(biāo)： BLEU , METEOR, ROUGE L, CIDEr， SPICE
其中，bleu,meteor,rouge一般用于翻譯，cider用于圖像字幕的生成，
bleu：指選文到譯文的重合度，即n-grams精度的加權(quán)平均，偏向較短的翻譯的流暢性（N 可取1,2,3,4）
meteor:基于單精度的加權(quán)調(diào)和平均和單字召回率，解決了bleu的一些缺陷
rouge:和bleu相似，bleu是計(jì)算準(zhǔn)確率，rouge計(jì)算的是召回率
cider:bleu和空間向量的集合。
spice:使用基于圖的語(yǔ)義表示來(lái)編碼 caption 中的 objects, attributes 和 relationships
具體參考：Image Caption 常用評(píng)價(jià)指標(biāo)
結(jié)果：

布局生成任務(wù)中的外部評(píng)估，表明了從合成圖像性能生成的字母和真實(shí)的布局幾乎接近。由圖6 也可以看出：改模型學(xué)會(huì)了重要的視覺(jué)概念，就像物體的存在與否和數(shù)目以及空間關(guān)系

3.在COCO數(shù)據(jù)集中生成合成圖像合成
我們通過(guò)在COCO數(shù)據(jù)集中給定輸入字幕的情況下生成合成圖像合成來(lái)演示我們的方法。
數(shù)據(jù)集:我們使用val2014拆分作為測(cè)試集，并使用train2014拆分中的5000個(gè)樣本進(jìn)行驗(yàn)證。
通過(guò)從COCO-Stuff批注中獲取對(duì)應(yīng)語(yǔ)義標(biāo)簽圖中的連接組件，從訓(xùn)練圖像中提取stuff。對(duì)于object，我們使用COCO中定義的所有80個(gè)類別。對(duì)于stuff，我們使用中定義的15個(gè)超類別作為類別標(biāo)簽，總共得出95個(gè)類別。
評(píng)價(jià)指標(biāo)：Inception Score (IS)、以及上一個(gè)實(shí)驗(yàn)的指標(biāo)
結(jié)果：

image.png

對(duì)于復(fù)雜組合圖像的生成，模型不是通過(guò)從單一訓(xùn)練圖像中簡(jiǎn)單的檢索來(lái)生成合成圖像，結(jié)果圖表明模型不僅僅學(xué)習(xí)一個(gè)全局圖像檢索。

結(jié)論：

Seq2Seq的方法（用在剪貼畫(huà)上）
1.使用語(yǔ)義元素來(lái)逐個(gè)生成，避免了像素級(jí)別的生成紋理信息等操作
2.把生成布局作為單獨(dú)的任務(wù)，可以借鑒到生成真實(shí)場(chǎng)景圖像中
3.需要利用其他圖像出現(xiàn)的共同的pattern來(lái)生成當(dāng)前的圖像
優(yōu)點(diǎn)：
使得生成的任務(wù)更加沒(méi)有歧義，對(duì)話可以提供更具體、更細(xì)節(jié)的描述
缺點(diǎn)：
目前的工作只能用于及其的描述和繪畫(huà)，暫不適用于人類的描述或者繪畫(huà)

累了累了~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文閱讀：Text2Scene

論文閱讀：Text2Scene

Background

Work

Experiments

結(jié)論：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文閱讀：Text2Scene

Background

Work

Experiments

結(jié)論：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av