三月了~小李又上線了!最近的更新應(yīng)該都是論文閱讀(為了完成組會(huì)任務(wù) 我可真不容易 害)下面這篇論文主要關(guān)于文本到場(chǎng)景的轉(zhuǎn)換。
論文名稱:《Text2Scene: Generating Compositional Scenes from Textual Descriptions》
論文地址:https://arxiv.org/abs/1809.01110
閱讀參考:https://blog.csdn.net/Suyebiubiu/article/details/102250194
Background
What to do(Task):Text to Scene
a.Generates various forms of compositional scene representations
from natural language descriptions
b.Focus on generating a scene representation consisting of a list of objects, along with their attributes (e.g. location,size, aspect ratio, pose, appearance).
簡(jiǎn)單來(lái)說(shuō),我們要做的是:從給的文本描述來(lái)生成各種形式的場(chǎng)景,這個(gè)場(chǎng)景表示中包括了多個(gè)對(duì)象的空間布局及每個(gè)對(duì)象的屬性,包括姿勢(shì)、表情等。也就是,自然語(yǔ)言描述的可視化表現(xiàn)。Generate three types of scenes:
a.抽象場(chǎng)景,如上圖第一行是將文本轉(zhuǎn)換成卡通抽象的場(chǎng)景
b.圖像場(chǎng)景相對(duì)應(yīng)的對(duì)象布局(COCO 數(shù)據(jù)集),第二行生成布局
c.針對(duì)對(duì)應(yīng)的圖像合成場(chǎng)景(coco數(shù)據(jù)集中),第三行生成了多只大象的合成的圖。Challange:
1.輸入的描述語(yǔ)言中可能間接的暗示了對(duì)象的某些屬性(局部屬性)
例如上圖第一行“Mike is surprised”應(yīng)該改變mike的臉部表情
2.輸入文本可能會(huì)包含復(fù)雜的空間屬性的信息(空間屬性)
例如“Jenny is running towards Mike and the duck” 表示jenny跑的方向依賴于mike和duck的位置
3.輸入的文本可能會(huì)間接的暗示圖像中有一個(gè)對(duì)象或者一組對(duì)象(數(shù)量)
例如“some people” 暗示著圖像中應(yīng)該有多個(gè)人以及第三行的多只大象。Some method:
a. Most of the recent approaches have leveraged conditional Generative Adversarial Networks (GANs). 目前在這個(gè)任務(wù)領(lǐng)域里面使用較多的方法是CGAN,但與此同時(shí)在使用此方法生成高質(zhì)量的合成圖片時(shí),對(duì)嘗試合成具有多個(gè)交互對(duì)象的復(fù)雜場(chǎng)景的圖像時(shí),仍然面臨著重大的挑戰(zhàn)。
b. A graphical mode lwas introduced to generate an abstract scene from textual descriptions,引入了圖形化模型來(lái)從文本描述生成一個(gè)抽象場(chǎng)景.
c.Johnson et al proposed agraph-convolutional model to generate images from structured scene graphs.Johnson等人提出了從結(jié)構(gòu)場(chǎng)景圖生成圖像的圖形卷積模型,被呈現(xiàn)的對(duì)象及其關(guān)系作為場(chǎng)景圖的輸入。
d.Hong et al targeted image synthesis using conditional GANs.. Kim et al performed pictorial generation from chat logs.Gupta et al proposed a semiparametric method to generate cartoon-like pictures.Hong等人使用傳統(tǒng)的GANs進(jìn)行圖像合成;Kim等人從聊天日志中生成圖形;Gupta等人提出了一種半?yún)?shù)化的生成類卡通圖像的方法,呈現(xiàn)的對(duì)象也作為輸入提供給模型,預(yù)測(cè)的布局前景和背景是由分開(kāi)訓(xùn)練的模塊執(zhí)行.
Work
Do?
? We propose Text2Scene, a framework to generate compositional scene representations from natural language descriptions.
? We show that Text2Scene can be used to generate, under minor modifications, different forms of scene representations, including cartoon-like scenes, semantic layouts corresponding to real images, and synthetic image composites.
? We conduct extensive experiments on the tasks of abstract image generation for the Abstract Scenes dataset , semantic layout and synthetic image generations for the COCO dataset .
a.提出了Text2Screen模型,一個(gè)從自然語(yǔ)言描述中合成場(chǎng)景的框架
b.展示了Text2Screen模型在不同場(chǎng)景中的表現(xiàn),包括卡通場(chǎng)景,與真實(shí)圖像對(duì)應(yīng)的語(yǔ)義布局和合成圖像組合三個(gè)方面
c.對(duì)抽象場(chǎng)景數(shù)據(jù)集的抽象圖像生成,COCO數(shù)據(jù)集的語(yǔ)義布局和合成圖像生成做了大量的實(shí)驗(yàn)Model:
整個(gè)模型的結(jié)構(gòu)如上圖所示,我們的模型,首先使用sequence to sequence方法將對(duì)象放在了一個(gè)空白的畫(huà)布上,Text2Scene里面:
a.首先模型的開(kāi)始是文本編碼器A,用來(lái)可以映射句子的潛在表示,為輸入提供一系列的表征;
b.接著是圖像編碼器B,為目前狀態(tài)的生成場(chǎng)景編碼,生成當(dāng)前的畫(huà)布
c.之后是卷積循環(huán)模塊C,用于追蹤空間位置,目前已經(jīng)生成的歷史,可以將當(dāng)前的狀態(tài)傳給下一個(gè)步驟。
d.再接是D是注意力模塊,集中于輸入文本的不同部分,連續(xù)不斷地集中于輸入文本的不同部分;
e.緊接著E是一個(gè)對(duì)象解碼器,可以根據(jù)當(dāng)前場(chǎng)景狀態(tài)于已參與的輸入文本預(yù)測(cè)下一個(gè)對(duì)象,可以決定放什么對(duì)象。
f.而后F是一個(gè)屬性解碼器,基于注意力的預(yù)測(cè)變量,依次關(guān)注輸入文本的不同部分,先確定要放置的對(duì)象,然后確定要分配給該對(duì)象的屬性。
g.最后是可選的前向嵌入G來(lái)學(xué)習(xí)合成圖像生成任務(wù)中批量檢索外表特征。各部分詳解:
Text2Scene的模型采用了一個(gè)seq to seq框架,并介紹了空間推理和順序推理的關(guān)鍵設(shè)計(jì)。(補(bǔ)充一下什么是seq to seq?簡(jiǎn)單來(lái)說(shuō),字面上是序列到序列的模型,是一種通用的編碼器-解碼器的框架)
在每一個(gè)時(shí)間步驟中,模型通過(guò)以下三個(gè)步驟來(lái)修改背景畫(huà)布:
a.模型關(guān)注輸入文本,以決定下一個(gè)要添加的對(duì)象是什么,或者決定生成是否應(yīng)該結(jié)束;
b.如果決定添加一個(gè)新對(duì)象,則模型在該對(duì)象的語(yǔ)言上下文中進(jìn)行縮放,以決定其屬性(如姿態(tài)、大小)和與周圍環(huán)境的關(guān)系(如位置、與其他對(duì)象的交互);
c.模型將提取出的文本屬性返回到畫(huà)布和場(chǎng)景中,并將其轉(zhuǎn)換為相應(yīng)的視覺(jué)表示。Text Encoder(文本編碼器)
文本編碼器的結(jié)構(gòu):雙向GRU
作用:對(duì)于給定的句子,我們利用上面的公式計(jì)算每個(gè)單詞w,即把輸入的句子映射到嵌入向量的表示。
(這里BiGRU是一個(gè)雙向的GRU單元,為與第i個(gè)單詞
對(duì)應(yīng)的詞嵌入向量,
為編碼當(dāng)前單詞及其上下文的隱藏向量。我們用
和
對(duì),作為編碼的文本特征,寫(xiě)作[
,
])
Object and Attribute Decoders(對(duì)象和屬性解碼器):
在每一步t,我們的模型通過(guò)對(duì)象表V(有k個(gè)特征)來(lái)預(yù)測(cè)下一個(gè)對(duì)象。使用上面生成的文本特征[,
]和當(dāng)前畫(huà)布
作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN) 對(duì)
進(jìn)行編碼,得到一個(gè)
feature map,表示當(dāng)前場(chǎng)景狀態(tài)。我們使用卷積GRU (ConvGRU)對(duì)歷史場(chǎng)景狀態(tài){
}進(jìn)行建模:
對(duì)象和屬性解碼器的結(jié)構(gòu):卷積GRU(ConvGRU)
作用:根據(jù)當(dāng)前場(chǎng)景卷積操作后的特征、和上一次生成場(chǎng)景的隱含狀態(tài),生成當(dāng)前場(chǎng)景的隱含狀態(tài)
(初始隱藏狀態(tài)是通過(guò)文本編碼器的最后隱藏狀態(tài)來(lái)創(chuàng)建的。提供了場(chǎng)景中每個(gè)空間位置的時(shí)間動(dòng)態(tài)信息表示。由于這種表示可能無(wú)法捕獲小對(duì)象,因此上一步
中預(yù)測(cè)的對(duì)象的one-hot vector也作為輸入提供給下游解碼器。初始對(duì)象被設(shè)置為一個(gè)特殊的場(chǎng)景開(kāi)始標(biāo)記)
Attention-based Object Decoder(基于注意力的對(duì)象解碼器):
根據(jù)當(dāng)前生成的圖像和輸入的信息預(yù)測(cè)下一個(gè)要生成的對(duì)象
我們的對(duì)象解碼器是一個(gè)基于注意力機(jī)制的模型,輸出一個(gè)對(duì)象詞匯表V中所有可能的對(duì)象的似然得分。它以循環(huán)場(chǎng)景狀態(tài)、文本特征[
,
]和之前預(yù)測(cè)的對(duì)象
作為輸入
第一個(gè)式子:據(jù)對(duì)當(dāng)前畫(huà)布做加權(quán),池化后,得到對(duì)當(dāng)前場(chǎng)景的注意力向量
第二個(gè)式子:據(jù)畫(huà)布的注意力結(jié)果和上一步預(yù)測(cè)的結(jié)果,來(lái)對(duì)輸入的文本做加權(quán)得到文本的注意力結(jié)果。
第三個(gè)式子:據(jù)畫(huà)布的注意力結(jié)果、文本注意力結(jié)果得到這次預(yù)測(cè)的結(jié)果
其中因?yàn)楫?huà)布的表示只表示出了畫(huà)布中整體的信息,但是對(duì)于一些局部的、小的對(duì)象,畫(huà)布表示h不能很好的表示出來(lái) ,所以增加了一項(xiàng)上一次預(yù)測(cè)的結(jié)果,來(lái)幫助這一次的預(yù)測(cè)。
(這里是在
上有空間attention的卷積網(wǎng)絡(luò)。
的目標(biāo)是收集對(duì)象預(yù)測(cè)所需的上下文,例如已經(jīng)添加了哪些對(duì)象。已經(jīng)參加的對(duì)象的空間特征通過(guò)平均池化得到一個(gè)向量
。
是基于文本的注意力模塊,它使用[
,
]去attend語(yǔ)言上下文[
,
]和收集上下文向量
。理想情況下,
對(duì)所有描述的對(duì)象信息進(jìn)行編碼,這些對(duì)象到目前為止還沒(méi)有添加到場(chǎng)景中。
是一個(gè)雙層感知器,它使用一個(gè)softmax函數(shù),通過(guò)連接后面三個(gè)來(lái)預(yù)測(cè)下一個(gè)對(duì)象
的可能性。)
Attention-based Attribute Decoder(基于注意力的屬性解碼器)
基于注意力機(jī)制的屬性解碼器對(duì)響應(yīng)對(duì)象的屬性集進(jìn)行相似的預(yù)測(cè)。我們使用另一個(gè)注意力模塊
捕捉
語(yǔ)言上下文信息,提取一個(gè)新的上下文向量
更側(cè)重于與當(dāng)前對(duì)象
的內(nèi)容。對(duì)于
每個(gè)空間位置,該模型預(yù)測(cè)一個(gè)位置似然和一組屬性似然。這里,可能的位置被離散成相同的空間分辨率:
第一個(gè)式子表示:根據(jù)上一次預(yù)測(cè)的對(duì)象,放大對(duì)應(yīng)文本的上下文
第二個(gè)式子表示:根據(jù)放大后的上下文,關(guān)注到畫(huà)布上對(duì)應(yīng)的區(qū)域
第三個(gè)式子表示:根據(jù)放大的上下文以及相關(guān)的畫(huà)布,得到上一次預(yù)測(cè)的對(duì)象的相關(guān)屬性,包括位置和其他屬性(例如臉部朝向、大小等)
(是一個(gè)基于文本的注意力模塊,將
與上下文[
,
]對(duì)齊。
是一個(gè)以圖像為基礎(chǔ)的注意力模塊,旨在找到一個(gè)負(fù)擔(dān)得起的位置來(lái)添加
。在與htD連接之前,
在空間上被復(fù)制。最終的似然映射由卷積網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),接著是softmax分類器。對(duì)于連續(xù)屬性{如外觀向量Qt用于程序檢索(下一節(jié))。使用L2-范數(shù)對(duì)輸出標(biāo)準(zhǔn)化。)
Foreground Patch Embedding(前向嵌入模塊):
我們預(yù)測(cè)了特定的屬性:外觀向量,僅用于訓(xùn)練生成合成圖像組合的模型。與其他屬性一樣,
對(duì)輸出特征圖中的每個(gè)位置進(jìn)行預(yù)測(cè),在測(cè)試時(shí)用于從其他圖像中預(yù)先計(jì)算的對(duì)象段集合中檢索類似的補(bǔ)丁。我們使用CNN訓(xùn)練一個(gè)patch的嵌入網(wǎng)絡(luò),將目標(biāo)圖像中的前向patch壓縮成一個(gè)一維向量Ft。目標(biāo)是使用triplet embedding loss來(lái)最小化
與
之間的L2-距離。
Loss function(損失函數(shù)):
前三個(gè)項(xiàng)是對(duì)應(yīng)于對(duì)象,位置和離散屬性的對(duì)數(shù)似然損失為負(fù)
softmax分類器。
Ltriplet是可選用于合成圖像生成任務(wù)的三重態(tài)嵌損失。
是受到雙重隨機(jī)性啟發(fā)的正則化術(shù)語(yǔ)提出注意模塊。
這些正則化術(shù)語(yǔ)鼓勵(lì)模型將注意力分散到輸入句子中的所有單詞上,從而不會(huì)丟失任何描述的對(duì)象。
Experiments
(I) constructing abstract scenes of clip-arts in the Abstract Scenes dataset; (II) predicting semantic object layouts of real images in the COCO dataset; (III) generating synthetic image composites in the COCO dataset
實(shí)驗(yàn)?zāi)K分為三大部分,即在“抽象場(chǎng)景”數(shù)據(jù)集中構(gòu)造剪貼畫(huà)的抽象場(chǎng)景(這邊指卡通場(chǎng)景); 預(yù)測(cè)COCO數(shù)據(jù)集中真實(shí)圖像的語(yǔ)義對(duì)象布局;在COCO數(shù)據(jù)集中生成合成圖像合成。1.抽象場(chǎng)景的生成:
數(shù)據(jù)集:戶外玩的剪貼畫(huà)形象和物品,包括1000個(gè)場(chǎng)景,58個(gè)剪貼畫(huà)
每個(gè)剪貼畫(huà)有3種尺寸、7中姿勢(shì)、5個(gè)表情、兩個(gè)臉部朝向
句子:每個(gè)場(chǎng)景包括三個(gè)描述的句子,詞匯量是2538個(gè)英文單詞。
評(píng)估方法:
a.自動(dòng)評(píng)估:
1.單個(gè)物品的precision/recall
2.邊界框有重合的兩個(gè)物品的precision/recall
3.姿勢(shì)和表情的分類精度
4.單個(gè)物品和多個(gè)物品的邊界框的寬高比和坐標(biāo)的歐式距離
b.人工評(píng)估:
1.描述下列文本的特征圖像是否捕捉到了,包括三個(gè)答案:
true false uncertain
2.文本中出現(xiàn)的一個(gè)對(duì)象、文本中出現(xiàn)的有語(yǔ)義關(guān)系的兩個(gè)對(duì)象
3.對(duì)象的位置、對(duì)象的臉部表情
結(jié)果:
從表格可以看到,分四部分實(shí)驗(yàn),和先前(Zitnick et al)對(duì)比、沒(méi)有注意力模塊、有基于對(duì)象的注意力模塊、有基于模塊和屬性的注意力模塊、在有基于模塊和屬性的注意力模塊上還加入了L2-范數(shù)對(duì)輸出標(biāo)準(zhǔn)化??梢钥闯觯詈笠粋€(gè)效果最好(即我們采用的模型)具體效果如下圖:(text2scene是可以捕獲到語(yǔ)義之間的細(xì)微差別的,例如兩個(gè)對(duì)象之間的空間關(guān)系。)
2.** 預(yù)測(cè)COCO數(shù)據(jù)集中真實(shí)圖像的語(yǔ)義對(duì)象布局**
數(shù)據(jù)集:語(yǔ)義布局包含對(duì)象的邊界框來(lái)自于COCO數(shù)據(jù)集中定義的80個(gè)對(duì)象類別。實(shí)驗(yàn)中,我們使用val2017拆分作為測(cè)試集,并使用來(lái)自train2017拆分的5000樣本進(jìn)行驗(yàn)證。
我們將邊界框歸一化,并按照從下到上的順序?qū)?duì)象進(jìn)行排序,因?yàn)閥坐標(biāo)通常表示對(duì)象與相機(jī)之間的距離。我們進(jìn)一步根據(jù)x坐標(biāo)(從左到右)和分類索引對(duì)具有相同y坐標(biāo)的對(duì)象進(jìn)行排序。(在這里,考慮的屬性是位置,包括大小、長(zhǎng)寬比。 同時(shí),我們將規(guī)格化尺寸范圍平均離散為17個(gè)音階)
評(píng)價(jià)指標(biāo): BLEU , METEOR, ROUGE L, CIDEr, SPICE
其中,bleu,meteor,rouge一般用于翻譯,cider用于圖像字幕的生成,
bleu:指選文到譯文的重合度,即n-grams精度的加權(quán)平均,偏向較短的翻譯的流暢性(N 可取1,2,3,4)
meteor:基于單精度的加權(quán)調(diào)和平均和單字召回率,解決了bleu的一些缺陷
rouge:和bleu相似,bleu是計(jì)算準(zhǔn)確率,rouge計(jì)算的是召回率
cider:bleu和空間向量的集合。
spice:使用基于圖的語(yǔ)義表示來(lái)編碼 caption 中的 objects, attributes 和 relationships
具體參考:Image Caption 常用評(píng)價(jià)指標(biāo)
結(jié)果:布局生成任務(wù)中的外部評(píng)估,表明了從合成圖像性能生成的字母和真實(shí)的布局幾乎接近。由圖6 也可以看出:改模型學(xué)會(huì)了重要的視覺(jué)概念,就像物體的存在與否和數(shù)目以及空間關(guān)系3.在COCO數(shù)據(jù)集中生成合成圖像合成
我們通過(guò)在COCO數(shù)據(jù)集中給定輸入字幕的情況下生成合成圖像合成來(lái)演示我們的方法。
數(shù)據(jù)集:我們使用val2014拆分作為測(cè)試集,并使用train2014拆分中的5000個(gè)樣本進(jìn)行驗(yàn)證。
通過(guò)從COCO-Stuff批注中獲取對(duì)應(yīng)語(yǔ)義標(biāo)簽圖中的連接組件,從訓(xùn)練圖像中提取stuff。 對(duì)于object,我們使用COCO中定義的所有80個(gè)類別。 對(duì)于stuff,我們使用中定義的15個(gè)超類別作為類別標(biāo)簽,總共得出95個(gè)類別。
評(píng)價(jià)指標(biāo):Inception Score (IS)、以及上一個(gè)實(shí)驗(yàn)的指標(biāo)
結(jié)果:image.png對(duì)于復(fù)雜組合圖像的生成,模型不是通過(guò)從單一訓(xùn)練圖像中簡(jiǎn)單的檢索來(lái)生成合成圖像,結(jié)果圖表明模型不僅僅學(xué)習(xí)一個(gè)全局圖像檢索。
結(jié)論:
Seq2Seq的方法(用在剪貼畫(huà)上)
1.使用語(yǔ)義元素來(lái)逐個(gè)生成,避免了像素級(jí)別的生成紋理信息等操作
2.把生成布局作為單獨(dú)的任務(wù),可以借鑒到生成真實(shí)場(chǎng)景圖像中
3.需要利用其他圖像出現(xiàn)的共同的pattern來(lái)生成當(dāng)前的圖像
優(yōu)點(diǎn):
使得生成的任務(wù)更加沒(méi)有歧義,對(duì)話可以提供更具體、更細(xì)節(jié)的描述
缺點(diǎn):
目前的工作只能用于及其的描述和繪畫(huà),暫不適用于人類的描述或者繪畫(huà)
累了累了~













