論文讀書(shū)筆記(Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)

來(lái)源EMNLP(2016)

關(guān)鍵詞Multimodal Compact Bilinear(MCB),VQA

問(wèn)題


視覺(jué)問(wèn)答系統(tǒng)


視覺(jué)定位系統(tǒng)

對(duì)于像視覺(jué)問(wèn)答系統(tǒng)、視覺(jué)定位系統(tǒng)這樣Multimodal任務(wù),需要融合不同類型modal的向量得到一個(gè)joint representation。傳統(tǒng)的向量融合方式一般是:點(diǎn)乘,點(diǎn)加,全連接。作者認(rèn)為這些方法不如向量的外積更具有表達(dá)性。但是向量的外積會(huì)引起維度的急劇增加,因此作者提出了MCB的方法。

方法

1 MCB的框架

雙線性模型:z = W[x @q](@表示外積)

如果x和q都是2048維,z是3000維,整個(gè)參數(shù)空間大小是:2048*2048*3000 ,所以需要對(duì)外積進(jìn)行降維和避免直接計(jì)算外積。

降維:通過(guò)the count sketch projection function ,將向量v(n維)映射到向量y(d維)。

避免直接計(jì)算外積:


MCB結(jié)構(gòu)圖
MCB算法

2 MCB在VQA任務(wù)的應(yīng)用

1.VQA結(jié)構(gòu):


MCB在VQA任務(wù)的應(yīng)用

給定圖片和問(wèn)題,預(yù)測(cè)答案的過(guò)程可以看做一個(gè)在候選答案集合進(jìn)行多分類的任務(wù):

對(duì)于輸入的問(wèn)題,利用2-LSTM,每層1024個(gè)結(jié)點(diǎn),得到2048維度的文本向量;對(duì)于輸入的圖片,利用預(yù)訓(xùn)練好的152層的Res-net。然后將這兩個(gè)向量通過(guò)MCB后正則化和歸一化后得到16000聯(lián)合表示的向量,再將這16000維度的向量連接到3000個(gè)答案上進(jìn)行多分類。

2.Multiple Attention:


MCB+multiple attention

Attention機(jī)制使得模型專注于輸入特征的和當(dāng)前問(wèn)題最相關(guān)的部分,目前常用的是soft-attention的方法。而multiple attention的動(dòng)機(jī)則是相當(dāng)于回答問(wèn)題之前多次的觀察。

首先利用MCB產(chǎn)生一個(gè)聯(lián)合向量,然后使用兩個(gè)卷積層去預(yù)測(cè)每一個(gè)區(qū)域的attention權(quán)值,通過(guò)softmax歸一化后的soft attention map和原始視覺(jué)向量加和,得到注意力視覺(jué)向量。比較巧妙地的是產(chǎn)生了兩個(gè)attention map,模仿多次的觀察。

實(shí)驗(yàn)結(jié)果:


MCB性能對(duì)比實(shí)驗(yàn)

1 MCB優(yōu)于點(diǎn)乘,點(diǎn)加,全連接的方法

2參數(shù)規(guī)模相同的時(shí)候,MCB優(yōu)于Concat+FC+FC

3壓縮對(duì)雙線性池化的方式?jīng)]有太大影響

4 soft attention,最好的搭檔是MCB

VQA數(shù)據(jù)集實(shí)驗(yàn)結(jié)構(gòu)對(duì)比

從實(shí)驗(yàn)結(jié)果上看:

MCB:1%多?

Att :3%多

Genome:1%多

Glove:0.2%左右

相關(guān)工作

1向量的連接方式:

a = [1,2], b = [3,4]

點(diǎn)乘(element-wise)[3,8]

點(diǎn)加(elsement-add)[4,6]

全連接(concencate)[1,2,3,4]

內(nèi)積(inner-product)11

外積(outer-product)向量

維基百科中對(duì)向量外積的定義:

外積的定義

2 MCB的前世今生:

①1T.-Y. Lin(et.all) CNN models for fine-grained visual recognition.在細(xì)粒度視覺(jué)識(shí)別任務(wù)中,作者把CNN網(wǎng)絡(luò)的全連接層改為雙線性層后,取得了很大提升。

②2Yang Gao(et.all) Compact bilinear pooling

提出兩種壓縮雙線性模型,和完整的雙線性模型相比,損失基本不變但是參數(shù)規(guī)??s減了兩個(gè)數(shù)量級(jí),而且支持端到端的訓(xùn)練結(jié)構(gòu)。

③3Ninh Pham(et.all)在Fast and scalable polynomial kernels via explicit feature maps

提出了兩個(gè)向量外積的count sketch可以被轉(zhuǎn)化為每個(gè)countsketch的卷積。

3 VQA:

任務(wù):給定一張圖片和自然語(yǔ)言形式的問(wèn)題,生成自然語(yǔ)言形式的答案。

背景:這個(gè)任務(wù)同時(shí)涉及到了CV和nlp兩個(gè)領(lǐng)域。類似的多領(lǐng)域問(wèn)題最近非?;鸬木褪强磮D說(shuō)話(Image Caption)任務(wù),但是看圖說(shuō)話只需要產(chǎn)生對(duì)圖片的一般性描述,而視覺(jué)問(wèn)答需要理解問(wèn)題的真正含義,根據(jù)問(wèn)題的不同僅聚焦與圖片中的某一部分,而且某些問(wèn)題還需要一定的常識(shí)推理才能做出回答。因此,VQA相比看圖說(shuō)話在圖像語(yǔ)義的理解方面有更高的要求。

方法:近年來(lái),各種以CNN網(wǎng)絡(luò)為基礎(chǔ)的深度學(xué)習(xí)網(wǎng)絡(luò)層出不窮,將圖像的底層特征如紋理,邊角,色彩逐層抽取組合成更高級(jí)的語(yǔ)義特征。和傳統(tǒng)的詞包模型相比,rnn模型能夠捕捉詞語(yǔ)序列,通過(guò)參數(shù)共享的方式減少參數(shù)規(guī)模,并且LSTM,GRU等等改進(jìn)版本能夠更好捕捉長(zhǎng)距離信息的表達(dá)。目前,利用CNN抽取圖像語(yǔ)義信息,rnn抽取問(wèn)題中包含的文本語(yǔ)義信息,將兩者的信息融合構(gòu)造組合模型是VQA問(wèn)題的主流方法。從答案的生成方式看可以分為:分類模式和生成模式。

分類:

分類模型

生成:


生成模型

小結(jié):VQA這樣的任務(wù),主流的方法都是需要聯(lián)合表達(dá)圖像信息和文本信息。目前主流的結(jié)合兩個(gè)向量的方式有點(diǎn)乘,點(diǎn)加,連接。但是作者覺(jué)得這樣產(chǎn)生的聯(lián)合向量表達(dá)能力不夠,不足以捕捉多模型之間復(fù)雜的交互信息。于是作者提出了這樣一個(gè)猜想:多模型向量的外積可以表達(dá)多模型向量的交互信息。因?yàn)閭鹘y(tǒng)的向量結(jié)合方式都是針對(duì)單個(gè)元素的,向量外積的方式是對(duì)兩個(gè)向量之間所有元素的乘法操作。但是雙線性模型計(jì)算向量外積的過(guò)程中,產(chǎn)生的向量維數(shù)太大,計(jì)算量太大,所以雙線性模型計(jì)算外積的方式并沒(méi)有被廣泛采用。

簡(jiǎn)評(píng)

之前老師說(shuō)過(guò),創(chuàng)新點(diǎn)可以分為應(yīng)用創(chuàng)新和模型創(chuàng)新。我覺(jué)得這兩種創(chuàng)新方式其實(shí)是相輔相成的。這里作者因?yàn)橄胍倪M(jìn)VQA模型中視覺(jué)向量和問(wèn)題向量的融合方式,提出了外積這個(gè)想法,成功地將之前的cbp(compact biliniaer pooling)模型改進(jìn)后應(yīng)用到模型融合的過(guò)程中。這種解決問(wèn)題的思路值得我們參考和學(xué)習(xí)。

本文還有一個(gè)創(chuàng)新點(diǎn)就是應(yīng)用了soft attention。并且使用的了兩層attention maps,對(duì)MCB后的聯(lián)合向量去求attention weight后對(duì)關(guān)注的視覺(jué)向量。

再者,作者參加VQA比賽的時(shí)候,單個(gè)模型最好的的實(shí)驗(yàn)結(jié)果是MCB+att+genome+glove,只比后面兩名高了1個(gè)百分點(diǎn)左右。但是集成7個(gè)模型的時(shí)候取得的的結(jié)果則比后面的模型提升了4到5個(gè)百分點(diǎn)。說(shuō)明在做這種比賽的時(shí)候,還是能夠多用一些trick提升就多用一些。

??

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容