目前VQA的四大方式

  1. Joint embedding approaches,只是直接從源頭編碼的角度開始融合信息,這也很自然的聯(lián)想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接(ps:粗暴拼接這種方式很work),Billiner Fusion 最常用了,F(xiàn)usion屆的LR
  2. Attention mechanisms,很多VQA的問題都在attention上做文章,attention本身也是一個(gè)提取信息的動作,自從attention is all you need后,大家對attention的應(yīng)用可以說是花式了,本文后面專門介紹CVPR2019的幾篇
  3. Compositional Models,這種方式解決問題的思路是分模塊而治之,各模塊分別處理不同的功能,然后通過模塊的組裝推理得出結(jié)果

比如在[1]中,上圖,問題是What color is his tie?先選擇出 attend 和classify 模塊,并且根據(jù)推理方式組裝模塊,最后得出結(jié)論

4.Models using external knowledge base

利用外部知識庫來做VQA和很好理解,QA都喜歡用知識庫,這種知識儲備一勞永逸,例如,為了回答“圖上有多少只哺乳動物”這樣的問題,模型必須得知道“哺乳動物”的定義,而你想從圖像上去學(xué)習(xí)到哺乳動物是有難度的,因此把知識庫接進(jìn)來檢索是種解決方式,例如在[2]

參考

  1. ^Neural Module Networks
  2. ^Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 夜鶯2517閱讀 128,140評論 1 9
  • 版本:ios 1.2.1 亮點(diǎn): 1.app角標(biāo)可以實(shí)時(shí)更新天氣溫度或選擇空氣質(zhì)量,建議處女座就不要選了,不然老想...
    我就是沉沉閱讀 7,435評論 1 6
  • 我是一名過去式的高三狗,很可悲,在這三年里我沒有戀愛,看著同齡的小伙伴們一對兒一對兒的,我的心不好受。怎么說呢,高...
    小娘紙閱讀 3,806評論 4 7
  • 這些日子就像是一天一天在倒計(jì)時(shí) 一想到他走了 心里就是說不出的滋味 從幾個(gè)月前認(rèn)識他開始 就意識到終究會發(fā)生的 只...
    栗子a閱讀 1,717評論 1 3

友情鏈接更多精彩內(nèi)容