- Joint embedding approaches,只是直接從源頭編碼的角度開始融合信息,這也很自然的聯(lián)想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接(ps:粗暴拼接這種方式很work),Billiner Fusion 最常用了,F(xiàn)usion屆的LR
- Attention mechanisms,很多VQA的問題都在attention上做文章,attention本身也是一個(gè)提取信息的動作,自從attention is all you need后,大家對attention的應(yīng)用可以說是花式了,本文后面專門介紹CVPR2019的幾篇
- Compositional Models,這種方式解決問題的思路是分模塊而治之,各模塊分別處理不同的功能,然后通過模塊的組裝推理得出結(jié)果

比如在[1]中,上圖,問題是What color is his tie?先選擇出 attend 和classify 模塊,并且根據(jù)推理方式組裝模塊,最后得出結(jié)論
4.Models using external knowledge base
利用外部知識庫來做VQA和很好理解,QA都喜歡用知識庫,這種知識儲備一勞永逸,例如,為了回答“圖上有多少只哺乳動物”這樣的問題,模型必須得知道“哺乳動物”的定義,而你想從圖像上去學(xué)習(xí)到哺乳動物是有難度的,因此把知識庫接進(jìn)來檢索是種解決方式,例如在[2]
