色偷拍熟女网,精品无码久久一区二区

目前VQA的四大方式

Joint embedding approaches，只是直接從源頭編碼的角度開始融合信息，這也很自然的聯(lián)想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接（ps:粗暴拼接這種方式很work），Billiner Fusion 最常用了，F(xiàn)usion屆的LR
Attention mechanisms，很多VQA的問題都在attention上做文章，attention本身也是一個(gè)提取信息的動作，自從attention is all you need后，大家對attention的應(yīng)用可以說是花式了，本文后面專門介紹CVPR2019的幾篇
Compositional Models，這種方式解決問題的思路是分模塊而治之，各模塊分別處理不同的功能，然后通過模塊的組裝推理得出結(jié)果

比如在^[1]中，上圖，問題是What color is his tie?先選擇出 attend 和classify 模塊，并且根據(jù)推理方式組裝模塊，最后得出結(jié)論

4.Models using external knowledge base

利用外部知識庫來做VQA和很好理解，QA都喜歡用知識庫，這種知識儲備一勞永逸，例如，為了回答“圖上有多少只哺乳動物”這樣的問題，模型必須得知道“哺乳動物”的定義，而你想從圖像上去學(xué)習(xí)到哺乳動物是有難度的，因此把知識庫接進(jìn)來檢索是種解決方式，例如在[2]

參考

^Neural Module Networks
^Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

目前VQA的四大方式

目前VQA的四大方式

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

目前VQA的四大方式

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av