LVLM系列論文閱讀(3)

論文信息

論文題目:Improved Baselines with Visual Instruction Tuning
論文原文:arxiv.org/abs/2310.03744

摘要

大型多模態(tài)模型(LMM)最近在視覺指令調(diào)優(yōu)方面取得了令人鼓舞的進(jìn)展。在本文中,我們展示了LLaVA中的fully-connected vision-language cross modal connector具有驚人的強(qiáng)大學(xué)習(xí)能力。通過(guò)對(duì)LLaVA進(jìn)行簡(jiǎn)單的修改,即使用帶有MLP投影的CLIP-ViT-L-336px,并添加基于prompt的academic-task-oriented VQA數(shù)據(jù),我們進(jìn)一步優(yōu)化了LLaVA,在11個(gè)benchmark中實(shí)現(xiàn)了最先進(jìn)的水平。

介紹

  • 最近對(duì)lVLM的研究正集中在視覺指令調(diào)優(yōu)上。且最近的工作證明了通過(guò)擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)、擴(kuò)大指令跟隨數(shù)據(jù)、優(yōu)化視覺編碼器或使用更加優(yōu)秀的語(yǔ)言模型能進(jìn)一步提升性能。
  • 本論文在LLaVA的基礎(chǔ)上構(gòu)建出了一個(gè)更加高性能的多模態(tài)大模型。主要是以下兩個(gè)改進(jìn):1) 一個(gè) MLP cross-modal connector。2)一個(gè)學(xué)術(shù)任務(wù)相關(guān)數(shù)據(jù)添加到模型訓(xùn)練之中。由于改動(dòng)很小,所以我們的模型只需要在600K圖像-文本對(duì)上訓(xùn)練一個(gè)簡(jiǎn)單的全連接投影層,就能獲得不錯(cuò)的效果。
LLaVA-1.5在廣泛的11個(gè)任務(wù)(上)上實(shí)現(xiàn)SoTA,具有較高的訓(xùn)練樣本效率(左)和對(duì)LLaVA(右)的簡(jiǎn)單修改:一個(gè)MLP連接器。

方法

  • LLaVA在視覺推理能力方面展示了值得很好的效果,但在一些科學(xué)問題QA上的效果會(huì)差一些,這是因?yàn)長(zhǎng)LaVA并沒有在相關(guān)數(shù)據(jù)上進(jìn)行大規(guī)模的預(yù)訓(xùn)練。
在數(shù)據(jù)、分辨率、模型上的縮放實(shí)驗(yàn)結(jié)果
  • 當(dāng)前一些方法無(wú)法讓大模型很好平衡輸出長(zhǎng)回答和短回答之間的關(guān)系。原因如下,1)ambiguous prompts on the response format 如圖中的例子,這樣的提示并不能明確地表明理想的輸出格式,即使是LLM在自然視覺對(duì)話的行為上也可能過(guò)度適合簡(jiǎn)短的答案。2)不微調(diào)LLM。比如DuultBLIP中 Qfroster的視覺輸出令牌來(lái)控制LLM輸出的長(zhǎng)度為長(zhǎng)形式或短形式,如前綴調(diào)優(yōu),但是Qfroster與LLaMA這樣的LLM相比容量有限,可能缺乏正確執(zhí)行LLM的能力。為了解決這個(gè)問題,我們建議使用一個(gè)單一的響應(yīng)格式提示,清楚地指示輸出格式,并在促進(jìn)簡(jiǎn)短答案時(shí)附加在VQA問題的末尾。
比較不同的提示符如何規(guī)則化輸出格式。
  • MLP vision-language connector.受從線性投影到MLP提高自監(jiān)督學(xué)習(xí)性能的啟發(fā),我們發(fā)現(xiàn)與原始線性投影設(shè)計(jì)相比,使用雙層MLP提高視覺語(yǔ)言連接器的表示能力可以提高LLaVA的多模態(tài)能力。
  • Academic task oriented data.我們進(jìn)一步添加了額外的面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù)集,用于VQA、OCR和區(qū)域級(jí)感知,以各種方式增強(qiáng)模型的能力。
    數(shù)據(jù)集詳情
  • Additional scaling.我們進(jìn)一步擴(kuò)大了輸入圖像的分辨率,使LLM能夠清晰地“看到”圖像的細(xì)節(jié),并添加了GQA數(shù)據(jù)集作為額外的視覺知識(shí)源。

實(shí)驗(yàn)結(jié)果

LLaVA-1.5可以在提示驗(yàn)證問題時(shí)檢測(cè)并回答困難的問題。
在12個(gè)基準(zhǔn)測(cè)試上與SoTA方法的比較
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容