論文信息
論文題目:Improved Baselines with Visual Instruction Tuning
論文原文:arxiv.org/abs/2310.03744
摘要
大型多模態(tài)模型(LMM)最近在視覺指令調(diào)優(yōu)方面取得了令人鼓舞的進(jìn)展。在本文中,我們展示了LLaVA中的fully-connected vision-language cross modal connector具有驚人的強(qiáng)大學(xué)習(xí)能力。通過(guò)對(duì)LLaVA進(jìn)行簡(jiǎn)單的修改,即使用帶有MLP投影的CLIP-ViT-L-336px,并添加基于prompt的academic-task-oriented VQA數(shù)據(jù),我們進(jìn)一步優(yōu)化了LLaVA,在11個(gè)benchmark中實(shí)現(xiàn)了最先進(jìn)的水平。
介紹
- 最近對(duì)lVLM的研究正集中在視覺指令調(diào)優(yōu)上。且最近的工作證明了通過(guò)擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)、擴(kuò)大指令跟隨數(shù)據(jù)、優(yōu)化視覺編碼器或使用更加優(yōu)秀的語(yǔ)言模型能進(jìn)一步提升性能。
- 本論文在LLaVA的基礎(chǔ)上構(gòu)建出了一個(gè)更加高性能的多模態(tài)大模型。主要是以下兩個(gè)改進(jìn):1) 一個(gè) MLP cross-modal connector。2)一個(gè)學(xué)術(shù)任務(wù)相關(guān)數(shù)據(jù)添加到模型訓(xùn)練之中。由于改動(dòng)很小,所以我們的模型只需要在600K圖像-文本對(duì)上訓(xùn)練一個(gè)簡(jiǎn)單的全連接投影層,就能獲得不錯(cuò)的效果。

LLaVA-1.5在廣泛的11個(gè)任務(wù)(上)上實(shí)現(xiàn)SoTA,具有較高的訓(xùn)練樣本效率(左)和對(duì)LLaVA(右)的簡(jiǎn)單修改:一個(gè)MLP連接器。
方法
- LLaVA在視覺推理能力方面展示了值得很好的效果,但在一些科學(xué)問題QA上的效果會(huì)差一些,這是因?yàn)長(zhǎng)LaVA并沒有在相關(guān)數(shù)據(jù)上進(jìn)行大規(guī)模的預(yù)訓(xùn)練。

在數(shù)據(jù)、分辨率、模型上的縮放實(shí)驗(yàn)結(jié)果
- 當(dāng)前一些方法無(wú)法讓大模型很好平衡輸出長(zhǎng)回答和短回答之間的關(guān)系。原因如下,1)ambiguous prompts on the response format 如圖中的例子,這樣的提示并不能明確地表明理想的輸出格式,即使是LLM在自然視覺對(duì)話的行為上也可能過(guò)度適合簡(jiǎn)短的答案。2)不微調(diào)LLM。比如DuultBLIP中 Qfroster的視覺輸出令牌來(lái)控制LLM輸出的長(zhǎng)度為長(zhǎng)形式或短形式,如前綴調(diào)優(yōu),但是Qfroster與LLaMA這樣的LLM相比容量有限,可能缺乏正確執(zhí)行LLM的能力。為了解決這個(gè)問題,我們建議使用一個(gè)單一的響應(yīng)格式提示,清楚地指示輸出格式,并在促進(jìn)簡(jiǎn)短答案時(shí)附加在VQA問題的末尾。

比較不同的提示符如何規(guī)則化輸出格式。
- MLP vision-language connector.受從線性投影到MLP提高自監(jiān)督學(xué)習(xí)性能的啟發(fā),我們發(fā)現(xiàn)與原始線性投影設(shè)計(jì)相比,使用雙層MLP提高視覺語(yǔ)言連接器的表示能力可以提高LLaVA的多模態(tài)能力。
-
Academic task oriented data.我們進(jìn)一步添加了額外的面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù)集,用于VQA、OCR和區(qū)域級(jí)感知,以各種方式增強(qiáng)模型的能力。
數(shù)據(jù)集詳情
- Additional scaling.我們進(jìn)一步擴(kuò)大了輸入圖像的分辨率,使LLM能夠清晰地“看到”圖像的細(xì)節(jié),并添加了GQA數(shù)據(jù)集作為額外的視覺知識(shí)源。
實(shí)驗(yàn)結(jié)果

LLaVA-1.5可以在提示驗(yàn)證問題時(shí)檢測(cè)并回答困難的問題。

在12個(gè)基準(zhǔn)測(cè)試上與SoTA方法的比較
