論文信息

論文題目：Improved Baselines with Visual Instruction Tuning
論文原文：arxiv.org/abs/2310.03744

摘要

大型多模態(tài)模型（LMM）最近在視覺指令調(diào)優(yōu)方面取得了令人鼓舞的進(jìn)展。在本文中，我們展示了LLaVA中的fully-connected vision-language cross modal connector具有驚人的強(qiáng)大學(xué)習(xí)能力。通過(guò)對(duì)LLaVA進(jìn)行簡(jiǎn)單的修改，即使用帶有MLP投影的CLIP-ViT-L-336px，并添加基于prompt的academic-task-oriented VQA數(shù)據(jù)，我們進(jìn)一步優(yōu)化了LLaVA，在11個(gè)benchmark中實(shí)現(xiàn)了最先進(jìn)的水平。

介紹

最近對(duì)lVLM的研究正集中在視覺指令調(diào)優(yōu)上。且最近的工作證明了通過(guò)擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)、擴(kuò)大指令跟隨數(shù)據(jù)、優(yōu)化視覺編碼器或使用更加優(yōu)秀的語(yǔ)言模型能進(jìn)一步提升性能。
本論文在LLaVA的基礎(chǔ)上構(gòu)建出了一個(gè)更加高性能的多模態(tài)大模型。主要是以下兩個(gè)改進(jìn)：1）一個(gè) MLP cross-modal connector。2）一個(gè)學(xué)術(shù)任務(wù)相關(guān)數(shù)據(jù)添加到模型訓(xùn)練之中。由于改動(dòng)很小，所以我們的模型只需要在600K圖像-文本對(duì)上訓(xùn)練一個(gè)簡(jiǎn)單的全連接投影層，就能獲得不錯(cuò)的效果。

LLaVA-1.5在廣泛的11個(gè)任務(wù)（上）上實(shí)現(xiàn)SoTA，具有較高的訓(xùn)練樣本效率（左）和對(duì)LLaVA（右）的簡(jiǎn)單修改：一個(gè)MLP連接器。

方法

LLaVA在視覺推理能力方面展示了值得很好的效果，但在一些科學(xué)問題QA上的效果會(huì)差一些，這是因?yàn)長(zhǎng)LaVA并沒有在相關(guān)數(shù)據(jù)上進(jìn)行大規(guī)模的預(yù)訓(xùn)練。

在數(shù)據(jù)、分辨率、模型上的縮放實(shí)驗(yàn)結(jié)果

當(dāng)前一些方法無(wú)法讓大模型很好平衡輸出長(zhǎng)回答和短回答之間的關(guān)系。原因如下，1）ambiguous prompts on the response format 如圖中的例子，這樣的提示并不能明確地表明理想的輸出格式，即使是LLM在自然視覺對(duì)話的行為上也可能過(guò)度適合簡(jiǎn)短的答案。2）不微調(diào)LLM。比如DuultBLIP中 Qfroster的視覺輸出令牌來(lái)控制LLM輸出的長(zhǎng)度為長(zhǎng)形式或短形式，如前綴調(diào)優(yōu)，但是Qfroster與LLaMA這樣的LLM相比容量有限，可能缺乏正確執(zhí)行LLM的能力。為了解決這個(gè)問題，我們建議使用一個(gè)單一的響應(yīng)格式提示，清楚地指示輸出格式，并在促進(jìn)簡(jiǎn)短答案時(shí)附加在VQA問題的末尾。

比較不同的提示符如何規(guī)則化輸出格式。

MLP vision-language connector.受從線性投影到MLP提高自監(jiān)督學(xué)習(xí)性能的啟發(fā)，我們發(fā)現(xiàn)與原始線性投影設(shè)計(jì)相比，使用雙層MLP提高視覺語(yǔ)言連接器的表示能力可以提高LLaVA的多模態(tài)能力。
Academic task oriented data.我們進(jìn)一步添加了額外的面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù)集，用于VQA、OCR和區(qū)域級(jí)感知，以各種方式增強(qiáng)模型的能力。

數(shù)據(jù)集詳情

Additional scaling.我們進(jìn)一步擴(kuò)大了輸入圖像的分辨率，使LLM能夠清晰地“看到”圖像的細(xì)節(jié)，并添加了GQA數(shù)據(jù)集作為額外的視覺知識(shí)源。

實(shí)驗(yàn)結(jié)果

LLaVA-1.5可以在提示驗(yàn)證問題時(shí)檢測(cè)并回答困難的問題。

在12個(gè)基準(zhǔn)測(cè)試上與SoTA方法的比較

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

LVLM系列論文閱讀（3）

LVLM系列論文閱讀（3）

論文信息

摘要

介紹

方法

實(shí)驗(yàn)結(jié)果

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

LVLM系列論文閱讀（3）

論文信息

摘要

介紹

方法

實(shí)驗(yàn)結(jié)果

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av