LVLM系列論文閱讀(1)

論文信息

論文題目:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
論文鏈接[2308.12966] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond (arxiv.org)
機(jī)構(gòu)信息:阿里巴巴

摘要

Qwen-VL系列是一組大規(guī)模的視覺語(yǔ)言模型(LVLMs),旨在感知和理解文本和圖像。Qwen-VL從Qwen-LM出發(fā),通過精細(xì)設(shè)計(jì)的:1) visual receptor 2)input-output interface 3)3-stage training pipeline 4) multilingual multimodal cleaned corpus。除了傳統(tǒng)的圖像描述和問答之外,我們通過對(duì)齊圖像標(biāo)題框元組來(lái)實(shí)現(xiàn)qwen-vl的基礎(chǔ)和文本閱讀能力。論文中的LVLM開源了Qwen-VL和Qwen-VL-Chat版本。這兩個(gè)LVLM模型在各種實(shí)驗(yàn)設(shè)定下的各類多模態(tài)圖像任務(wù)上都獲得了SOTA的效果。

介紹

與其他通用模型相比,Qwen-VL在廣泛的任務(wù)上取得了最先進(jìn)的性能。
  • LLM 因其在文本生成和理解方面的強(qiáng)大能力而引起了廣泛的關(guān)注。這些模型可以通過微調(diào)指令進(jìn)一步與用戶的意圖相一致,顯示了強(qiáng)大的交互能力和作為智能助手從而提高生產(chǎn)力。然而,原始的LLM語(yǔ)言模型當(dāng)前只適用于純文本世界中,缺乏處理其他模態(tài)(如圖像、語(yǔ)音和視頻)的能力,導(dǎo)致其應(yīng)用范圍受到了很大的限制。
  • 當(dāng)前也存在一些LVLM,但目前開源LVLM的訓(xùn)練和優(yōu)化不足,遠(yuǎn)遠(yuǎn)落后于針對(duì)特定領(lǐng)域特定任務(wù)的SOTA小模型,這阻礙了LVLM在開源社區(qū)中的進(jìn)一步探索和應(yīng)用。更重要的是,在現(xiàn)實(shí)世界中,由于視覺場(chǎng)景相當(dāng)復(fù)雜,細(xì)粒度的視覺理解對(duì)于LVLM有效和精確地幫助人們起著至關(guān)重要的作用。大多數(shù)開源LVLM仍然以粗粒度的方法感知圖像,缺乏執(zhí)行細(xì)粒度感知的能力,如對(duì)象接地或文本閱讀。
  • 本文提出的Qwen-VL模型是一個(gè)基于Qwen-7B的模型,我們引入了全新的visual receptor,包含了a language-aligned visual encodera position-aware adapter。Qwen-VL 模型是一個(gè)三階段的訓(xùn)練形成的模型,模型訓(xùn)練在大量的圖像-文本語(yǔ)料庫(kù)集合上優(yōu)化整個(gè)模型。
由Qwen-VL-Chat生成的一些例子。Qwen-VL-Chat支持多種圖像輸入、多輪對(duì)話、多語(yǔ)言對(duì)話、文本閱讀、本地化、細(xì)粒度識(shí)別和理解能力。
  • 本文提出的Qwen-VL 有以下特點(diǎn):性能優(yōu)越、多語(yǔ)言、多圖片、能夠?qū)D片進(jìn)行細(xì)粒度理解

方法

模型架構(gòu)

Qwen-VL模型參數(shù)的詳細(xì)信息

Qwen-VL的整體網(wǎng)絡(luò)架構(gòu)由三個(gè)組成部分組成,模型參數(shù)細(xì)節(jié)如上表所示:

  • LLM:Qwen-VL采用了一個(gè)大型語(yǔ)言模型作為其基礎(chǔ)組件。該模型采用Qwen-7B中預(yù)訓(xùn)練的權(quán)重進(jìn)行初始化。
  • Visual Encoder:使用 Vision Transformer(ViT),該網(wǎng)絡(luò)借助Openclip’s ViT-bigG預(yù)訓(xùn)練參數(shù)進(jìn)行初始化。
  • Position-aware Vision-Language Adapter:為了緩解長(zhǎng)圖像特征序列帶來(lái)的效率問題,Qwen-VL引入了一種壓縮圖像特征的視覺語(yǔ)言適配器。該適配器由一個(gè)隨機(jī)初始化的單層Cross-Atten模塊組成。該模塊使用一組可訓(xùn)練的向量(嵌入)作為query向量,以及來(lái)自視覺編碼器的圖像特征作為key向量。此外,考慮到位置信息對(duì)細(xì)粒度圖像理解的重要性,將二維絕對(duì)位置編碼合并到交叉注意機(jī)制的query-key中,以減少壓縮過程中位置細(xì)節(jié)的潛在損失。

輸入輸出

  • 圖片輸入:將圖片信息用特殊的<img></img>包裹
  • Bounding Box 輸入:為了增強(qiáng)模型的細(xì)粒度視覺理解和基礎(chǔ)的能力,Qwen-VL的輸入包括區(qū)域描述、問題和檢測(cè)形式的數(shù)據(jù)。與涉及圖像-文本描述或問題的傳統(tǒng)任務(wù)不同,這項(xiàng)任務(wù)需要模型準(zhǔn)確地理解并以指定的格式生成區(qū)域描述。對(duì)于任何給定的邊界框,將應(yīng)用標(biāo)準(zhǔn)化過程(在范圍內(nèi)[0,1000)),并將其轉(zhuǎn)換為指定的字符串格式:“(Xtopleft,Ytopleft),(Xbottomleft,Ybottomleft)”。該字符串被標(biāo)記化為文本,并且不需要額外的位置詞匯表。為了區(qū)分檢測(cè)字符串和常規(guī)文本字符串,在邊界框字符串的開始和結(jié)尾添加了兩個(gè)特殊標(biāo)記(<box>和</box>。此外,為了適當(dāng)?shù)貙⑦吔缈蚺c其相應(yīng)的描述性單詞或句子關(guān)聯(lián)起來(lái),還引入了另一組特殊標(biāo)記(<ref>和</ref>),標(biāo)記邊界框所引用的內(nèi)容。

訓(xùn)練

Qwen-VL模型的訓(xùn)練過程包括三個(gè)階段:兩階段Pre-training和 最后階段instruction fine-tuning training。

Qwen-VL系列模型的訓(xùn)練過程
  • 第一階段預(yù)訓(xùn)練:我們主要利用一個(gè)大規(guī)模的、弱監(jiān)督、從互聯(lián)網(wǎng)爬取的圖像-文本對(duì)集。我們的數(shù)據(jù)集由幾個(gè)公開可訪問的源和一些內(nèi)部數(shù)據(jù)組成。如表2所示,原始數(shù)據(jù)集共包含50億對(duì)圖像-文本對(duì),經(jīng)過清理后,仍保留了14億對(duì)數(shù)據(jù),其中英文(文本)數(shù)據(jù)為77.3%,中文(文本)數(shù)據(jù)為22.7%。我們?cè)谶@個(gè)階段凍結(jié)了大型語(yǔ)言模型,并且只優(yōu)化了視覺編碼器和VL適配器。
第一階段預(yù)訓(xùn)練數(shù)據(jù)集情況
  • 第二階段預(yù)訓(xùn)練:在多任務(wù)預(yù)訓(xùn)練的第二階段,我們引入了高質(zhì)量、細(xì)粒度的VL注釋數(shù)據(jù),以及具有更大的輸入分辨率和交錯(cuò)的圖像-文本數(shù)據(jù)。如表3所示,我們同時(shí)在7個(gè)任務(wù)上訓(xùn)練Qwen-VL。對(duì)于文本生成,我們使用內(nèi)部收集的語(yǔ)料庫(kù)來(lái)保持LLM的能力。我們?yōu)閂QA任務(wù)使用公開數(shù)據(jù),為了改進(jìn)面向文本的任務(wù),我們從Common Crawl1中收集pdf和HTML格式數(shù)據(jù),生成具有自然風(fēng)景背景的漢合成OCR數(shù)據(jù)。我們將視覺編碼器的輸入分辨率從224×224提高到448×448,減少了圖像降采樣造成的信息損失。在這一個(gè)階段,我們也微調(diào)LLM參數(shù)。
  • SFT:在此階段,我們通過指令微調(diào)來(lái)細(xì)化Qwen-VL預(yù)訓(xùn)練模型,以增強(qiáng)其指令跟蹤和對(duì)話能力,從而形成交互式的Qwen-VL-Chat模型。多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)主要來(lái)自于標(biāo)題數(shù)據(jù)或通過LLM自指令生成的對(duì)話數(shù)據(jù),通常只處理單個(gè)圖像的對(duì)話和推理,僅限于對(duì)圖像內(nèi)容的理解。我們通過手動(dòng)注釋、模型生成和策略連接構(gòu)建了一組額外的對(duì)話數(shù)據(jù),以將定位和多圖像理解能力整合到Qwen-VL模型中。我們確認(rèn),該模型有效地將這些功能轉(zhuǎn)移到更廣泛的語(yǔ)言和問題類型中。此外,我們?cè)谟?xùn)練過程中混合了多模態(tài)和純文本對(duì)話數(shù)據(jù),以確保模型在對(duì)話能力中的普遍性。指令調(diào)優(yōu)數(shù)據(jù)總計(jì)可達(dá)350k。在這一階段,我們凍結(jié)了視覺編碼器,并優(yōu)化語(yǔ)言模型和適配器模塊。

實(shí)驗(yàn)結(jié)果

Image Captioning和通用VQA的結(jié)果
Text-oriented VQA的結(jié)果
Referring Expression Comprehension task的結(jié)果
Qwen-VL在少樣本設(shè)定下的結(jié)果
Qwen-VL指令微調(diào)的結(jié)果

結(jié)論

我們發(fā)布了Qwen-VL系列,這是一組大規(guī)模的多語(yǔ)言視覺-語(yǔ)言模型,旨在促進(jìn)多模態(tài)研究。Qwen-VL在各種基準(zhǔn)測(cè)試中都優(yōu)于類似的模型,支持多語(yǔ)言對(duì)話、多圖像交錯(cuò)對(duì)話、中文基礎(chǔ)和細(xì)粒度識(shí)別。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容