論文信息

論文題目：Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
論文鏈接：[2308.12966] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond (arxiv.org)
機(jī)構(gòu)信息：阿里巴巴

摘要

Qwen-VL系列是一組大規(guī)模的視覺語(yǔ)言模型（LVLMs），旨在感知和理解文本和圖像。Qwen-VL從Qwen-LM出發(fā)，通過精細(xì)設(shè)計(jì)的：1） visual receptor 2）input-output interface 3）3-stage training pipeline 4） multilingual multimodal cleaned corpus。除了傳統(tǒng)的圖像描述和問答之外，我們通過對(duì)齊圖像標(biāo)題框元組來(lái)實(shí)現(xiàn)qwen-vl的基礎(chǔ)和文本閱讀能力。論文中的LVLM開源了Qwen-VL和Qwen-VL-Chat版本。這兩個(gè)LVLM模型在各種實(shí)驗(yàn)設(shè)定下的各類多模態(tài)圖像任務(wù)上都獲得了SOTA的效果。

介紹

與其他通用模型相比，Qwen-VL在廣泛的任務(wù)上取得了最先進(jìn)的性能。

LLM 因其在文本生成和理解方面的強(qiáng)大能力而引起了廣泛的關(guān)注。這些模型可以通過微調(diào)指令進(jìn)一步與用戶的意圖相一致，顯示了強(qiáng)大的交互能力和作為智能助手從而提高生產(chǎn)力。然而，原始的LLM語(yǔ)言模型當(dāng)前只適用于純文本世界中，缺乏處理其他模態(tài)（如圖像、語(yǔ)音和視頻）的能力，導(dǎo)致其應(yīng)用范圍受到了很大的限制。
當(dāng)前也存在一些LVLM，但目前開源LVLM的訓(xùn)練和優(yōu)化不足，遠(yuǎn)遠(yuǎn)落后于針對(duì)特定領(lǐng)域特定任務(wù)的SOTA小模型，這阻礙了LVLM在開源社區(qū)中的進(jìn)一步探索和應(yīng)用。更重要的是，在現(xiàn)實(shí)世界中，由于視覺場(chǎng)景相當(dāng)復(fù)雜，細(xì)粒度的視覺理解對(duì)于LVLM有效和精確地幫助人們起著至關(guān)重要的作用。大多數(shù)開源LVLM仍然以粗粒度的方法感知圖像，缺乏執(zhí)行細(xì)粒度感知的能力，如對(duì)象接地或文本閱讀。
本文提出的Qwen-VL模型是一個(gè)基于Qwen-7B的模型，我們引入了全新的visual receptor，包含了a language-aligned visual encoder 和 a position-aware adapter。Qwen-VL 模型是一個(gè)三階段的訓(xùn)練形成的模型，模型訓(xùn)練在大量的圖像-文本語(yǔ)料庫(kù)集合上優(yōu)化整個(gè)模型。

由Qwen-VL-Chat生成的一些例子。Qwen-VL-Chat支持多種圖像輸入、多輪對(duì)話、多語(yǔ)言對(duì)話、文本閱讀、本地化、細(xì)粒度識(shí)別和理解能力。

本文提出的Qwen-VL 有以下特點(diǎn)：性能優(yōu)越、多語(yǔ)言、多圖片、能夠?qū)D片進(jìn)行細(xì)粒度理解

方法

模型架構(gòu)

Qwen-VL模型參數(shù)的詳細(xì)信息

Qwen-VL的整體網(wǎng)絡(luò)架構(gòu)由三個(gè)組成部分組成，模型參數(shù)細(xì)節(jié)如上表所示：

LLM：Qwen-VL采用了一個(gè)大型語(yǔ)言模型作為其基礎(chǔ)組件。該模型采用Qwen-7B中預(yù)訓(xùn)練的權(quán)重進(jìn)行初始化。
Visual Encoder：使用 Vision Transformer（ViT），該網(wǎng)絡(luò)借助Openclip’s ViT-bigG預(yù)訓(xùn)練參數(shù)進(jìn)行初始化。
Position-aware Vision-Language Adapter：為了緩解長(zhǎng)圖像特征序列帶來(lái)的效率問題，Qwen-VL引入了一種壓縮圖像特征的視覺語(yǔ)言適配器。該適配器由一個(gè)隨機(jī)初始化的單層Cross-Atten模塊組成。該模塊使用一組可訓(xùn)練的向量（嵌入）作為query向量，以及來(lái)自視覺編碼器的圖像特征作為key向量。此外，考慮到位置信息對(duì)細(xì)粒度圖像理解的重要性，將二維絕對(duì)位置編碼合并到交叉注意機(jī)制的query-key中，以減少壓縮過程中位置細(xì)節(jié)的潛在損失。

輸入輸出

圖片輸入：將圖片信息用特殊的<img></img>包裹
Bounding Box 輸入：為了增強(qiáng)模型的細(xì)粒度視覺理解和基礎(chǔ)的能力，Qwen-VL的輸入包括區(qū)域描述、問題和檢測(cè)形式的數(shù)據(jù)。與涉及圖像-文本描述或問題的傳統(tǒng)任務(wù)不同，這項(xiàng)任務(wù)需要模型準(zhǔn)確地理解并以指定的格式生成區(qū)域描述。對(duì)于任何給定的邊界框，將應(yīng)用標(biāo)準(zhǔn)化過程（在范圍內(nèi)[0,1000))，并將其轉(zhuǎn)換為指定的字符串格式：“（X_topleft，Y_topleft），(X_bottomleft，Y_bottomleft）”。該字符串被標(biāo)記化為文本，并且不需要額外的位置詞匯表。為了區(qū)分檢測(cè)字符串和常規(guī)文本字符串，在邊界框字符串的開始和結(jié)尾添加了兩個(gè)特殊標(biāo)記(<box>和</box>。此外，為了適當(dāng)?shù)貙⑦吔缈蚺c其相應(yīng)的描述性單詞或句子關(guān)聯(lián)起來(lái)，還引入了另一組特殊標(biāo)記（<ref>和</ref>），標(biāo)記邊界框所引用的內(nèi)容。

訓(xùn)練

Qwen-VL模型的訓(xùn)練過程包括三個(gè)階段：兩階段Pre-training和最后階段instruction fine-tuning training。

Qwen-VL系列模型的訓(xùn)練過程

第一階段預(yù)訓(xùn)練：我們主要利用一個(gè)大規(guī)模的、弱監(jiān)督、從互聯(lián)網(wǎng)爬取的圖像-文本對(duì)集。我們的數(shù)據(jù)集由幾個(gè)公開可訪問的源和一些內(nèi)部數(shù)據(jù)組成。如表2所示，原始數(shù)據(jù)集共包含50億對(duì)圖像-文本對(duì)，經(jīng)過清理后，仍保留了14億對(duì)數(shù)據(jù)，其中英文（文本）數(shù)據(jù)為77.3%，中文（文本）數(shù)據(jù)為22.7%。我們?cè)谶@個(gè)階段凍結(jié)了大型語(yǔ)言模型，并且只優(yōu)化了視覺編碼器和VL適配器。

第一階段預(yù)訓(xùn)練數(shù)據(jù)集情況

第二階段預(yù)訓(xùn)練：在多任務(wù)預(yù)訓(xùn)練的第二階段，我們引入了高質(zhì)量、細(xì)粒度的VL注釋數(shù)據(jù)，以及具有更大的輸入分辨率和交錯(cuò)的圖像-文本數(shù)據(jù)。如表3所示，我們同時(shí)在7個(gè)任務(wù)上訓(xùn)練Qwen-VL。對(duì)于文本生成，我們使用內(nèi)部收集的語(yǔ)料庫(kù)來(lái)保持LLM的能力。我們?yōu)閂QA任務(wù)使用公開數(shù)據(jù)，為了改進(jìn)面向文本的任務(wù)，我們從Common Crawl1中收集pdf和HTML格式數(shù)據(jù)，生成具有自然風(fēng)景背景的漢合成OCR數(shù)據(jù)。我們將視覺編碼器的輸入分辨率從224×224提高到448×448，減少了圖像降采樣造成的信息損失。在這一個(gè)階段，我們也微調(diào)LLM參數(shù)。
SFT：在此階段，我們通過指令微調(diào)來(lái)細(xì)化Qwen-VL預(yù)訓(xùn)練模型，以增強(qiáng)其指令跟蹤和對(duì)話能力，從而形成交互式的Qwen-VL-Chat模型。多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)主要來(lái)自于標(biāo)題數(shù)據(jù)或通過LLM自指令生成的對(duì)話數(shù)據(jù)，通常只處理單個(gè)圖像的對(duì)話和推理，僅限于對(duì)圖像內(nèi)容的理解。我們通過手動(dòng)注釋、模型生成和策略連接構(gòu)建了一組額外的對(duì)話數(shù)據(jù)，以將定位和多圖像理解能力整合到Qwen-VL模型中。我們確認(rèn)，該模型有效地將這些功能轉(zhuǎn)移到更廣泛的語(yǔ)言和問題類型中。此外，我們?cè)谟?xùn)練過程中混合了多模態(tài)和純文本對(duì)話數(shù)據(jù)，以確保模型在對(duì)話能力中的普遍性。指令調(diào)優(yōu)數(shù)據(jù)總計(jì)可達(dá)350k。在這一階段，我們凍結(jié)了視覺編碼器，并優(yōu)化語(yǔ)言模型和適配器模塊。

實(shí)驗(yàn)結(jié)果

Image Captioning和通用VQA的結(jié)果

Text-oriented VQA的結(jié)果

Referring Expression Comprehension task的結(jié)果

Qwen-VL在少樣本設(shè)定下的結(jié)果

Qwen-VL指令微調(diào)的結(jié)果

結(jié)論

我們發(fā)布了Qwen-VL系列，這是一組大規(guī)模的多語(yǔ)言視覺-語(yǔ)言模型，旨在促進(jìn)多模態(tài)研究。Qwen-VL在各種基準(zhǔn)測(cè)試中都優(yōu)于類似的模型，支持多語(yǔ)言對(duì)話、多圖像交錯(cuò)對(duì)話、中文基礎(chǔ)和細(xì)粒度識(shí)別。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

LVLM系列論文閱讀（1）

LVLM系列論文閱讀（1）

論文信息

摘要

介紹

方法

模型架構(gòu)

輸入輸出

訓(xùn)練

實(shí)驗(yàn)結(jié)果

結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

LVLM系列論文閱讀（1）

論文信息

摘要

介紹

方法

模型架構(gòu)

輸入輸出

訓(xùn)練

實(shí)驗(yàn)結(jié)果

結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av