Unified Contrastive Learning in Image-Text-Label Space 論文筆記

論文地址:https://arxiv.org/abs/2204.03610
代碼地址:https://github.com/microsoft/UniCL
微軟的工作,在圖像-文本對比學(xué)習(xí)的基礎(chǔ)上引入了標(biāo)簽信息。

摘要

視覺識別目前使用兩種類型的方法:基于圖像-標(biāo)簽的監(jiān)督學(xué)習(xí),或基于圖像-文本的對比學(xué)習(xí)。由于數(shù)據(jù)源和學(xué)習(xí)目標(biāo)不同,兩種學(xué)習(xí)各有優(yōu)勢,圖像-標(biāo)簽的預(yù)訓(xùn)練方式能生成更具有判別力的表征,圖像-文本的方式具有零樣本識別能力。本文介紹一種圖像-文本-標(biāo)簽的新學(xué)習(xí)范式(UniCL),在零樣本、線性分類、微調(diào)和遷移學(xué)習(xí)場景都取得了不錯的效果。

介紹

圖像-標(biāo)簽的監(jiān)督學(xué)習(xí)[10]具有強大的遷移學(xué)習(xí)能力[14,33],但收集數(shù)據(jù)和打標(biāo)簽的成本很高。
圖像文本的對比學(xué)習(xí)如CLIP[48]和ALIGN[29]囊括很多語義場景,但抓取的圖像文本對存在較多噪聲,缺乏遷移學(xué)習(xí)所需的判別能力。
提出問題:能否用一個模型同時實現(xiàn)判別性表征和廣義的語義場景?


圖1上:本文定義的圖像-文本-標(biāo)簽空間,列出了多個方法如CE、SupCon、CLIP、ALIGN等

圖1下:圖像-文本-標(biāo)簽樣例

圖像-標(biāo)簽監(jiān)督學(xué)習(xí)[30]將圖像映射到離散標(biāo)簽,訓(xùn)練過程中忽略了每個標(biāo)簽相關(guān)的文本概念,圖像-文本對比學(xué)習(xí)[48]訓(xùn)練一對圖像-文本編碼器,則可以隱含假設(shè)每個圖像-文本對有一個獨特的標(biāo)簽?;谶@個隱含假設(shè),我們對每個圖像-文本對編碼唯一標(biāo)簽,如圖1下所示。
本文主要貢獻(xiàn):

  • 我們引入了圖像-文本-標(biāo)簽空間的新視角,它可以將常用的圖像標(biāo)簽和圖像-文本數(shù)據(jù)無縫統(tǒng)一起來。
  • 我們提出了一種在圖像-文本-標(biāo)簽空間中的統(tǒng)一的對比學(xué)習(xí)方法,稱為UniCL,它可以從圖像標(biāo)簽和圖像文本數(shù)據(jù)中的任何一種學(xué)習(xí),也可以從兩者中學(xué)習(xí)。
  • 廣泛的實驗表明,我們的UniCL可以有效地利用這兩種類型的數(shù)據(jù),并在標(biāo)準(zhǔn)的zero-shot、線性探測、完全微調(diào)和轉(zhuǎn)移學(xué)習(xí)設(shè)置上普遍取得優(yōu)異的性能。

相關(guān)工作

  • 監(jiān)督學(xué)習(xí):CNN相關(guān)[23, 26, 35, 36, 41, 54, 55],Transformer相關(guān)[15, 44, 59, 64, 67, 71, 76],損失函數(shù)交叉熵[47],邊緣損失[43, 11, 52],監(jiān)督對比損失[30],零樣本分類[9,28,46,65,69,70]。
  • 文本-圖像對比學(xué)習(xí):主要分為兩類,第一類學(xué)習(xí)通用的多模態(tài)融合層,受到BERT啟發(fā),基于遮蔽標(biāo)記預(yù)測或者圖像-文本匹配建立圖像和文本的特征提取器[17,45,40,53,77,31,39,66],用于改善下游任務(wù)如VQA[2,27],圖像說明[42,1],視覺常識推理[74]。第二類側(cè)重于從自然語言監(jiān)督中學(xué)習(xí)可轉(zhuǎn)移的視覺表征,包括生成性方法[12,50]和對比性方法[16,29,48,62,63,78]。以上方法忽略了圖像標(biāo)簽。
  • 自監(jiān)督學(xué)習(xí):圖像的自監(jiān)督學(xué)習(xí)主要是從原始像素中學(xué)習(xí)通用視覺表征,無需標(biāo)簽和文本的監(jiān)督[19]。對比學(xué)習(xí)方法[3,6,8,21,24,57,58],最大限度地提高了同一圖像地不同增強view之間的學(xué)習(xí)表征一致性,最小化了不同view的一致性,這種數(shù)據(jù)增強方法也擴展到了非對比性方法[4,7,20,38],盡管圖像自監(jiān)督可以無限量利用無標(biāo)簽數(shù)據(jù)[18],但缺乏語言關(guān)聯(lián),不適用于零樣本任務(wù)。

方法

  1. 問題設(shè)置:定義數(shù)據(jù)格式如下。


    圖2:數(shù)據(jù)格式
  2. 統(tǒng)一圖像-文本-標(biāo)簽的對比度。
    圖3:

    分別對圖像和文本抽取特征、歸一化得到u_i, v_i,計算內(nèi)積s_{ij} = u^T_i v_j,分別得到圖像-文本的對比損失及文本-圖像的對比損失
    min_{\{θ,φ\}} L_{BiC} = L_{i2t} + L_{t2i},
  • 其中每一行
    L_{i2t} = ?\sum_{i∈B}\frac{1}{|P(i)|}\sum_{k∈|P(i)|}log\frac{exp(\tau u_i^T v_k)}{\sum_{j∈B}exp(\tau u_i^T v_k)}
    where k∈ P(i) = \{k|k ∈ B, y_k = y_i\}.
  • 同理每一列
    L_{t2i} = ?\sum_{j∈B}\frac{1}{|P(j)|}\sum_{k∈|P(j)|}log\frac{exp(\tau u_k^T v_j)}{\sum_{j∈B}exp(\tau u_i^T v_j)}
    where k∈ P(j) = \{k|k ∈ B, y_k = y_j\}.

3.3 討論&性質(zhì)
圖3對比了我們提出的UniCL與CE、SupCon、CLIP幾種方法的異同。
3.4 模型訓(xùn)練與優(yōu)化
Dataloader的定義,圖像-文本對的標(biāo)簽暫時全部定義為0,圖像-標(biāo)簽對索引為y∈ [1, …, K],之后在函數(shù)Target中修改。在訓(xùn)練過程中\tau是一個初始化為1的可學(xué)習(xí)變量。

  • 偽代碼
Algorithm 1: Training process for UniCL.
# n: batch size; d: projected feature dim
# The main training loop
1 for x, t, y in loader:
2   target = TargetM(y)
    # Image encoding: n×d
3   u = l2 normalize(fθ(x), dim=-1)
    # Text encoding: n×d
4   v = l2 normalize(fφ(t), dim=-1)
    # Cosine similarities: n×n
5   logits = exp(τ) · u * v.T
    # Bidirectional contrastive loss
6   i2t = SoftCE(logits, target)
7   t2i = SoftCE(logits.T, target.T)
8   loss = (i2t + t2i)/2
9   loss.backward()
# The Target Modification function
10 def TargetM(y):
    # Note y = 0 for image-text in loader
11   cap m = (y == 0).sum()
12   cls m = y[y > 0].max()
13   y[y == 0] = arange(0, cap m) + cls m + 1
14   return y.view(-1, 1) == y.view(1, -1)
# The SoftTargetCrossEntropy function
15 def SoftCE(s, t):
16   s = softmax(s, dim=-1)
17   loss = - (t * log(s)).sum(dim=-1)
18   return (loss/t.sum(dim=-1)).mean()

實驗

  • 數(shù)據(jù)集:前4行是圖像分類數(shù)據(jù),文本描述來源于標(biāo)簽。后3行是圖像-文本數(shù)據(jù)集,我們使用Spacy[25]抽取名詞短語,統(tǒng)計出現(xiàn)次數(shù)大于5次的名詞實體。


    數(shù)據(jù)集
  • 訓(xùn)練:我們對分類數(shù)據(jù)使用與CLIP[48]相同的提示策略和標(biāo)記器,將類名填充到提示模板中,在輸入文本編碼器之前進(jìn)行標(biāo)記化。細(xì)節(jié)參考CLIP源碼。
  • 評估:用于標(biāo)準(zhǔn)圖像分類、零樣本圖像分類、線性分類、目標(biāo)檢測。
    本節(jié)中我們討論兩個問題:
    Q1:與SupCon相比我們的UniCL在圖片分類上表現(xiàn)如何?
    Q2:我們的圖像-文本-標(biāo)簽方法有何獨特優(yōu)勢?


    表2:提出方法在圖像分類上的精度對比

    在CIFAR-10、CIFAR-100上優(yōu)于CE和SupCon,在ImageNet-1K上與SupCon不相上下,且相對于SupCon有以下優(yōu)勢:1)端到端訓(xùn)練,2)可以直接用于零樣本學(xué)習(xí)。


    增加額外的圖像-文本數(shù)據(jù)

    與CLIP的對比

    在多個數(shù)據(jù)集上的零樣本實驗

結(jié)論

提出了UniCL,一個用于通用多模態(tài)表征學(xué)習(xí)的新的對比性學(xué)習(xí)范式。它建立在圖像-文本-標(biāo)簽空間中,并由我們的統(tǒng)一對比學(xué)習(xí)方法所支持。這樣一個統(tǒng)一的范式促使圖像-標(biāo)簽和圖像-文本對之間的無縫協(xié)同,以進(jìn)行辨別性和語義豐富的表征學(xué)習(xí),這帶來了對零點射擊、線性探測、微調(diào)基準(zhǔn)的普遍改進(jìn)。此外,我們還討論了它與現(xiàn)有學(xué)習(xí)方法的聯(lián)系,并通過經(jīng)驗證明,我們的學(xué)習(xí)方法在純圖像-標(biāo)簽數(shù)據(jù)上是一個很好的替代學(xué)習(xí)者。

  • 討論:在我們的提交過程中,我們主要關(guān)注視覺任務(wù),如圖像識別和物體檢測,并將我們的模型建立在公共數(shù)據(jù)集上。然而,我們向讀者推薦Florence[72]的大規(guī)模預(yù)訓(xùn)練以及對包括VQA和視頻理解在內(nèi)的一系列任務(wù)的評估。我們注意到Florence使用了大量的私人數(shù)據(jù),因此推薦本文中的這套實驗作為未來學(xué)術(shù)研究的基線。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容