論文地址：https://arxiv.org/abs/2204.03610
代碼地址：https://github.com/microsoft/UniCL
微軟的工作，在圖像-文本對比學(xué)習(xí)的基礎(chǔ)上引入了標(biāo)簽信息。

摘要

視覺識別目前使用兩種類型的方法：基于圖像-標(biāo)簽的監(jiān)督學(xué)習(xí)，或基于圖像-文本的對比學(xué)習(xí)。由于數(shù)據(jù)源和學(xué)習(xí)目標(biāo)不同，兩種學(xué)習(xí)各有優(yōu)勢，圖像-標(biāo)簽的預(yù)訓(xùn)練方式能生成更具有判別力的表征，圖像-文本的方式具有零樣本識別能力。本文介紹一種圖像-文本-標(biāo)簽的新學(xué)習(xí)范式（UniCL），在零樣本、線性分類、微調(diào)和遷移學(xué)習(xí)場景都取得了不錯的效果。

介紹

圖像-標(biāo)簽的監(jiān)督學(xué)習(xí)[10]具有強大的遷移學(xué)習(xí)能力[14，33]，但收集數(shù)據(jù)和打標(biāo)簽的成本很高。
圖像文本的對比學(xué)習(xí)如CLIP[48]和ALIGN[29]囊括很多語義場景，但抓取的圖像文本對存在較多噪聲，缺乏遷移學(xué)習(xí)所需的判別能力。
提出問題：能否用一個模型同時實現(xiàn)判別性表征和廣義的語義場景？

圖1上：本文定義的圖像-文本-標(biāo)簽空間，列出了多個方法如CE、SupCon、CLIP、ALIGN等

圖1下：圖像-文本-標(biāo)簽樣例

圖像-標(biāo)簽監(jiān)督學(xué)習(xí)[30]將圖像映射到離散標(biāo)簽，訓(xùn)練過程中忽略了每個標(biāo)簽相關(guān)的文本概念，圖像-文本對比學(xué)習(xí)[48]訓(xùn)練一對圖像-文本編碼器，則可以隱含假設(shè)每個圖像-文本對有一個獨特的標(biāo)簽?；谶@個隱含假設(shè)，我們對每個圖像-文本對編碼唯一標(biāo)簽，如圖1下所示。
本文主要貢獻(xiàn)：

我們引入了圖像-文本-標(biāo)簽空間的新視角，它可以將常用的圖像標(biāo)簽和圖像-文本數(shù)據(jù)無縫統(tǒng)一起來。
我們提出了一種在圖像-文本-標(biāo)簽空間中的統(tǒng)一的對比學(xué)習(xí)方法，稱為UniCL，它可以從圖像標(biāo)簽和圖像文本數(shù)據(jù)中的任何一種學(xué)習(xí)，也可以從兩者中學(xué)習(xí)。
廣泛的實驗表明，我們的UniCL可以有效地利用這兩種類型的數(shù)據(jù)，并在標(biāo)準(zhǔn)的zero-shot、線性探測、完全微調(diào)和轉(zhuǎn)移學(xué)習(xí)設(shè)置上普遍取得優(yōu)異的性能。

方法

問題設(shè)置：定義數(shù)據(jù)格式如下。

圖2：數(shù)據(jù)格式
統(tǒng)一圖像-文本-標(biāo)簽的對比度。

圖3：

分別對圖像和文本抽取特征、歸一化得到 $u_i, v_i$ ，計算內(nèi)積 $s_{ij} = u^T_i v_j$ ，分別得到圖像-文本的對比損失及文本-圖像的對比損失
$min_{\{θ,φ\}} L_{BiC} = L_{i2t} + L_{t2i},$

其中每一行
$L_{i2t} = ?\sum_{i∈B}\frac{1}{|P(i)|}\sum_{k∈|P(i)|}log\frac{exp(\tau u_i^T v_k)}{\sum_{j∈B}exp(\tau u_i^T v_k)}$
where $k∈ P(i) = \{k|k ∈ B, y_k = y_i\}.$
同理每一列
$L_{t2i} = ?\sum_{j∈B}\frac{1}{|P(j)|}\sum_{k∈|P(j)|}log\frac{exp(\tau u_k^T v_j)}{\sum_{j∈B}exp(\tau u_i^T v_j)}$
where $k∈ P(j) = \{k|k ∈ B, y_k = y_j\}.$

3.3 討論&性質(zhì)
圖3對比了我們提出的UniCL與CE、SupCon、CLIP幾種方法的異同。
3.4 模型訓(xùn)練與優(yōu)化
Dataloader的定義，圖像-文本對的標(biāo)簽暫時全部定義為0，圖像-標(biāo)簽對索引為 $y∈ [1, …, K]$ ，之后在函數(shù)Target中修改。在訓(xùn)練過程中 $\tau$ 是一個初始化為1的可學(xué)習(xí)變量。

偽代碼

Algorithm 1: Training process for UniCL.
# n: batch size; d: projected feature dim
# The main training loop
1 for x, t, y in loader:
2   target = TargetM(y)
    # Image encoding: n×d
3   u = l2 normalize(fθ(x), dim=-1)
    # Text encoding: n×d
4   v = l2 normalize(fφ(t), dim=-1)
    # Cosine similarities: n×n
5   logits = exp(τ) · u * v.T
    # Bidirectional contrastive loss
6   i2t = SoftCE(logits, target)
7   t2i = SoftCE(logits.T, target.T)
8   loss = (i2t + t2i)/2
9   loss.backward()
# The Target Modification function
10 def TargetM(y):
    # Note y = 0 for image-text in loader
11   cap m = (y == 0).sum()
12   cls m = y[y > 0].max()
13   y[y == 0] = arange(0, cap m) + cls m + 1
14   return y.view(-1, 1) == y.view(1, -1)
# The SoftTargetCrossEntropy function
15 def SoftCE(s, t):
16   s = softmax(s, dim=-1)
17   loss = - (t * log(s)).sum(dim=-1)
18   return (loss/t.sum(dim=-1)).mean()

實驗

數(shù)據(jù)集：前4行是圖像分類數(shù)據(jù)，文本描述來源于標(biāo)簽。后3行是圖像-文本數(shù)據(jù)集，我們使用Spacy[25]抽取名詞短語，統(tǒng)計出現(xiàn)次數(shù)大于5次的名詞實體。

數(shù)據(jù)集
訓(xùn)練：我們對分類數(shù)據(jù)使用與CLIP[48]相同的提示策略和標(biāo)記器，將類名填充到提示模板中，在輸入文本編碼器之前進(jìn)行標(biāo)記化。細(xì)節(jié)參考CLIP源碼。
評估：用于標(biāo)準(zhǔn)圖像分類、零樣本圖像分類、線性分類、目標(biāo)檢測。
本節(jié)中我們討論兩個問題：
Q1：與SupCon相比我們的UniCL在圖片分類上表現(xiàn)如何？
Q2：我們的圖像-文本-標(biāo)簽方法有何獨特優(yōu)勢？

表2：提出方法在圖像分類上的精度對比

在CIFAR-10、CIFAR-100上優(yōu)于CE和SupCon，在ImageNet-1K上與SupCon不相上下，且相對于SupCon有以下優(yōu)勢：1）端到端訓(xùn)練，2）可以直接用于零樣本學(xué)習(xí)。

增加額外的圖像-文本數(shù)據(jù)

與CLIP的對比

在多個數(shù)據(jù)集上的零樣本實驗

結(jié)論

提出了UniCL，一個用于通用多模態(tài)表征學(xué)習(xí)的新的對比性學(xué)習(xí)范式。它建立在圖像-文本-標(biāo)簽空間中，并由我們的統(tǒng)一對比學(xué)習(xí)方法所支持。這樣一個統(tǒng)一的范式促使圖像-標(biāo)簽和圖像-文本對之間的無縫協(xié)同，以進(jìn)行辨別性和語義豐富的表征學(xué)習(xí)，這帶來了對零點射擊、線性探測、微調(diào)基準(zhǔn)的普遍改進(jìn)。此外，我們還討論了它與現(xiàn)有學(xué)習(xí)方法的聯(lián)系，并通過經(jīng)驗證明，我們的學(xué)習(xí)方法在純圖像-標(biāo)簽數(shù)據(jù)上是一個很好的替代學(xué)習(xí)者。

討論：在我們的提交過程中，我們主要關(guān)注視覺任務(wù)，如圖像識別和物體檢測，并將我們的模型建立在公共數(shù)據(jù)集上。然而，我們向讀者推薦Florence[72]的大規(guī)模預(yù)訓(xùn)練以及對包括VQA和視頻理解在內(nèi)的一系列任務(wù)的評估。我們注意到Florence使用了大量的私人數(shù)據(jù)，因此推薦本文中的這套實驗作為未來學(xué)術(shù)研究的基線。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Unified Contrastive Learning in Image-Text-Label Space 論文筆記

Unified Contrastive Learning in Image-Text-Label Space 論文筆記

摘要

介紹

相關(guān)工作

方法

實驗

結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Unified Contrastive Learning in Image-Text-Label Space 論文筆記

摘要

介紹

相關(guān)工作

方法

實驗

結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av