SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM

近年來,大規(guī)模對比語言圖像預(yù)訓(xùn)練(CLIP)因其令人印象深刻的zero-shot識別能力和良好的下游任務(wù)轉(zhuǎn)移能力而引起了前所未有的關(guān)注。然而,CLIP非常需要數(shù)據(jù),需要400M圖像-文本對進(jìn)行預(yù)訓(xùn)練。這項工作提出了一種新的訓(xùn)練范式(DeCLIP),以緩解這一限制。我們證明,通過仔細(xì)利用圖像-文本對之間的廣泛監(jiān)督,我們的DeCLIP可以更有效地學(xué)習(xí)通用視覺特征。我們沒有使用單一的圖像-文本對比監(jiān)督,而是通過使用

(1)每個模式內(nèi)的自監(jiān)督來充分利用數(shù)據(jù)潛力;
(2) 跨模式的多視角監(jiān)督;
(3) 來自其他類似配對的最近鄰監(jiān)督。

得益于這些內(nèi)在監(jiān)督,我們的DeCLIP-ResNet50可以在ImageNet上實現(xiàn)60.4%的zero-shot top1精度,比CLIP-ResNet50高0.8%,同時使用7.1×fewer 的數(shù)據(jù)。當(dāng)轉(zhuǎn)移到下游任務(wù)時,我們的DeCLIP-ResNet50在11個視覺數(shù)據(jù)中有8個更優(yōu)。

首先,每種模式本身都有豐富的結(jié)構(gòu)信息(LeCun和Misra,2021)。我們可以調(diào)整句子/圖像中的一些單詞/像素,同時保留相似的語義??梢岳眠@種自我監(jiān)督來學(xué)習(xí)每種模式的更多常識表示(Devlin等人,2018;He等人,2020;Chen等人,2020a)。此外,受圖像中對比多種作物的啟發(fā)(Caron等人,2020年),我們進(jìn)一步將多視圖1監(jiān)控擴展到我們的多模態(tài)設(shè)置中。具體來說,每個圖像與通過隨機增強獲得的多個文本描述配對,反之亦然。其優(yōu)點是直觀的:這種輔助多視圖監(jiān)控帶來了更多不變和穩(wěn)健的信息。

除了這些被忽略的監(jiān)督之外,我們還提出了一種新的來自其他相似對的最近鄰監(jiān)督。這種神經(jīng)網(wǎng)絡(luò)監(jiān)督主要基于一種直覺,即一幅圖像可能在數(shù)據(jù)集中有其他類似的文本描述。如右圖所示,帶有文字“’going to see a lot of vintage tractors this week’ 的圖像也可以用“vintage at tractors a gathering”來描述。因此,我們在嵌入空間中對神經(jīng)網(wǎng)絡(luò)進(jìn)行采樣,并將其用作額外的監(jiān)控信號。綜合這些監(jiān)督導(dǎo)致了我們新的訓(xùn)練范式DeCLIP,即數(shù)據(jù)高效的對比語言圖像預(yù)訓(xùn)練

大量實驗表明了我們的DeCLIP的有效性和效率。如圖1所示,使用ResNet50圖像編碼器和Transformer文本編碼器,我們的模型可以在ImageNet上實現(xiàn)60.4%的zero-shot top1精度,比CLIP ResNet50高0.8%,同時使用7.1×更少的數(shù)據(jù)。僅使用88M圖像-文本對,我們最好的ResNet50/ViT B32模型將零拍性能提高到62.5%和66.2%,比最好的高出近3.0%這兩種架構(gòu)的報告數(shù)量。我們進(jìn)一步驗證了我們的模型在下游任務(wù)上的可轉(zhuǎn)移性。如圖2所示,我們的DeCLIP-ResNet50在11個視覺數(shù)據(jù)集中有8個優(yōu)于對應(yīng)的數(shù)據(jù)集。此外,擴展模型和計算在我們的框架使用4.5×更少的數(shù)據(jù),我們的DeCLIP-RegNetY-64GF實現(xiàn)了73.7%的zero-shot ImageNet top1精度,與CLIP-R50×64配對。

  1. 據(jù)我們所知,這是首次在百萬尺度圖像文本預(yù)訓(xùn)練任務(wù)中研究自監(jiān)督和跨模式多視角監(jiān)督。我們的工作開辟了一個新的方向,即充分利用多模態(tài)數(shù)據(jù)中的內(nèi)在監(jiān)督,而不是單純地放大數(shù)據(jù)。

  2. 我們提出了一種新的跨模式最近鄰監(jiān)控(NNS)來利用來自其他類似對的信息。神經(jīng)網(wǎng)絡(luò)也可以被視為語義級的擴充。

2. RELATED WORK

預(yù)訓(xùn)練的關(guān)鍵思想是首先從大量數(shù)據(jù)中隱式提取一般知識,然后將知識轉(zhuǎn)移到多個下游任務(wù)中。大型自然語言處理模型通過在互聯(lián)網(wǎng)上學(xué)習(xí)大量語言數(shù)據(jù)和語言本身內(nèi)部的免費監(jiān)督,產(chǎn)生了前所未有的性能。在CV領(lǐng)域,在ImageNet上進(jìn)行有監(jiān)督的預(yù)培訓(xùn)仍然是標(biāo)準(zhǔn)做法。雖然在下游CV任務(wù)上取得了巨大成功,但這種監(jiān)督方式很難擴展。為了應(yīng)對這一挑戰(zhàn),我們的DeCLIP直接從互聯(lián)網(wǎng)上豐富的圖像-文本對中學(xué)習(xí)。更重要的是,通過利用配對內(nèi)的廣泛監(jiān)督,我們的DeCLIP比現(xiàn)有技術(shù)更具數(shù)據(jù)效率。

2.1 SUPERVISION WITHIN DATA

大多數(shù)視覺語言模型使用一組跨模態(tài)transformer來融合和對齊文本和圖像之間的信息。這些方法要么需要現(xiàn)成的對象檢測器來提取區(qū)域特征,要么需要專用的跨模態(tài)轉(zhuǎn)換層,這嚴(yán)重阻礙了它們的可擴展性。相比之下,我們的DeCLIP使用了一個簡單但有效的two-tower框架,僅在頂部具有多模態(tài)交互。此外,這一系列模型可以執(zhí)行zero-shot識別,適應(yīng)沒有可見標(biāo)記數(shù)據(jù)的新類別。預(yù)訓(xùn)練CLIP模型可以顯著地受益于下游VQA和圖像字幕任務(wù)。我們的DeCLIP應(yīng)該與更多模態(tài)兼容,例如聲音信號(Akbari等人,2021)。包括的模態(tài)越多,預(yù)計將利用更多的相關(guān)監(jiān)督

圖4:(a)CLIP和ALIGN聯(lián)合訓(xùn)練圖像編碼器和文本編碼器,以預(yù)測一批(圖像、文本)訓(xùn)練示例的正確配對。(b) 我們的DeCLIP概述。1指自監(jiān)督(SS)。對于圖像SS,我們最大化了兩個增強視圖之間的相似性同一實例。對于文本SS,我們在文本句子中利用掩碼語言建模(MLM)。2表示跨模式多視圖監(jiān)控(MVS)。我們首先有兩個圖像和文本的增強視圖,然后對比2×2圖像-文本對。3表示最近鄰監(jiān)控(NNS)。我們在embedding space中采樣text NN,作為額外的監(jiān)督。這三種監(jiān)督的結(jié)合形成了高效的多模態(tài)學(xué)習(xí)。

3. APPROACH

在本節(jié)中,我們首先回顧了CLIP,并指出了一些基本概念,例如圖像-文本對比監(jiān)督。接下來,我們將概述DeCLIP框架。然后,我們介紹了每種輔助監(jiān)督:自監(jiān)督(SS)、多視圖監(jiān)督(MVS)和最近鄰監(jiān)督(NNS)

對比語言圖像預(yù)訓(xùn)練(CLIP)旨在直接從原始文本中學(xué)習(xí)圖像。它們使用雙編碼器架構(gòu),如圖4(a)所示。該模型由圖像編碼器或ViT和文本編碼器(例如Transformer)或其變體組成,頂部具有多模式交互。圖像和文本特征投影到同一維度,然后在交互之前進(jìn)行L2歸一化。在訓(xùn)練階段,對比目標(biāo)將匹配圖像-文本對的嵌入推到一起,而將非匹配圖像-文本對的嵌入推到分開。在一批N個圖像-文本對中作為圖像和文本的第i對。分別是第i個圖像和第j個文本的歸一化嵌入。CLIP使用InfoNCELoss,圖像編碼器的loss可以表示為。

這里,相似函數(shù)sim通過點積測量,τ是一個可學(xué)習(xí)的溫度變量,用于縮放logit。圖像和文本編碼器是對稱loss,因此整體loss函數(shù)是LI和LT的平均值。


關(guān)于InfoNCEloss的筆記:

1)對比學(xué)習(xí)常用的損失函數(shù)InfoNCE loss和cross entropy loss是否有聯(lián)系?

(2)對比損失InfoNCE loss中有一個溫度系數(shù),其作用是什么?溫度系數(shù)的設(shè)置對效果如何產(chǎn)生影響?

字典大???

  1. 字典越大,key就越多,query去對比key的時候就有可能真的可以學(xué)到可以把物體區(qū)分開的特征
  2. 字典很小的話,模型就很有可能學(xué)到了一個捷徑,從而導(dǎo)致預(yù)訓(xùn)練好的模型不可以很好地去泛化
  3. 關(guān)于一致性,字典里的這些key都應(yīng)該由相同或者相似的編碼器去得到,這樣才能保證去和query對比的時候盡可能的一致

為什么要用隊列?
隊列可以設(shè)置的很大,每次都是一點一點更新隊列,當(dāng)用一個很小的batch_size的時候,現(xiàn)在這個batch的特征進(jìn)入隊列,最老的特征移出隊列,所以隊列的大小可以設(shè)置的很大,因為不是每一個iteration都需要更新的

為什么要用動量法更新?
因為比如當(dāng)前batch是由當(dāng)前的編碼器得到的,而之前的key都是由不同時刻的編碼器去抽取得到的特征,就導(dǎo)致編碼器不一致了

當(dāng)選擇一個較大動量m的時候,θk的更新就很大權(quán)重由上一時刻的θk-1更新而來,更新速度就比較慢了,從而保證了字典里的key都是由相似的編碼器抽取得到的,盡最大可能保證了一致性

假如我們的min-batch=1,所有的key,k1,k2,k3...都是由不同的編碼器產(chǎn)生的,這樣快速改變的編碼器就會降低key之間的一致性

因此MOCO構(gòu)建一個又大又一致的字典,從而無監(jiān)督去學(xué)習(xí)得到一個視覺表征

memory bank把整個數(shù)據(jù)集的特征都存到了一起,做一個線下的抽樣

缺點1.假設(shè)batch為三,第一輪是順序抽樣,都是由不同時刻query更新得到的特征去更新memory bank
缺點2.每一輪epoch中,采樣不同,不同時刻

因此一致性非常的差


3.1 OVERVIEW OF DECLIP

如圖4(b)所示,我們的DeCLIP有三個額外的監(jiān)控信號。

  1. 我們首先使用現(xiàn)有方法在其模式內(nèi)利用圖像和文本自我監(jiān)督(SS)。對于圖像SS,我們采用了簡單而有效的SimSiam。目標(biāo)是最大化兩個增強圖像特征之間的相似性。對于文本SS,我們采用了MLM。

  2. 雖然SS只關(guān)注單一模式,但我們進(jìn)一步提出了跨模式多視圖監(jiān)控(MVS)。我們對圖像和文本應(yīng)用隨機數(shù)據(jù)增強,得到每個示例的兩個相關(guān)視圖1。然后,計算所有2×2對的圖像-文本對比損失。值得一提的是,原始CLIP沒有使用文本增強,僅使用隨機平方裁剪圖像增強,因此需要大量數(shù)據(jù)。這種延伸是本能和直接的。具體來說,我們對比了2×2對,從而增加了3×更多的監(jiān)督。

  3. 我們還提出了在嵌入空間中挖掘的新的最近鄰監(jiān)督(NNS),以更好地利用數(shù)據(jù)集中的相似文本描述。具體來說,我們維護了一個先進(jìn)先出的特征隊列,它代表了整個數(shù)據(jù)分布。我們在嵌入空間中使用最近鄰搜索來獲得語義相似的文本描述。然后,我們使用圖像文本對比損失來獲得額外的監(jiān)督。

3.2 SUPERVISION EXISTS EVERYWHERE

3.2.1 Self-Supervision within each modality

在SimSiam之后的每個模式中的自我監(jiān)督,我們首先對每個圖像有兩個增強視圖(xI,x~I)。這兩個視圖被發(fā)送到圖像編碼器(權(quán)重在視圖之間共享)。我們還使用了推廣的非線性預(yù)測模塊(通常為2層MLP),以提高編碼器中的表示質(zhì)量得到pl。目標(biāo)是最大限度地提高 x~I和pI之間的相似性,計算為負(fù)余弦相似性。為了避免瑣碎的“崩潰”解決方案,我們遵循采用停止梯度技術(shù)。

如圖5(b)所示,我們遵循BERT中的方法進(jìn)行文本自我監(jiān)督。具體來說,我們首先在每個序列中隨機選擇15%的令牌。然后將令牌替換為(1)80%時間的[掩碼]令牌(2)10%時間的隨機令牌(3)10%時間的未更改令牌。然后,使用相應(yīng)令牌的語言模塊的輸出預(yù)測具有交叉熵?fù)p失的原始令牌

3.2.2 Multi-View Supervision

CLIP作者僅將原始文本與原始圖像的單個“全局視圖”進(jìn)行對比。然而,圖像的文本注釋可能不會描述整個圖片,而是描述該圖像的一個小局部視圖。

例如,如圖4中文本為“可愛的白貓”的圖像所示,中心概念(cat)僅占據(jù)圖片的一小部分。

為了緩解這種差異,我們仔細(xì)觀察了局部區(qū)域,并將其用作輔助監(jiān)督,如圖4(b)中的增強視圖所示。這種直觀的想法類似于圖像SSL中成功的多作物轉(zhuǎn)換(Caron等人,2020;Van Gansbeke等人,2021)。我們進(jìn)一步將其擴展到作為ICLR 2022會議論文發(fā)布的多模式5。更具體地說,我們重用SS中引入的兩個圖像視圖,其中包含RandomResizedCrop策略,以獲得較小的局部視圖。

對于文本,由于我們的目標(biāo)是理解句子的整體語義,我們采用文本分類增強EDA來生成兩個文本視圖。

3.2.3 Nearest-Neighbor Supervision

如圖3所示,一幅圖像可能在數(shù)據(jù)集中有其他類似的文本描述。我們建議使用最近鄰(NN)來獲得更多樣化的監(jiān)督。更正式地說,我們的目標(biāo)是在embedding space中找到文本特征zT的NN特征zt0。兩個特征之間的距離可以通過簡單的余弦相似性來測量。搜索NN是不可行的在整個百萬規(guī)模的數(shù)據(jù)集中。因此,我們維護FIFO隊列Q來模擬整個數(shù)據(jù)分布。在我們的實現(xiàn)中,Q的大小是64K。如圖6所示,我們進(jìn)一步得到了(zI,zT0)之間的對比損失。由于有兩個增強的圖像特征,我們還計算了(z?I,zT0)之間的對比損失。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容