色婷婷二区,国产丰满熟女综合专区

近年來，大規(guī)模對比語言圖像預(yù)訓(xùn)練（CLIP）因其令人印象深刻的zero-shot識別能力和良好的下游任務(wù)轉(zhuǎn)移能力而引起了前所未有的關(guān)注。然而，CLIP非常需要數(shù)據(jù)，需要400M圖像-文本對進(jìn)行預(yù)訓(xùn)練。這項工作提出了一種新的訓(xùn)練范式（DeCLIP），以緩解這一限制。我們證明，通過仔細(xì)利用圖像-文本對之間的廣泛監(jiān)督，我們的DeCLIP可以更有效地學(xué)習(xí)通用視覺特征。我們沒有使用單一的圖像-文本對比監(jiān)督，而是通過使用

（1）每個模式內(nèi)的自監(jiān)督來充分利用數(shù)據(jù)潛力；
（2）跨模式的多視角監(jiān)督；
（3）來自其他類似配對的最近鄰監(jiān)督。

得益于這些內(nèi)在監(jiān)督，我們的DeCLIP-ResNet50可以在ImageNet上實現(xiàn)60.4%的zero-shot top1精度，比CLIP-ResNet50高0.8%，同時使用7.1×fewer 的數(shù)據(jù)。當(dāng)轉(zhuǎn)移到下游任務(wù)時，我們的DeCLIP-ResNet50在11個視覺數(shù)據(jù)中有8個更優(yōu)。

首先，每種模式本身都有豐富的結(jié)構(gòu)信息（LeCun和Misra，2021）。我們可以調(diào)整句子/圖像中的一些單詞/像素，同時保留相似的語義?？梢岳眠@種自我監(jiān)督來學(xué)習(xí)每種模式的更多常識表示（Devlin等人，2018；He等人，2020；Chen等人，2020a）。此外，受圖像中對比多種作物的啟發(fā)（Caron等人，2020年），我們進(jìn)一步將多視圖1監(jiān)控擴展到我們的多模態(tài)設(shè)置中。具體來說，每個圖像與通過隨機增強獲得的多個文本描述配對，反之亦然。其優(yōu)點是直觀的：這種輔助多視圖監(jiān)控帶來了更多不變和穩(wěn)健的信息。

除了這些被忽略的監(jiān)督之外，我們還提出了一種新的來自其他相似對的最近鄰監(jiān)督。這種神經(jīng)網(wǎng)絡(luò)監(jiān)督主要基于一種直覺，即一幅圖像可能在數(shù)據(jù)集中有其他類似的文本描述。如右圖所示，帶有文字“’going to see a lot of vintage tractors this week’ 的圖像也可以用“vintage at tractors a gathering”來描述。因此，我們在嵌入空間中對神經(jīng)網(wǎng)絡(luò)進(jìn)行采樣，并將其用作額外的監(jiān)控信號。綜合這些監(jiān)督導(dǎo)致了我們新的訓(xùn)練范式DeCLIP，即數(shù)據(jù)高效的對比語言圖像預(yù)訓(xùn)練

大量實驗表明了我們的DeCLIP的有效性和效率。如圖1所示，使用ResNet50圖像編碼器和Transformer文本編碼器，我們的模型可以在ImageNet上實現(xiàn)60.4%的zero-shot top1精度，比CLIP ResNet50高0.8%，同時使用7.1×更少的數(shù)據(jù)。僅使用88M圖像-文本對，我們最好的ResNet50/ViT B32模型將零拍性能提高到62.5%和66.2%，比最好的高出近3.0%這兩種架構(gòu)的報告數(shù)量。我們進(jìn)一步驗證了我們的模型在下游任務(wù)上的可轉(zhuǎn)移性。如圖2所示，我們的DeCLIP-ResNet50在11個視覺數(shù)據(jù)集中有8個優(yōu)于對應(yīng)的數(shù)據(jù)集。此外，擴展模型和計算在我們的框架使用4.5×更少的數(shù)據(jù)，我們的DeCLIP-RegNetY-64GF實現(xiàn)了73.7%的zero-shot ImageNet top1精度，與CLIP-R50×64配對。

據(jù)我們所知，這是首次在百萬尺度圖像文本預(yù)訓(xùn)練任務(wù)中研究自監(jiān)督和跨模式多視角監(jiān)督。我們的工作開辟了一個新的方向，即充分利用多模態(tài)數(shù)據(jù)中的內(nèi)在監(jiān)督，而不是單純地放大數(shù)據(jù)。
我們提出了一種新的跨模式最近鄰監(jiān)控（NNS）來利用來自其他類似對的信息。神經(jīng)網(wǎng)絡(luò)也可以被視為語義級的擴充。

2. RELATED WORK

預(yù)訓(xùn)練的關(guān)鍵思想是首先從大量數(shù)據(jù)中隱式提取一般知識，然后將知識轉(zhuǎn)移到多個下游任務(wù)中。大型自然語言處理模型通過在互聯(lián)網(wǎng)上學(xué)習(xí)大量語言數(shù)據(jù)和語言本身內(nèi)部的免費監(jiān)督，產(chǎn)生了前所未有的性能。在CV領(lǐng)域，在ImageNet上進(jìn)行有監(jiān)督的預(yù)培訓(xùn)仍然是標(biāo)準(zhǔn)做法。雖然在下游CV任務(wù)上取得了巨大成功，但這種監(jiān)督方式很難擴展。為了應(yīng)對這一挑戰(zhàn)，我們的DeCLIP直接從互聯(lián)網(wǎng)上豐富的圖像-文本對中學(xué)習(xí)。更重要的是，通過利用配對內(nèi)的廣泛監(jiān)督，我們的DeCLIP比現(xiàn)有技術(shù)更具數(shù)據(jù)效率。

2.1 SUPERVISION WITHIN DATA

大多數(shù)視覺語言模型使用一組跨模態(tài)transformer來融合和對齊文本和圖像之間的信息。這些方法要么需要現(xiàn)成的對象檢測器來提取區(qū)域特征，要么需要專用的跨模態(tài)轉(zhuǎn)換層，這嚴(yán)重阻礙了它們的可擴展性。相比之下，我們的DeCLIP使用了一個簡單但有效的two-tower框架，僅在頂部具有多模態(tài)交互。此外，這一系列模型可以執(zhí)行zero-shot識別，適應(yīng)沒有可見標(biāo)記數(shù)據(jù)的新類別。預(yù)訓(xùn)練CLIP模型可以顯著地受益于下游VQA和圖像字幕任務(wù)。我們的DeCLIP應(yīng)該與更多模態(tài)兼容，例如聲音信號（Akbari等人，2021）。包括的模態(tài)越多，預(yù)計將利用更多的相關(guān)監(jiān)督

圖4：（a）CLIP和ALIGN聯(lián)合訓(xùn)練圖像編碼器和文本編碼器，以預(yù)測一批（圖像、文本）訓(xùn)練示例的正確配對。（b）我們的DeCLIP概述。1指自監(jiān)督（SS）。對于圖像SS，我們最大化了兩個增強視圖之間的相似性同一實例。對于文本SS，我們在文本句子中利用掩碼語言建模（MLM）。2表示跨模式多視圖監(jiān)控（MVS）。我們首先有兩個圖像和文本的增強視圖，然后對比2×2圖像-文本對。3表示最近鄰監(jiān)控（NNS）。我們在embedding space中采樣text NN，作為額外的監(jiān)督。這三種監(jiān)督的結(jié)合形成了高效的多模態(tài)學(xué)習(xí)。

3. APPROACH

在本節(jié)中，我們首先回顧了CLIP，并指出了一些基本概念，例如圖像-文本對比監(jiān)督。接下來，我們將概述DeCLIP框架。然后，我們介紹了每種輔助監(jiān)督：自監(jiān)督（SS）、多視圖監(jiān)督（MVS）和最近鄰監(jiān)督（NNS）

對比語言圖像預(yù)訓(xùn)練（CLIP）旨在直接從原始文本中學(xué)習(xí)圖像。它們使用雙編碼器架構(gòu)，如圖4（a）所示。該模型由圖像編碼器或ViT和文本編碼器（例如Transformer）或其變體組成，頂部具有多模式交互。圖像和文本特征投影到同一維度，然后在交互之前進(jìn)行L2歸一化。在訓(xùn)練階段，對比目標(biāo)將匹配圖像-文本對的嵌入推到一起，而將非匹配圖像-文本對的嵌入推到分開。在一批N個圖像-文本對中作為圖像和文本的第i對。分別是第i個圖像和第j個文本的歸一化嵌入。CLIP使用InfoNCELoss，圖像編碼器的loss可以表示為。

這里，相似函數(shù)sim通過點積測量，τ是一個可學(xué)習(xí)的溫度變量，用于縮放logit。圖像和文本編碼器是對稱loss，因此整體loss函數(shù)是LI和LT的平均值。

關(guān)于InfoNCEloss的筆記：

1）對比學(xué)習(xí)常用的損失函數(shù)InfoNCE loss和cross entropy loss是否有聯(lián)系？

（2）對比損失InfoNCE loss中有一個溫度系數(shù)，其作用是什么？溫度系數(shù)的設(shè)置對效果如何產(chǎn)生影響？

字典大??？

字典越大，key就越多，query去對比key的時候就有可能真的可以學(xué)到可以把物體區(qū)分開的特征
字典很小的話，模型就很有可能學(xué)到了一個捷徑，從而導(dǎo)致預(yù)訓(xùn)練好的模型不可以很好地去泛化
關(guān)于一致性，字典里的這些key都應(yīng)該由相同或者相似的編碼器去得到，這樣才能保證去和query對比的時候盡可能的一致

為什么要用隊列？
隊列可以設(shè)置的很大，每次都是一點一點更新隊列，當(dāng)用一個很小的batch_size的時候，現(xiàn)在這個batch的特征進(jìn)入隊列，最老的特征移出隊列，所以隊列的大小可以設(shè)置的很大，因為不是每一個iteration都需要更新的

為什么要用動量法更新？
因為比如當(dāng)前batch是由當(dāng)前的編碼器得到的，而之前的key都是由不同時刻的編碼器去抽取得到的特征，就導(dǎo)致編碼器不一致了

當(dāng)選擇一個較大動量m的時候，θk的更新就很大權(quán)重由上一時刻的θk-1更新而來，更新速度就比較慢了，從而保證了字典里的key都是由相似的編碼器抽取得到的，盡最大可能保證了一致性

假如我們的min-batch=1，所有的key，k1,k2,k3...都是由不同的編碼器產(chǎn)生的，這樣快速改變的編碼器就會降低key之間的一致性

因此MOCO構(gòu)建一個又大又一致的字典，從而無監(jiān)督去學(xué)習(xí)得到一個視覺表征

memory bank把整個數(shù)據(jù)集的特征都存到了一起，做一個線下的抽樣

缺點1.假設(shè)batch為三，第一輪是順序抽樣，都是由不同時刻query更新得到的特征去更新memory bank
缺點2.每一輪epoch中，采樣不同，不同時刻

因此一致性非常的差

3.1 OVERVIEW OF DECLIP

如圖4（b）所示，我們的DeCLIP有三個額外的監(jiān)控信號。

我們首先使用現(xiàn)有方法在其模式內(nèi)利用圖像和文本自我監(jiān)督（SS）。對于圖像SS，我們采用了簡單而有效的SimSiam。目標(biāo)是最大化兩個增強圖像特征之間的相似性。對于文本SS，我們采用了MLM。
雖然SS只關(guān)注單一模式，但我們進(jìn)一步提出了跨模式多視圖監(jiān)控（MVS）。我們對圖像和文本應(yīng)用隨機數(shù)據(jù)增強，得到每個示例的兩個相關(guān)視圖1。然后，計算所有2×2對的圖像-文本對比損失。值得一提的是，原始CLIP沒有使用文本增強，僅使用隨機平方裁剪圖像增強，因此需要大量數(shù)據(jù)。這種延伸是本能和直接的。具體來說，我們對比了2×2對，從而增加了3×更多的監(jiān)督。
我們還提出了在嵌入空間中挖掘的新的最近鄰監(jiān)督（NNS），以更好地利用數(shù)據(jù)集中的相似文本描述。具體來說，我們維護了一個先進(jìn)先出的特征隊列，它代表了整個數(shù)據(jù)分布。我們在嵌入空間中使用最近鄰搜索來獲得語義相似的文本描述。然后，我們使用圖像文本對比損失來獲得額外的監(jiān)督。

3.2 SUPERVISION EXISTS EVERYWHERE

3.2.1 Self-Supervision within each modality

在SimSiam之后的每個模式中的自我監(jiān)督，我們首先對每個圖像有兩個增強視圖（xI，x~I）。這兩個視圖被發(fā)送到圖像編碼器（權(quán)重在視圖之間共享）。我們還使用了推廣的非線性預(yù)測模塊（通常為2層MLP），以提高編碼器中的表示質(zhì)量得到pl。目標(biāo)是最大限度地提高 x~I和pI之間的相似性，計算為負(fù)余弦相似性。為了避免瑣碎的“崩潰”解決方案，我們遵循采用停止梯度技術(shù)。

如圖5（b）所示，我們遵循BERT中的方法進(jìn)行文本自我監(jiān)督。具體來說，我們首先在每個序列中隨機選擇15%的令牌。然后將令牌替換為（1）80%時間的[掩碼]令牌（2）10%時間的隨機令牌（3）10%時間的未更改令牌。然后，使用相應(yīng)令牌的語言模塊的輸出預(yù)測具有交叉熵?fù)p失的原始令牌

3.2.2 Multi-View Supervision

CLIP作者僅將原始文本與原始圖像的單個“全局視圖”進(jìn)行對比。然而，圖像的文本注釋可能不會描述整個圖片，而是描述該圖像的一個小局部視圖。

例如，如圖4中文本為“可愛的白貓”的圖像所示，中心概念（cat）僅占據(jù)圖片的一小部分。

為了緩解這種差異，我們仔細(xì)觀察了局部區(qū)域，并將其用作輔助監(jiān)督，如圖4（b）中的增強視圖所示。這種直觀的想法類似于圖像SSL中成功的多作物轉(zhuǎn)換（Caron等人，2020；Van Gansbeke等人，2021）。我們進(jìn)一步將其擴展到作為ICLR 2022會議論文發(fā)布的多模式5。更具體地說，我們重用SS中引入的兩個圖像視圖，其中包含RandomResizedCrop策略，以獲得較小的局部視圖。

對于文本，由于我們的目標(biāo)是理解句子的整體語義，我們采用文本分類增強EDA來生成兩個文本視圖。

3.2.3 Nearest-Neighbor Supervision

如圖3所示，一幅圖像可能在數(shù)據(jù)集中有其他類似的文本描述。我們建議使用最近鄰（NN）來獲得更多樣化的監(jiān)督。更正式地說，我們的目標(biāo)是在embedding space中找到文本特征zT的NN特征zt0。兩個特征之間的距離可以通過簡單的余弦相似性來測量。搜索NN是不可行的在整個百萬規(guī)模的數(shù)據(jù)集中。因此，我們維護FIFO隊列Q來模擬整個數(shù)據(jù)分布。在我們的實現(xiàn)中，Q的大小是64K。如圖6所示，我們進(jìn)一步得到了（zI，zT0）之間的對比損失。由于有兩個增強的圖像特征，我們還計算了（z?I，zT0）之間的對比損失。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM

SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM

2. RELATED WORK

2.1 SUPERVISION WITHIN DATA

3. APPROACH

3.1 OVERVIEW OF DECLIP

3.2 SUPERVISION EXISTS EVERYWHERE

3.2.1 Self-Supervision within each modality

3.2.2 Multi-View Supervision

3.2.3 Nearest-Neighbor Supervision

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM

2. RELATED WORK

2.1 SUPERVISION WITHIN DATA

3. APPROACH

3.1 OVERVIEW OF DECLIP

3.2 SUPERVISION EXISTS EVERYWHERE

3.2.1 Self-Supervision within each modality

3.2.2 Multi-View Supervision

3.2.3 Nearest-Neighbor Supervision

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av