ECCV2022 Oral | MaskCLIP

<section data-tool="mdnice編輯器" data-website="https://www.mdnice.com" style="font-size: 16px; color: black; padding-right: 10px; padding-left: 10px; line-height: 1.6; letter-spacing: 0px; word-break: break-word; text-align: left; font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif; visibility: visible;" data-mpa-powered-by="yiban.io"><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">ECCV2022 Oral | MaskCLIP</span><span style="visibility: visible;"></span></h1><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">【寫在前面】</span><span style="visibility: visible;"></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">對比語言圖像預訓練(CLIP)在開放詞匯零樣本圖像識別方面取得了顯著突破。許多最近的研究利用預訓練的 CLIP 模型進行圖像級分類和操作。在本文中,作者希望檢驗 CLIP 在像素級密集預測方面的內(nèi)在潛力,特別是在語義分割方面。為此,作者通過最少的修改展示了 MaskCLIP 在沒有注釋和微調(diào)的情況下,在跨各種數(shù)據(jù)集的開放概念上產(chǎn)生了令人信服的分割結(jié)果。通過添加偽標簽和自訓練,MaskCLIP+ 大大超過了 SOTA 轉(zhuǎn)導零樣本語義分割方法,例如,PASCAL VOC/PASCAL Context/COCO Stuff 上未見類的 mIoU 從 35.6/20.7/30.3 提高到 86.1/66.7 /54.7。作者還測試了 MaskCLIP 在輸入損壞下的魯棒性,并評估了它在區(qū)分細粒度對象和新概念方面的能力。本文的發(fā)現(xiàn)表明,MaskCLIP 可以作為密集預測任務(wù)的新可靠監(jiān)督來源,以實現(xiàn)無注釋分割。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">1. 論文和代碼地址</span><span style="visibility: visible;"></span></h1><figure data-tool="mdnice編輯器" style="margin-top: 10px; margin-bottom: 10px; display: flex; flex-direction: column; justify-content: center; align-items: center; visibility: visible;"><img class="rich_pages wxw-img" data-ratio="0.38934426229508196" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJLRMeIhl1VmNpdibpXXHiamSJcmHoqENUUSbyia3fUzcHxpZcD0wpq36ew/640?wx_fmt=png" data-type="png" data-w="488" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 488px !important;" data-index="1" data-origin-display="block" width="488px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-8868094dc0187654.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">Extract Free Dense Labels from CLIP</p><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">論文地址:<span style="color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">https://arxiv.org/abs/2112.01071</span><sup style="line-height: 0; color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">[1]</p><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">代碼地址:<span style="color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">https://github.com/chongzhou96/MaskCLIP</span><sup style="line-height: 0; color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">[2]</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">2. 動機</span><span style="visibility: visible;"></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">諸如 CLIP之類的大規(guī)模視覺語言預訓練模型捕獲富有表現(xiàn)力的視覺和語言特征。各種下游視覺任務(wù),例如文本驅(qū)動的圖像處理、圖像字幕、視圖合成和對象檢測,都試圖利用這些特征來提高通用性和魯棒性。例如,基于原始 CLIP 特征進行零樣本圖像分類會導致一種與完全監(jiān)督對應(yīng)物的性能相匹配的競爭方法。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在本文中,作者進一步探索了 CLIP 特征在語義分割等像素級密集預測任務(wù)中的適用性。這項調(diào)查是有意義的,因為以前的研究主要利用 CLIP 特征作為全局圖像表示。相比之下,<strong>本文的探索希望確定 CLIP 特征在封裝對象級和局部語義以進行密集預測的程度</strong>。與對標志性圖像進行圖像分類的傳統(tǒng)預訓練任務(wù)不同,CLIP 從復雜場景的圖像及其自然語言描述中學習,這(1)<strong>鼓勵它將局部圖像語義嵌入其特征中</strong>,(2)<strong>使其能夠?qū)W習開放詞匯表中的概念</strong>,以及(3)<strong>捕獲豐富的上下文信息,例如某些對象的共現(xiàn)/關(guān)系和空間位置的先驗</strong>。作者相信所有這些優(yōu)點都極大地促進了其在密集預測任務(wù)中的潛力。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在本文中,總結(jié)了利用 CLIP 特征進行密集預測的成功和失敗經(jīng)驗。作者發(fā)現(xiàn)不破壞原始 CLIP 特征空間中的視覺語言關(guān)聯(lián)至關(guān)重要。在本文早期的探索中,作者在嘗試微調(diào) CLIP 的圖像編碼器以進行分割任務(wù)時遇到了失敗,例如,使用 CLIP 的圖像編碼器的權(quán)重初始化 DeepLab并微調(diào)分割的主干。此外,作者發(fā)現(xiàn)避免任何不必要的嘗試操縱 CLIP 的文本嵌入是至關(guān)重要的。這種方法在分割看不見的類時會失敗。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在名為 MaskCLIP 的成功模型中,作者展示了可以簡單地從 CLIP 的圖像編碼器中提取密集的patch級特征,即最后一個注意層的值特征,而不會破壞視覺語言關(guān)聯(lián)。密集預測的分類權(quán)重,本質(zhì)上是 1×1 卷積,可以直接從 CLIP 文本編碼器的文本嵌入中獲得,無需任何刻意的映射。在實證研究中,MaskCLIP 在通過 mIoU 度量和定性結(jié)果測量的定量性能方面產(chǎn)生了合理的預測。此外,MaskCLIP 可以基于 CLIP 的所有變體,包括 ResNets 和 ViTs。作者提供了兩個流行的骨干網(wǎng)絡(luò)之間的并排比較。作者還為 MaskCLIP 提出了兩種掩碼細化技術(shù)以進一步提高其性能,即<strong>key smoothing</strong>和<strong>prompt denoising</strong>,兩者都不需要訓練。具體來說,鍵平滑(key smoothing)計算不同塊的鍵特征(最后一個注意層)之間的相似性,用于平滑預測。提示去噪(prompt denoising)去除了圖像中不太可能存在的類別的提示,因此干擾更少,預測變得更準確。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">然而,MaskCLIP 的分割能力很難進一步提高,因為它的架構(gòu)僅限于 CLIP 的圖像編碼器。為了從架構(gòu)約束中放松 MaskCLIP 并結(jié)合更高級的架構(gòu),例如 PSPNet和 DeepLab,作者注意到,可以在訓練時部署它,而不是在推理時部署 MaskCLIP,它用作提供高質(zhì)量偽標簽的通用且穩(wěn)健的注釋器。與標準的自訓練策略一起生成的模型,稱為 MaskCLIP+,實現(xiàn)了驚人的性能。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.47692307692307695" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJczjNDGKTM3RkkwPcqUTwyTrXGzUDCt5diaCNUAUDjgYib2iakuo8OPnTQ/640?wx_fmt=png" data-type="png" data-w="715" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="2" data-origin-display="block" width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-48a975056729b734.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">除了無注釋和開放詞匯分割之外,MaskCLIP+ 還可以應(yīng)用于零樣本語義分割任務(wù),其中 MaskCLIP 只為看不見的類生成偽標簽。在三個標準分割基準上,即 PASCAL VOC 、PASCAL Context 和 COCO Stuff,MaskCLIP+ 在未見類的 mIoU 方面將最先進的結(jié)果提高了50.5%,46% 和 24.4%(35.6 → 86.1、20.7 → 66.7 和 30.3 → 54.7)。由于 CLIP 特征的通用性和魯棒性,MaskCLIP+ 可以很容易地應(yīng)用于語義分割的各種擴展設(shè)置,包括細粒度類(例如,白色汽車和紅色巴士等屬性條件類)或新概念(例如蝙蝠俠和小丑如上圖所示),以及中度損壞輸入的分割。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">語義分割因其對標記訓練數(shù)據(jù)的高度依賴而被限制。已經(jīng)探索了許多方法來繞過這種嚴格的要求,例如,通過使用圖像標簽、邊界框和涂鴉等弱標簽。本文的研究首次表明,通過大規(guī)模視覺語言預訓練學習的特征可以很容易地用于促進開放詞匯密集預測。所提出的模型 MaskCLIP 在為訓練現(xiàn)有方法提供豐富且有意義的密集偽標簽方面顯示出巨大的潛力。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>3. 方法</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">本文的研究是探索 CLIP 特征對像素級密集預測任務(wù)的適用性的早期嘗試。作者首先簡要介紹 CLIP 和一個簡單的解決方案作為初步,然后詳細介紹提議的 MaskCLIP。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.1 Preliminary on CLIP</span><span></span></h2><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">CLIP是一種視覺語言預訓練方法,它從大規(guī)模的原始網(wǎng)絡(luò)策劃的圖像-文本對中學習視覺和語言表示。它由一個圖像編碼器 <span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{V}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1714 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 3.878ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="56" d="M25 633Q25 647 47 665T100 683Q291 683 291 306Q291 264 288 213T282 132L279 102Q281 102 308 126T378 191T464 279T545 381T596 479Q600 490 600 502Q600 527 581 550T523 577Q505 577 505 601Q505 622 516 647T542 681Q546 683 558 683Q605 679 631 645T658 559Q658 423 487 215Q409 126 308 37T190 -52Q177 -52 177 -28Q177 -26 183 15T196 127T203 270Q203 356 192 421T165 523T126 583T83 613T41 620Q25 620 25 633Z"></path></g></g><g data-mml-node="mo" transform="translate(658, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1047, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1325, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>和一個文本編碼器<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{T}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1889 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.274ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="54" d="M49 475Q34 475 34 490Q34 552 106 611T261 681Q272 683 507 683H742Q790 717 816 717Q833 717 833 708Q833 682 795 653T714 615Q691 610 588 609Q490 609 490 607L483 580Q476 554 462 496T435 392Q410 289 395 231T363 116T335 34T309 -15T279 -47T242 -64Q231 -68 218 -68Q203 -68 203 -57Q203 -52 211 -38Q224 -7 234 20T251 66T268 123T283 179T304 261T328 360Q342 415 360 488Q380 567 384 582T397 605Q400 607 401 609H302H244Q200 609 188 607T167 596Q145 572 145 541Q145 520 109 498T49 475Z"></path></g></g><g data-mml-node="mo" transform="translate(833, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1222, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1500, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>組成,兩者聯(lián)合訓練以分別將輸入圖像和文本映射到一個統(tǒng)一的表示空間中。CLIP采用對比學習作為其訓練目標,將ground-truth圖文對視為正樣本,將不匹配的圖文對構(gòu)造為負樣本。在實踐中,文本編碼器被實現(xiàn)為 Transformer。至于圖像編碼器,CLIP 提供了兩種替代實現(xiàn),即 Transformer 和具有全局注意力池化層的 ResNet。本文的方法可以基于兩種編碼器架構(gòu)。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者認為 CLIP 在學習將圖像內(nèi)容與自然語言描述相關(guān)聯(lián)時,在其特征中固有地嵌入了局部圖像語義,后者包含跨多個粒度的復雜而密集的語義指導。例如,為了正確識別圖像對應(yīng)于當裁判看著時擊球手準備揮桿的描述,CLIP 必須將圖像語義劃分為局部片段,并將圖像語義與單個提到的概念(如人)正確對齊, bat, swing, patch, man at bat, man at patch 和 man ready to swing,而不是將圖像作為一個整體來處理。這種獨特性在僅使用圖像標簽的訓練中是不存在的。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.2 Conventional Fine-Tuning Hinders Zero-Shot Ability</span><span></span></h2><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">當前訓練分割網(wǎng)絡(luò)的實際管道是(1)使用 ImageNet 預訓練的權(quán)重初始化主干網(wǎng)絡(luò),(2)添加具有隨機初始化權(quán)重的特定于分割的網(wǎng)絡(luò)模塊,以及(3)聯(lián)合微調(diào)調(diào)整主干和新添加的模塊。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">遵循這些標準步驟來調(diào)整 CLIP 進行分割是很自然的。在這里,作者通過在 DeepLab上應(yīng)用這個管道和兩個特定于 CLIP 的修改來開始本文的探索。具體來說,作者首先將 ImageNet 預訓練的權(quán)重替換為 CLIP 圖像編碼器的權(quán)重。其次,采用映射器 M 將 CLIP 的文本嵌入映射到 DeepLab 分類器(最后一個 1×1 卷積層)的權(quán)重。修改后的模型可以表述如下:</p><span style="cursor:pointer;" data-tool="mdnice編輯器"><section role="presentation" data-formula="\begin{aligned} \operatorname{DeepLab}(x) &=\mathcal{C}{\phi}\left(\mathcal{H}\left(\mathcal{V}{* l}(x)\right)\right), \ \phi &=\mathcal{M}(t), \end{aligned}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -2.087ex;width: 29.021ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0I9y2piciaPeyaQ00ajSTcJHJzjssx98awL3V101Mgre5IOaawbMicia4Zppq576VLaJTic/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">其中<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{V}{* l}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2283.3 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 5.166ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="56" d="M25 633Q25 647 47 665T100 683Q291 683 291 306Q291 264 288 213T282 132L279 102Q281 102 308 126T378 191T464 279T545 381T596 479Q600 490 600 502Q600 527 581 550T523 577Q505 577 505 601Q505 622 516 647T542 681Q546 683 558 683Q605 679 631 645T658 559Q658 423 487 215Q409 126 308 37T190 -52Q177 -52 177 -28Q177 -26 183 15T196 127T203 270Q203 356 192 421T165 523T126 583T83 613T41 620Q25 620 25 633Z"></path></g></g><g data-mml-node="TeXAtom" transform="translate(613, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mo"><path data-c="2217" d="M229 286Q216 420 216 436Q216 454 240 464Q241 464 245 464T251 465Q263 464 273 456T283 436Q283 419 277 356T270 286L328 328Q384 369 389 372T399 375Q412 375 423 365T435 338Q435 325 425 315Q420 312 357 282T289 250L355 219L425 184Q434 175 434 161Q434 146 425 136T401 125Q393 125 383 131T328 171L270 213Q283 79 283 63Q283 53 276 44T250 35Q231 35 224 44T216 63Q216 80 222 143T229 213L171 171Q115 130 110 127Q106 124 100 124Q87 124 76 134T64 161Q64 166 64 169T67 175T72 181T81 188T94 195T113 204T138 215T170 230T210 250L74 315Q65 324 65 338Q65 353 74 363T98 374Q106 374 116 368T171 328L229 286Z"></path></g><g data-mml-node="mi" transform="translate(500, 0)"><path data-c="6C" d="M117 59Q117 26 142 26Q179 26 205 131Q211 151 215 152Q217 153 225 153H229Q238 153 241 153T246 151T248 144Q247 138 245 128T234 90T214 43T183 6T137 -11Q101 -11 70 11T38 85Q38 97 39 102L104 360Q167 615 167 623Q167 626 166 628T162 632T157 634T149 635T141 636T132 637T122 637Q112 637 109 637T101 638T95 641T94 647Q94 649 96 661Q101 680 107 682T179 688Q194 689 213 690T243 693T254 694Q266 694 266 686Q266 675 193 386T118 83Q118 81 118 75T117 65V59Z"></path></g></g></g><g data-mml-node="mo" transform="translate(1227.3, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1616.3, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1894.3, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>表示 DeepLab 主干,它是一個擴大了 l 倍的 ResNet。<span style="cursor:pointer;"><span role="presentation" data-formula=" H(·) " data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1944 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.398ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="48" d="M228 637Q194 637 192 641Q191 643 191 649Q191 673 202 682Q204 683 219 683Q260 681 355 681Q389 681 418 681T463 682T483 682Q499 682 499 672Q499 670 497 658Q492 641 487 638H485Q483 638 480 638T473 638T464 637T455 637Q416 636 405 634T387 623Q384 619 355 500Q348 474 340 442T328 395L324 380Q324 378 469 378H614L615 381Q615 384 646 504Q674 619 674 627T617 637Q594 637 587 639T580 648Q580 650 582 660Q586 677 588 679T604 682Q609 682 646 681T740 680Q802 680 835 681T871 682Q888 682 888 672Q888 645 876 638H874Q872 638 869 638T862 638T853 637T844 637Q805 636 794 634T776 623Q773 618 704 340T634 58Q634 51 638 51Q646 48 692 46H723Q729 38 729 37T726 19Q722 6 716 0H701Q664 2 567 2Q533 2 504 2T458 2T437 1Q420 1 420 10Q420 15 423 24Q428 43 433 45Q437 46 448 46H454Q481 46 514 49Q520 50 522 50T528 55T534 64T540 82T547 110T558 153Q565 181 569 198Q602 330 602 331T457 332H312L279 197Q245 63 245 58Q245 51 253 49T303 46H334Q340 38 340 37T337 19Q333 6 327 0H312Q275 2 178 2Q144 2 115 2T69 2T48 1Q31 1 31 10Q31 12 34 24Q39 43 44 45Q48 46 59 46H65Q92 46 125 49Q139 52 144 61Q147 65 216 339T285 628Q285 635 228 637Z"></path></g><g data-mml-node="mo" transform="translate(888, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1277, 0)"><path data-c="B7" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1555, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>表示隨機初始化的ASPP模塊,<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{C}{\phi}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2054.4 1045" aria-hidden="true" style="vertical-align: -0.667ex;width: 4.648ex;height: 2.364ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="43" d="M201 -25Q167 -25 136 -14T75 23T29 94T12 202Q12 290 50 394T161 574Q227 642 303 673T433 704Q435 705 457 705Q533 701 533 640Q533 606 507 548T464 474Q431 444 396 444Q381 444 381 453Q381 459 388 473T407 513T428 563Q433 580 433 594Q433 636 381 636Q314 636 260 594T175 489T128 363T112 247Q112 157 153 101T273 44Q347 44 398 121Q413 144 437 157T481 171Q496 171 496 160Q496 150 476 123Q426 56 350 16T201 -25Z"></path></g></g><g data-mml-node="TeXAtom" transform="translate(527, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="3D5" d="M409 688Q413 694 421 694H429H442Q448 688 448 686Q448 679 418 563Q411 535 404 504T392 458L388 442Q388 441 397 441T429 435T477 418Q521 397 550 357T579 260T548 151T471 65T374 11T279 -10H275L251 -105Q245 -128 238 -160Q230 -192 227 -198T215 -205H209Q189 -205 189 -198Q189 -193 211 -103L234 -11Q234 -10 226 -10Q221 -10 206 -8T161 6T107 36T62 89T43 171Q43 231 76 284T157 370T254 422T342 441Q347 441 348 445L378 567Q409 686 409 688ZM122 150Q122 116 134 91T167 53T203 35T237 27H244L337 404Q333 404 326 403T297 395T255 379T211 350T170 304Q152 276 137 237Q122 191 122 150ZM500 282Q500 320 484 347T444 385T405 400T381 404H378L332 217L284 29Q284 27 285 27Q293 27 317 33T357 47Q400 66 431 100T475 170T494 234T500 282Z"></path></g></g></g><g data-mml-node="mo" transform="translate(998.4, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1387.4, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1665.4, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>是DeepLab分類器,其權(quán)重記為<span style="cursor:pointer;"><span role="presentation" data-formula="\phi" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 596 899" aria-hidden="true" style="vertical-align: -0.464ex;width: 1.348ex;height: 2.034ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="3D5" d="M409 688Q413 694 421 694H429H442Q448 688 448 686Q448 679 418 563Q411 535 404 504T392 458L388 442Q388 441 397 441T429 435T477 418Q521 397 550 357T579 260T548 151T471 65T374 11T279 -10H275L251 -105Q245 -128 238 -160Q230 -192 227 -198T215 -205H209Q189 -205 189 -198Q189 -193 211 -103L234 -11Q234 -10 226 -10Q221 -10 206 -8T161 6T107 36T62 89T43 171Q43 231 76 284T157 370T254 422T342 441Q347 441 348 445L378 567Q409 686 409 688ZM122 150Q122 116 134 91T167 53T203 35T237 27H244L337 404Q333 404 326 403T297 395T255 379T211 350T170 304Q152 276 137 237Q122 191 122 150ZM500 282Q500 320 484 347T444 385T405 400T381 404H378L332 217L284 29Q284 27 285 27Q293 27 317 33T357 47Q400 66 431 100T475 170T494 234T500 282Z"></path></g></g></g></svg></span></span>,由CLIP的文本嵌入通過映射器M確定。理想情況下,通過更新分類器權(quán)重與相應(yīng)的文本嵌入,適應(yīng)的 DeepLab 能夠在不重新訓練的情況下分割不同的類。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">為了評估這個修改后的 DeepLab 在可見和不可見類上的分割性能,作者在數(shù)據(jù)集中的一個類子集上對其進行訓練,將其余類視為不可見類。作者已經(jīng)嘗試了一系列映射器架構(gòu)。盡管它們在可見類上表現(xiàn)良好,但在所有這些情況下,修改后的 DeepLab 都未能以令人滿意的性能分割不可見的類。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者假設(shè)這主要是因為 CLIP 特征的原始視覺語言關(guān)聯(lián)已被打破:(1)<strong>主干在網(wǎng)絡(luò)架構(gòu)方面與圖像編碼器略有不同</strong>; (2) <strong>從圖像編碼器初始化的權(quán)重在微調(diào)期間已經(jīng)更新</strong>; (3)** 引入了一個額外的映射器,它僅在所見類的數(shù)據(jù)上進行訓練,因此導致通用性不足**。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.3 MaskCLIP</span><span></span></h2><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.6507042253521127" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJaKWTuK4PNWtFCnSPqx2B9P8ibQN53nhOJjj6vxtUAyuicF7cXlPxpKKA/640?wx_fmt=png" data-type="png" data-w="710" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="3" data-origin-display="block" width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-6dae1489be1ce4e8.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">微調(diào)嘗試失敗,作者轉(zhuǎn)向避免引入額外參數(shù)和修改 CLIP 特征空間的解決方案。為此,重新審視了 CLIP 的圖像編碼器,尤其是其獨特的全局注意力池化層。如上圖(b) 所示,與傳統(tǒng)的全局平均池化不同,CLIP 的圖像編碼器采用 Transformer 式的多頭注意力層,其中全局平均池化的特征作為查詢,每個空間位置的特征生成一個 key-value對。因此,該層的輸出是輸入特征圖的空間加權(quán)和,然后是線性層 <span style="cursor:pointer;"><span role="presentation" data-formula="F(·)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1805 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.084ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="46" d="M48 1Q31 1 31 11Q31 13 34 25Q38 41 42 43T65 46Q92 46 125 49Q139 52 144 61Q146 66 215 342T285 622Q285 629 281 629Q273 632 228 634H197Q191 640 191 642T193 659Q197 676 203 680H742Q749 676 749 669Q749 664 736 557T722 447Q720 440 702 440H690Q683 445 683 453Q683 454 686 477T689 530Q689 560 682 579T663 610T626 626T575 633T503 634H480Q398 633 393 631Q388 629 386 623Q385 622 352 492L320 363H375Q378 363 398 363T426 364T448 367T472 374T489 386Q502 398 511 419T524 457T529 475Q532 480 548 480H560Q567 475 567 470Q567 467 536 339T502 207Q500 200 482 200H470Q463 206 463 212Q463 215 468 234T473 274Q473 303 453 310T364 317H309L277 190Q245 66 245 60Q245 46 334 46H359Q365 40 365 39T363 19Q359 6 353 0H336Q295 2 185 2Q120 2 86 2T48 1Z"></path></g><g data-mml-node="mo" transform="translate(749, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1138, 0)"><path data-c="B7" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1416, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>:</p><span style="cursor:pointer;" data-tool="mdnice編輯器"><section role="presentation" data-formula="\begin{aligned} \operatorname{AttnPool}(\bar{q}, k, v) &=\mathcal{F}\left(\sum{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) v_{i}\right) \ &=\sum_{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) \mathcal{F}\left(v_{i}\right), \ \bar{q}=\operatorname{Emb}{\mathrm{q}}(\bar{x}), k{i} &=\operatorname{Emb}{\mathrm{k}}\left(x{i}\right), v_{i}=\operatorname{Emb}{\mathrm{v}}\left(x{i}\right), \end{aligned}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -8.071ex;width: 46.686ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0If8h11MQHZEmmjGWBgxDxDHt8gpQbayX7Tx86JliboiaHKzyS1x5ibSgG3HEMkU0YKxL/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">其中 C 是一個常數(shù)比例因子,而 Emb(·) 表示一個線性嵌入層。<span style="cursor:pointer;"><span role="presentation" data-formula="x_{i}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -442 866 599.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.959ex;height: 1.357ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="TeXAtom" transform="translate(572, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></g></svg></span></span>表示空間位置 i 的輸入特征,<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{x}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 572 659" aria-hidden="true" style="vertical-align: -0.025ex;width: 1.294ex;height: 1.491ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="mo" transform="translate(63.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>是所有<span style="cursor:pointer;"><span role="presentation" data-formula="x_{i}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -442 866 599.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.959ex;height: 1.357ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="TeXAtom" transform="translate(572, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></g></svg></span></span>的平均值。 Transformer 層的輸出作為整個圖像的綜合表示。作者認為這是可能的,因為在每個空間位置計算的<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{F}\left(v_{i}\right)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2386 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 5.398ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="46" d="M199 579Q181 579 181 590Q181 598 188 611T212 639T260 666T335 682Q336 682 349 682T383 682T431 682T493 683T561 683Q776 682 784 681Q826 673 829 647Q829 620 797 600T744 580Q728 580 728 595Q729 607 713 610Q698 613 598 614H500L499 610Q499 598 467 486T428 367Q428 365 551 365H674Q683 360 684 355Q687 346 677 329Q666 312 642 299T598 285Q586 285 582 296H402L394 277Q386 258 373 229T346 167T315 102T286 51Q265 22 225 -5T133 -32Q108 -32 87 -25T54 -7T33 15T21 35T18 47Q18 60 44 80T98 103Q108 103 111 101T119 88Q130 66 150 54T179 39T195 37Q199 37 203 43Q217 67 245 125T318 300T391 532Q393 543 398 564T406 598T409 613T339 614H269Q229 579 199 579Z"></path></g></g><g data-mml-node="mrow" transform="translate(829, 0)"><g data-mml-node="mo"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="msub" transform="translate(389, 0)"><g data-mml-node="mi"><path data-c="76" d="M173 380Q173 405 154 405Q130 405 104 376T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Q21 294 29 316T53 368T97 419T160 441Q202 441 225 417T249 361Q249 344 246 335Q246 329 231 291T200 202T182 113Q182 86 187 69Q200 26 250 26Q287 26 319 60T369 139T398 222T409 277Q409 300 401 317T383 343T365 361T357 383Q357 405 376 424T417 443Q436 443 451 425T467 367Q467 340 455 284T418 159T347 40T241 -11Q177 -11 139 22Q102 54 102 117Q102 148 110 181T151 298Q173 362 173 380Z"></path></g><g data-mml-node="TeXAtom" transform="translate(485, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g><g data-mml-node="mo" transform="translate(1168, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></g></svg></span></span>已經(jīng)捕獲了豐富的局部語義響應(yīng),這些響應(yīng)與 CLIP 文本嵌入中的標記很好地對應(yīng)。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">基于這樣的假設(shè),如上圖(b) 所示,作者在新嘗試中直接修改 CLIP 的圖像編碼器:(1) <strong>刪除查詢和關(guān)鍵嵌入層</strong>; (2) <strong>將值嵌入層和最后一個線性層重新組合成兩個各自的 1×1 卷積層</strong>。此外,保持文本編碼器不變,它以目標類的提示作為輸入。每個類的結(jié)果文本嵌入用作分類器。作者將生成的模型命名為 MaskCLIP,因為它產(chǎn)生像素級掩碼預測,而不是全局圖像級預測。然后,作者在各種標準分割基準以及網(wǎng)絡(luò)爬取圖像上評估 MaskCLIP。MaskCLIP 無需任何微調(diào)或注釋即可輸出合理的結(jié)果。更多關(guān)于 mIoU 指標的定性結(jié)果和定量結(jié)果包含在實驗部分。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">有人可能會爭辯說,由于全局注意力池是一個自注意力層,即使沒有修改,它也可以生成密集的特征。然而,由于查詢<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span> 是在 CLIP 預訓練期間訓練的唯一查詢,因此這種樸素的解決方案失敗了。作者將此解決方案視為基線,并在實驗中將其結(jié)果與本文的結(jié)果進行比較。此外,ViT 中的 Transformer 層與全局注意力池非常相似。實際上,僅有的兩個區(qū)別是:(1)全局查詢是由一個特殊的 [CLS] ?token生成的,而不是所有空間位置的平均值; (2) Transformer 層有殘差連接。因此,通過用<span style="cursor:pointer;"><span role="presentation" data-formula="q[\mathrm{cls}]" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2132 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.824ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(460, 0)"><path data-c="5B" d="M118 -250V750H255V710H158V-210H255V-250H118Z"></path></g><g data-mml-node="TeXAtom" data-mjx-texclass="ORD" transform="translate(738, 0)"><g data-mml-node="mi"><path data-c="63" d="M370 305T349 305T313 320T297 358Q297 381 312 396Q317 401 317 402T307 404Q281 408 258 408Q209 408 178 376Q131 329 131 219Q131 137 162 90Q203 29 272 29Q313 29 338 55T374 117Q376 125 379 127T395 129H409Q415 123 415 120Q415 116 411 104T395 71T366 33T318 2T249 -11Q163 -11 99 53T34 214Q34 318 99 383T250 448T370 421T404 357Q404 334 387 320Z"></path></g><g data-mml-node="mi" transform="translate(444, 0)"><path data-c="6C" d="M42 46H56Q95 46 103 60V68Q103 77 103 91T103 124T104 167T104 217T104 272T104 329Q104 366 104 407T104 482T104 542T103 586T103 603Q100 622 89 628T44 637H26V660Q26 683 28 683L38 684Q48 685 67 686T104 688Q121 689 141 690T171 693T182 694H185V379Q185 62 186 60Q190 52 198 49Q219 46 247 46H263V0H255L232 1Q209 2 183 2T145 3T107 3T57 1L34 0H26V46H42Z"></path></g><g data-mml-node="mi" transform="translate(722, 0)"><path data-c="73" d="M295 316Q295 356 268 385T190 414Q154 414 128 401Q98 382 98 349Q97 344 98 336T114 312T157 287Q175 282 201 278T245 269T277 256Q294 248 310 236T342 195T359 133Q359 71 321 31T198 -10H190Q138 -10 94 26L86 19L77 10Q71 4 65 -1L54 -11H46H42Q39 -11 33 -5V74V132Q33 153 35 157T45 162H54Q66 162 70 158T75 146T82 119T101 77Q136 26 198 26Q295 26 295 104Q295 133 277 151Q257 175 194 187T111 210Q75 227 54 256T33 318Q33 357 50 384T93 424T143 442T187 447H198Q238 447 268 432L283 424L292 431Q302 440 314 448H322H326Q329 448 335 442V310L329 304H301Q295 310 295 316Z"></path></g></g><g data-mml-node="mo" transform="translate(1854, 0)"><path data-c="5D" d="M22 710V750H159V-250H22V-210H119V710H22Z"></path></g></g></g></svg></span></span>替換<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>并將輸入 x 添加到輸出中,MaskCLIP 可以與 ViT 主干一起工作。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">盡管與現(xiàn)有分割方法相比,MaskCLIP 很簡單,但所提出的方法具有繼承自 CLIP 的多個獨特優(yōu)點。首先,<strong>MaskCLIP 可用作自由分割標注器</strong>,為使用有限標簽的分割方法提供豐富而新穎的監(jiān)督信號。其次,<strong>由于在MaskCLIP中保留了CLIP的視覺語言關(guān)聯(lián),它自然具有分割開放詞匯類的能力</strong>,以及由自由形式的短語描述的細粒度類,如白車和紅巴士。第三,<strong>由于 CLIP 是在原始網(wǎng)絡(luò)策劃圖像上訓練的,因此 CLIP 對自然分布偏移和輸入損壞表現(xiàn)出極大的魯棒性</strong>。作者驗證 MaskCLIP 在一定程度上保留了這種魯棒性。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">為了進一步提高 MaskCLIP 的性能,作者提出了兩種細化策略,即<strong>鍵平滑</strong>和<strong>prompt去噪</strong>。除了<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>,關(guān)鍵特征<span style="cursor:pointer;"><span role="presentation" data-formula="k_i" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 815 851.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.844ex;height: 1.927ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="6B" d="M121 647Q121 657 125 670T137 683Q138 683 209 688T282 694Q294 694 294 686Q294 679 244 477Q194 279 194 272Q213 282 223 291Q247 309 292 354T362 415Q402 442 438 442Q468 442 485 423T503 369Q503 344 496 327T477 302T456 291T438 288Q418 288 406 299T394 328Q394 353 410 369T442 390L458 393Q446 405 434 405H430Q398 402 367 380T294 316T228 255Q230 254 243 252T267 246T293 238T320 224T342 206T359 180T365 147Q365 130 360 106T354 66Q354 26 381 26Q429 26 459 145Q461 153 479 153H483Q499 153 499 144Q499 139 496 130Q455 -11 378 -11Q333 -11 305 15T277 90Q277 108 280 121T283 145Q283 167 269 183T234 206T200 217T182 220H180Q168 178 159 139T145 81T136 44T129 20T122 7T111 -2Q98 -11 83 -11Q66 -11 57 -1T48 16Q48 26 85 176T158 471L195 616Q196 629 188 632T149 637H144Q134 637 131 637T124 640T121 647Z"></path></g><g data-mml-node="mi" transform="translate(521, -150) scale(0.707)"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></svg></span></span>也在CLIP預訓練期間得到訓練。然而,在原始的 MaskCLIP 中,<span style="cursor:pointer;"><span role="presentation" data-formula="k_i" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 815 851.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.844ex;height: 1.927ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="6B" d="M121 647Q121 657 125 670T137 683Q138 683 209 688T282 694Q294 694 294 686Q294 679 244 477Q194 279 194 272Q213 282 223 291Q247 309 292 354T362 415Q402 442 438 442Q468 442 485 423T503 369Q503 344 496 327T477 302T456 291T438 288Q418 288 406 299T394 328Q394 353 410 369T442 390L458 393Q446 405 434 405H430Q398 402 367 380T294 316T228 255Q230 254 243 252T267 246T293 238T320 224T342 206T359 180T365 147Q365 130 360 106T354 66Q354 26 381 26Q429 26 459 145Q461 153 479 153H483Q499 153 499 144Q499 139 496 130Q455 -11 378 -11Q333 -11 305 15T277 90Q277 108 280 121T283 145Q283 167 269 183T234 206T200 217T182 220H180Q168 178 159 139T145 81T136 44T129 20T122 7T111 -2Q98 -11 83 -11Q66 -11 57 -1T48 16Q48 26 85 176T158 471L195 616Q196 629 188 632T149 637H144Q134 637 131 637T124 640T121 647Z"></path></g><g data-mml-node="mi" transform="translate(521, -150) scale(0.707)"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></svg></span></span>是簡單地丟棄。因此,作者在這里尋求利用這些信息來改進最終輸出。鍵特征可以看作是對應(yīng)patch的描述符,因此具有相似鍵特征的patch應(yīng)該產(chǎn)生相似的預測。有了這個假設(shè),作者提出通過以下方式平滑預測:</p><span style="cursor:pointer;" data-tool="mdnice編輯器"><section role="presentation" data-formula="\operatorname{pred}{i}=\sum{j} \cos \left(\frac{k_{i}}{\left|k_{i}\right|{2}}, \frac{k{j}}{\left|k_{j}\right|{2}}\right) \operatorname{pred}{i}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -3.006ex;width: 36.683ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0IrzCpaa1bytxoLV0bB8fAZGoLiajn8O99D2vTBaprN1Ub3hz0LQ4nq2L1N8kztoq9L/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">此外,作者還觀察到,在處理許多目標類別時,由于只有一小部分類別出現(xiàn)在單個圖像中,其余類別實際上是干擾因素并破壞了性能。因此,作者提出了提示去噪,如果它在所有空間位置的類置信度都小于閾值 t = 0.5,則刪除帶有目標類的提示。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.4 MaskCLIP+</span><span></span></h2><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">雖然 MaskCLIP 不需要任何訓練,但它的網(wǎng)絡(luò)架構(gòu)是剛性的,因為它采用了 CLIP 的圖像編碼器。為了從這種約束中放松它并受益于為分割量身定制的更先進的架構(gòu),例如 DeepLab和 PSPNet,作者提出了 MaskCLIP+。 MaskCLIP+ 不是直接應(yīng)用 MaskCLIP 進行測試時間預測,而是將其預測視為訓練時間偽真實標簽。結(jié)合采用的自訓練策略,MaskCLIP+ 不受其骨干架構(gòu)的限制。如上圖(a) 所示,作者將 DeepLabv2作為 MaskCLIP+ 的主干,以確保與以前的分割方法進行公平比較。
在 MaskCLIP+ 中,作者利用 MaskCLIP 的預測來指導另一個目標網(wǎng)絡(luò)的訓練,該目標網(wǎng)絡(luò)包含為分割任務(wù)量身定制的架構(gòu)。與目標網(wǎng)絡(luò)并行,作者將相同的預處理圖像輸入提供給 MaskCLIP,并使用 MaskCLIP 的預測作為偽真實標簽來訓練目標網(wǎng)絡(luò)。此外,作者將目標網(wǎng)絡(luò)的分類器替換為 MaskCLIP 的分類器,以保留網(wǎng)絡(luò)對開放詞匯預測的能力。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">MaskCLIP 引導學習也適用于零樣本分割設(shè)置。具體來說,雖然觀察到可見和不可見類的像素,但只有可見類的注釋可用。在這種情況下,只使用 MaskCLIP 為未標記的像素生成偽標簽。與 SOTA 方法相比,MaskCLIP+ 在三個標準基準(即 PASCAL VOC 2012、PASCAL Context 和 COCO Stuff)中獲得了顯著更好的結(jié)果,其中 MaskCLIP+ 的結(jié)果甚至與完全-監(jiān)督基線。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者注意到一些相關(guān)的嘗試,針對目標檢測,在 CLIP 的圖像級視覺特征和目標模型的特征之間進行知識蒸餾。與這樣的特征級指導不同,作者在本文中采用偽標簽。這是因為本文的目標網(wǎng)絡(luò)具有分段定制的架構(gòu),在結(jié)構(gòu)上與 CLIP 的圖像編碼器不同。因此,通過特征匹配進行蒸餾可能是一種次優(yōu)策略。事實上,在零樣本設(shè)置下,這種特征級指導確實會導致可見類和不可見類的性能之間存在沖突。相反,通過在 MaskCLIP+ 中采用偽標簽,作者沒有觀察到所見類的任何性能下降。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>4.實驗</span><span></span></h1><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.8142414860681114" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJ25tVuBewZibEsicodFiaHhSPAx5gQ4yI4Adukbu3VM7ZXODMXaMllNJdQ/640?wx_fmt=png" data-type="png" data-w="969" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="4" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-043408cdb67fac0c.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">上表展示了無標注分割的實驗結(jié)果。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7056367432150313" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJFvibm0Ngtcr7VKTlZOWu215Po4ZdNRJOHibf6uLJu6Rk4nSfzX0wYMTQ/640?wx_fmt=png" data-type="png" data-w="958" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="5" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-17cab5338474ea3e.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">PASCAL上的定性實驗結(jié)果。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.5485714285714286" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJPyNqnJxcTorpGkib7JAnWsiaiaUmDtGOsOOslqh6wOUn950Xcw40ibB8DA/640?wx_fmt=png" data-type="png" data-w="1050" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="6" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-2a98c88ac4793a3d.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">網(wǎng)絡(luò)圖片上的定性結(jié)果。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7692307692307693" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJBdoIe0ru7QYApRj1znAoulURw7yBEYZjMDEGS57TU1bLDdIS29TGZA/640?wx_fmt=png" data-type="png" data-w="949" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="7" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-fee9b3d87bc9fe9c.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">零樣本分割性能。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.2677165354330709" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJ2qDev1mmz4uqFg6Liakqviaev6dW8unS38zxQzFXibJkCWThCicPTjm80Q/640?wx_fmt=png" data-type="png" data-w="1016" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="8" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-71e5c1e96a72ac79.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">MaskCLIP+的消融。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>5. 總結(jié)</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">本文介紹了作者在語義分割中應(yīng)用 CLIP 的探索,作為研究預訓練視覺語言模型在像素級密集預測任務(wù)中的適用性的早期嘗試。雖然傳統(tǒng)的微調(diào)范式無法從 CLIP 中受益,但作者發(fā)現(xiàn) CLIP 的圖像編碼器已經(jīng)具備直接作為分割模型工作的能力。由此產(chǎn)生的模型,稱為 MaskCLIP,可以很容易地部署在各種語義分割設(shè)置上,而無需重新訓練。在 MaskCLIP 的成功之上,作者進一步提出了 MaskCLIP+,它利用 MaskCLIP 為未標記的像素提供訓練時間偽標簽,因此可以應(yīng)用于更多的分割定制架構(gòu),而不僅僅是 CLIP 的圖像編碼器。在標準的換能零樣本分割基準上,MaskCLIP+ 顯著改進了之前的 SOTA 結(jié)果。更重要的是,MaskCLIP+ 可以很容易地用于分割更具挑戰(zhàn)性的看不見的類別,例如名人和動畫角色。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>【技術(shù)交流】</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">已建立深度學習公眾號——<em><strong>FightingCV</strong></em>,關(guān)注于最新論文解讀、基礎(chǔ)知識鞏固、學術(shù)科研交流,歡迎大家關(guān)注?。。?lt;/p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">請關(guān)注<em><strong>FightingCV</strong></em>公眾號,并后臺回復<strong>ECCV2022</strong>即可獲得ECCV中稿論文匯總列表。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">推薦加入FightingCV<strong>交流群</strong>,每日會發(fā)送論文解析、算法和代碼的干貨分享,進行學術(shù)交流,加群請?zhí)砑有≈謜x:<strong>FightngCV666</strong>,備注:<em><strong>地區(qū)-學校(公司)-名稱</strong></em></p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的頂會論文核心代碼庫:</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/xmu-xiaoma666/External-Attention-pytorch</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[3]</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的YOLO目標檢測庫:</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/iscyy/yoloair</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[4]</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的頂刊頂會的論文解析:</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[5]</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7062256809338522" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJaTJ0XYicThj41t4T5TDsMbSFbnkZiarsIobpibsUKo2tdMA8deJBWWJMQ/640?wx_fmt=png" data-type="png" data-w="514" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 514px !important;" data-index="9" data-origin-display="block" _width="514px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-a17a4ffbce56a5b6.png" data-fail="0"></figure><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>【贈書活動】</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">為感謝各位老粉和新粉的支持,<strong>FightingCV公眾號</strong>將在9月10日包郵送出4本<strong>《深度學習與目標檢測:工具、原理與算法》</strong>來幫助大家學習,贈書對象為當日閱讀榜和分享榜前兩名。想要參與贈書活動的朋友,請?zhí)砑有≈治⑿?lt;strong>FightngCV666</strong>(備注“城市-方向-ID”),方便聯(lián)系獲得郵寄地址。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJCHTx8micgxJBW7XFScRfvl9bD03P5nXvtI1j27Z1kGpVPDQsn1W1PnQ/640?wx_fmt=png" data-type="png" data-w="1080" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="10" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-2ce35bdb8b0684f1.png" data-fail="0"></figure><h3 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 20px;"><span style="display: block;">參考資料</span></h3><section data-tool="mdnice編輯器"><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[1] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://arxiv.org/abs/2112.01071: <em>https://arxiv.org/abs/2112.01071</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[2] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/chongzhou96/MaskCLIP: <em>https://github.com/chongzhou96/MaskCLIP</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[3] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/xmu-xiaoma666/External-Attention-pytorch: <em>https://github.com/xmu-xiaoma666/External-Attention-pytorch</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[4] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/iscyy/yoloair: <em>https://github.com/iscyy/yoloair</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[5] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: <em>https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</em></p></span></section></section><blockquote><p>本文使用 <a href="http://www.itdecent.cn/p/5709df6fb58d" class="internal">文章同步助手</a> 同步</p></blockquote>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 174道JavaScript 面試知識點總結(jié)(下) 文章有許多金典閱讀推薦建議點贊加收藏 圖片 來源 | http...
    李仁平閱讀 17,262評論 21 227
  • 你覺得js是一門怎樣的語言,它與你學過的其他語言有什么不同 變量類型 js如何判斷變量數(shù)據(jù)類型 dom節(jié)點獲取,及...
    787518d9b65a閱讀 611評論 0 1
  • CSS CSS3 布局屬性 標簽的權(quán)值為1,類選擇符的權(quán)值為10,ID選擇符的權(quán)值最高為100 !importan...
    53cfdb355418閱讀 517評論 0 0
  • Canvas[https://developer.mozilla.org/zh-CN/docs/Web/API/C...
    FConfidence閱讀 415評論 0 0
  • 一:canvas簡介 1.1什么是canvas? ①:canvas是HTML5提供的一種新標簽 ②:HTML5 ...
    GreenHand1閱讀 4,882評論 2 32

友情鏈接更多精彩內(nèi)容