形狀感知文本驅(qū)動分層視頻編輯? ??Shape-aware Text-driven Layered Video Editing
Y Lee, J G Jang, Y Chen, E Qiu, J Huang????
[University of Maryland]
https://arxiv.org/abs/2301.13173
https://text-video-edit.github.io/
要點(diǎn):擴(kuò)展了視頻編輯方法以實(shí)現(xiàn)形狀感知編輯;提出一種與幀相關(guān)的形狀變形公式,以處理目標(biāo)形狀的編輯;用預(yù)訓(xùn)練擴(kuò)散模型來指導(dǎo)分層視頻表示中的圖集補(bǔ)全。
一句話總結(jié):提出一種形狀感知的文本驅(qū)動視頻編輯方法,擴(kuò)展了現(xiàn)有視頻編輯方法的能力,通過使用變形公式和預(yù)訓(xùn)練文本到圖像擴(kuò)散模型進(jìn)行指導(dǎo),實(shí)現(xiàn)形狀感知的編輯。

漸進(jìn)提示:語言模型的持續(xù)學(xué)習(xí)????Progressive Prompts: Continual Learning for Language Models
A Razdaibiedina, Y Mao, R Hou, M Khabsa, M Lewis, A Almahairi????
[Meta AI & University of Toronto]
https://arxiv.org/abs/2301.12314
要點(diǎn):提出一種在語言模型中進(jìn)行持續(xù)學(xué)習(xí)(CL)的新方法,稱為漸進(jìn)提示;漸進(jìn)提示緩解了災(zāi)難性遺忘,支持知識遷移到未來任務(wù),同時(shí)學(xué)習(xí)總參數(shù)的一小部分;漸進(jìn)提示適用于任何基于 Transformer 的架構(gòu),并且在 BERT 和 T5 模型的標(biāo)準(zhǔn) CL 基準(zhǔn)上優(yōu)于最先進(jìn)的 CL 方法。
一句話總結(jié):漸進(jìn)提示是一種新的、模型無關(guān)的、高效的語言模型持續(xù)學(xué)習(xí)方法,在標(biāo)準(zhǔn)基準(zhǔn)上優(yōu)于最先進(jìn)的方法,不依賴數(shù)據(jù)回放或特定任務(wù)參數(shù)。
STAIR: Grounded Token稀疏文本和圖像表示學(xué)習(xí)????STAIR: Learning Sparse Text and Image Representation in Grounded Tokens
C Chen, B Zhang, L Cao, J Shen, T Gunter, A M Jose, A Toshev, J Shlens, R Pang, Y Yang
[Apple Inc]
https://arxiv.org/abs/2301.13081
要點(diǎn):提出 STAIR,一種稀疏文本和圖像表示方法,將圖像和文本輸入編碼為稀疏 token 空間中的稀疏嵌入;在圖像-文本檢索任務(wù)以及零樣本和線性探測分類任務(wù)上優(yōu)于CLIP模型;與稠密嵌入相比,稀疏嵌入對人來說更容易解釋。
一句話總結(jié):STAIR是一種稀疏文本和圖像表示方法,在圖像-文本檢索任務(wù)和零樣本分類任務(wù)上優(yōu)于 CLIP 模型,同時(shí)提供可解釋的稀疏嵌入。
Noise Scheduling 對擴(kuò)散模型的重要性研究????On the Importance of Noise Scheduling for Diffusion Models
T Chen
[Google Research]
https://arxiv.org/abs/2301.10972
要點(diǎn):Noise Scheduling 對擴(kuò)散生成模型的性能至關(guān)重要,而最佳的噪聲規(guī)劃取決于任務(wù);當(dāng)圖像大小增加時(shí),最佳的 Noise Scheduling 會變得更加嘈雜;縮放輸入數(shù)據(jù)時(shí)保持 Noise Scheduling 固定,是跨圖像尺寸的一種好策略;將這種簡單的縮放策略與遞歸接口網(wǎng)絡(luò)(RIN)架構(gòu)結(jié)合,能為高分辨率圖像生成提供最先進(jìn)的基于像素的擴(kuò)散模型。
一句話總結(jié):研究發(fā)現(xiàn),noise scheduling 策略對去噪擴(kuò)散生成模型的性能起著至關(guān)重要的作用,而最佳策略取決于任務(wù)(如圖像大小)。
面向無監(jiān)督目標(biāo)檢測和實(shí)例分割的剪切和學(xué)習(xí)????Cut and Learn for Unsupervised Object Detection and Instance Segmentation
X Wang, R Girdhar, S X. Yu, I Misra
[Meta AI & UC Berkeley]
https://arxiv.org/abs/2301.11320
https://github.com/facebookresearch/CutLER
http://people.eecs.berkeley.edu/~xdwang/projects/CutLER/
要點(diǎn):CutLER 是一種訓(xùn)練無監(jiān)督目標(biāo)檢測和分割模型的簡單方法,利用自監(jiān)督模型特性,在沒有監(jiān)督的情況下"發(fā)現(xiàn)"物體,并將其放大到訓(xùn)練一個(gè)最先進(jìn)的定位模型,無需任何人工標(biāo)簽;CutLER 使用所提出的 MaskCut 方法為圖像中的多個(gè)目標(biāo)生成粗略掩碼,用魯棒損失函數(shù)在這些掩碼上學(xué)習(xí)一個(gè)檢測器,并通過對模型的預(yù)測進(jìn)行自訓(xùn)練進(jìn)一步提高性能;CutLER 與不同檢測架構(gòu)兼容,可以只在 ImageNet 上進(jìn)行訓(xùn)練,而不需要領(lǐng)域內(nèi)的無標(biāo)簽數(shù)據(jù),因此,產(chǎn)生了一個(gè)能夠檢測和分割不同領(lǐng)域的多個(gè)物體的零樣本模型。
一句話總結(jié):提出 Cut-and-LEaRn(CutLER)方法,用于訓(xùn)練無監(jiān)督目標(biāo)檢測和分割模型,該方法簡單、魯棒,可實(shí)習(xí)零樣本,在不同領(lǐng)域的11個(gè)基準(zhǔn)上比之前的工作要好 2.7 倍以上,與不同的檢測架構(gòu)兼容,并能檢測多個(gè)物體。





StyleGAN-T: 基于改進(jìn) GAN 的快速大規(guī)模文本到圖像合成????StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
A Sauer, T Karras, S Laine, A Geiger, T Aila
[University of Tubingen & NVIDIA]
https://arxiv.org/abs/2301.09515
要點(diǎn):所提出的模型 StyleGAN-T 解決了大規(guī)模文本到圖像合成的具體要求,如大容量、在不同數(shù)據(jù)集上的穩(wěn)定訓(xùn)練、強(qiáng)文本對齊和可控的變化與文本對齊的權(quán)衡;StyleGAN-T 在樣本質(zhì)量和速度方面比之前的 GAN 有明顯的改進(jìn),超過了蒸餾擴(kuò)散模型——在此之前快速文本到圖像合成的最先進(jìn)技術(shù);GAN 在文本-圖像合成方面比其他模型更快,因?yàn)橹恍枰粋€(gè)前向通道。
一句話總結(jié):提出的 StyleGAN-T 模型解決了大規(guī)模文本到圖像合成的具體要求,在樣本質(zhì)量和速度方面優(yōu)于之前的 GAN 和蒸餾擴(kuò)散模型,GAN比其他模型的文本到圖像合成速度更快。
摘要:由于大型預(yù)訓(xùn)練語言模型、大規(guī)模訓(xùn)練數(shù)據(jù)以及可擴(kuò)展模型族(如擴(kuò)散模型和自回歸模型)的引入,文本-圖像合成最近取得了重大進(jìn)展。然而,表現(xiàn)最好的模型,需要迭代評估以生成一個(gè)樣本。相比之下,生成對抗網(wǎng)絡(luò)(GAN)只需要一次前向傳播。因此速度要快得多,但目前在大規(guī)模文本到圖像合成方面仍然遠(yuǎn)落后于最先進(jìn)的水平。本文旨在確定重新獲得競爭力的必要步驟。所提出的模型 StyleGAN-T 解決了大規(guī)模文本-圖像合成的具體要求,如大容量、在不同數(shù)據(jù)集上的穩(wěn)定訓(xùn)練、強(qiáng)文本對齊和可控的變化與文本對齊的權(quán)衡。StyleGAN-T在樣本質(zhì)量和速度方面明顯優(yōu)于之前的 GAN,且優(yōu)于蒸餾擴(kuò)散模型——這是之前快速文本到圖像合成的最先進(jìn)技術(shù)。
Zorro: 掩碼多模態(tài) Transformer????Zorro: the masked multimodal transformer
A Recasens, J Lin, J Carreira, D Jaegle, L Wang, J Alayrac, P Luc, A Miech, L Smaira, R Hemsley, A Zisserman
[DeepMind]
https://arxiv.org/abs/2301.09595
要點(diǎn):提出 Zorro,一種新的 Transformer 掩碼配置,可以同時(shí)進(jìn)行單模態(tài)和多模態(tài)的訓(xùn)練和推理,以及對比預(yù)訓(xùn)練;提出了用ViT、SWIN和HiP等最先進(jìn)模型的基于Zorro的架構(gòu);Zorro 可以以自監(jiān)督的方式,在大規(guī)模音頻-視覺數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,也可以在單模態(tài)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
一句話總結(jié):提出一種用于多模態(tài)處理的新型 Transformer 掩碼配置 Zorro,在基準(zhǔn)上展示了最先進(jìn)的性能,并可同時(shí)進(jìn)行單模態(tài)和多模態(tài)訓(xùn)練和推理。
摘要:基于注意力的模型對多模態(tài)處理很有吸引力,因?yàn)閬碜远喾N模態(tài)的輸入可以被串聯(lián)起來,并輸入到一個(gè)主干網(wǎng)絡(luò)中——因此需要很少的融合工程。然而,所產(chǎn)生的表示在整個(gè)網(wǎng)絡(luò)中是完全糾纏在一起的,可能并不總是可取的:在學(xué)習(xí)中,對比性的音頻-視覺自監(jiān)督學(xué)習(xí),需要獨(dú)立的音頻和視覺特征來操作,否則學(xué)習(xí)會坍縮;在推理中,音頻-視覺模型的評估應(yīng)該可以在只有音頻或只有視頻的基準(zhǔn)上進(jìn)行。本文提出 Zorro,一種使用掩碼來控制每種模態(tài)輸入如何在 Transformer 內(nèi)被路由的技術(shù),以保持表示的某些部分是純模態(tài)的。將這種技術(shù)應(yīng)用于三種流行的基于 Transformer 的架構(gòu)(ViT、Swin和HiP),并表明在對比性預(yù)訓(xùn)練下,Zorro在大多數(shù)相關(guān)的多模態(tài)任務(wù)(AudioSet和VGGSound)的基準(zhǔn)上取得了最先進(jìn)的結(jié)果。此外,所得到的模型能在視頻和音頻基準(zhǔn)上進(jìn)行單模態(tài)推理,如Kinetics-400或ESC-50。


未見數(shù)據(jù)集上的蒸餾感知NAS元預(yù)測模型????Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets
https://openreview.net/forum?id=SEh5SfEQtqB
要點(diǎn):提出一種跨數(shù)據(jù)集、架構(gòu)和教師泛化的新的元預(yù)測模型,可以在蒸餾給定教師知識時(shí)準(zhǔn)確預(yù)測架構(gòu)性能;基于特定教師對學(xué)生的參數(shù)重映射和重映射學(xué)生的功能性嵌入,提出一種新的蒸餾感知任務(wù)編碼;在異構(gòu)不可見 DaNAS 任務(wù)的準(zhǔn)確性估計(jì)方面優(yōu)于現(xiàn)有的快速 NAS 方法。
一句話總結(jié):提出一種跨數(shù)據(jù)集、體系結(jié)構(gòu)和教師泛化的新的元預(yù)測模型,以便在蒸餾給定教師網(wǎng)絡(luò)的知識時(shí)準(zhǔn)確預(yù)測架構(gòu)性能,在看未見數(shù)據(jù)集上優(yōu)于現(xiàn)有的快速 NAS 方法。
摘要:蒸餾感知網(wǎng)絡(luò)架構(gòu)搜索(DaNAS),旨在搜索在從給定教師模型中蒸餾知識時(shí),可獲得最佳性能和/或效率的最佳學(xué)生架構(gòu)。之前的 DaNAS 方法主要涉及尋找固定源/目標(biāo)任務(wù)和教師的網(wǎng)絡(luò)架構(gòu),這些任務(wù)在新任務(wù)上沒有很好地泛化,因此需要對域和教師的新組合進(jìn)行昂貴的搜索。對于沒有 KD 的標(biāo)準(zhǔn) NAS 任務(wù),提出了基于元學(xué)習(xí)的計(jì)算高效 NAS 方法,該方法學(xué)習(xí)多個(gè)任務(wù)的廣義搜索過程,并將這些任務(wù)獲得的知識遷移到新任務(wù)中。然而,由于假設(shè)在沒有老師 KD 的情況下從頭開始學(xué)習(xí),它們可能不適合 DaNAS 場景,這可能會顯著影響從搜索中獲得的架構(gòu)的最終準(zhǔn)確性。為了消除 DaNAS 方法的過度計(jì)算成本和快速 NAS 方法的次優(yōu)性,本文提出一種基于蒸餾感知的元精度預(yù)測模型,可以預(yù)測給定架構(gòu)在與給定教師執(zhí)行 KD 時(shí)在數(shù)據(jù)集上的最終性能,而無需在目標(biāo)任務(wù)上進(jìn)行實(shí)際訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,所提出的元預(yù)測模型成功地泛化到 DaNAS 任務(wù)的多個(gè)未見數(shù)據(jù)集,在很大程度上優(yōu)于現(xiàn)有的元 NAS 方法和快速 NAS 基線。

基于聯(lián)合嵌入預(yù)測架構(gòu)的圖像自監(jiān)督學(xué)習(xí)????Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
M Assran, Q Duval, I Misra, P Bojanowski, P Vincent, M Rabbat, Y LeCun, N Ballas
[Meta AI]
https://arxiv.org/abs/2301.08243
要點(diǎn):提出基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)(I-JEPA),一種從圖像中自監(jiān)督學(xué)習(xí)的非生成式方法;用掩碼策略來預(yù)測圖像中的多個(gè)目標(biāo)塊,用足夠大規(guī)模、以及空間分布充分的上下文塊;當(dāng)與視覺 Transformer 相結(jié)合時(shí),I-JEPA 在一系列任務(wù)中的可擴(kuò)展性和強(qiáng)大的下游性能得到了實(shí)證演示。
一句話總結(jié):I-JEPA 是一種非生成式方法,用于從圖像進(jìn)行自監(jiān)督學(xué)習(xí),采用掩碼策略預(yù)測同一圖像中多個(gè)目標(biāo)塊的表示,以高可擴(kuò)展性和高效率在廣泛的任務(wù)中實(shí)現(xiàn)了強(qiáng)大的下游性能。
摘要:本文展示了一種在不依賴手工制作的數(shù)據(jù)增強(qiáng)的情況下學(xué)習(xí)高度語義化圖像表示的方法。提出了基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)(I-JEPA),一種從圖像自監(jiān)督學(xué)習(xí)的非生成式方法。I-JEPA 背后的想法很簡單:從單個(gè)上下文塊中預(yù)測同一圖像中多個(gè)目標(biāo)塊的表示。指導(dǎo) I-JEPA 產(chǎn)生語義表示的核心設(shè)計(jì)選擇是掩碼策略;最重要的是:(a) 預(yù)測圖像中的多個(gè)目標(biāo)塊,(b) 足夠大規(guī)模的目標(biāo)塊采樣(占整個(gè)圖像的15%-20%),以及 (c) 用信息量充足(空間分布足夠分散)的上下文塊。從經(jīng)驗(yàn)上講,當(dāng)與視覺 Transformer 相結(jié)合時(shí),I-JEPA 具有高度可擴(kuò)展性。例如,在38小時(shí)內(nèi)用32個(gè) A100 GPU 在 ImageNet 上訓(xùn)練 ViT-Huge/16,以便在需要不同抽象級別的廣泛任務(wù)中實(shí)現(xiàn)強(qiáng)大的下游性能,從線性分類到目標(biāo)計(jì)數(shù)和深度預(yù)測。




圖神經(jīng)網(wǎng)絡(luò)(GNN)綜述????Everything is Connected: Graph Neural Networks
P Veli?kovi?
[DeepMind]
https://arxiv.org/abs/2301.08210
要點(diǎn):圖是自然界中數(shù)據(jù)的主要模態(tài),用圖結(jié)構(gòu)的語言可以優(yōu)雅地表示;圖已經(jīng)在關(guān)鍵的科學(xué)和工業(yè)領(lǐng)域使用,其應(yīng)用包括交通預(yù)測、藥物發(fā)現(xiàn)、社交網(wǎng)絡(luò)分析和推薦系統(tǒng)等;前幾年最成功的機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域——圖像、文本和語音處理——可以視為圖表示學(xué)習(xí)的特殊案例;本文的主要目的,是使讀者能夠吸收該領(lǐng)域的關(guān)鍵概念,并在相關(guān)領(lǐng)域的適當(dāng)背景下應(yīng)用圖表示學(xué)習(xí)。
一句話總結(jié):圖是自然界數(shù)據(jù)的主要模態(tài),可用于多個(gè)領(lǐng)域,最成功的機(jī)器學(xué)習(xí)領(lǐng)域是圖表示學(xué)習(xí)的特殊情況。本文旨在幫助讀者了解該領(lǐng)域的關(guān)鍵概念和背景,并在合適的場景加以利用。
自監(jiān)督無助于大規(guī)模自然語言監(jiān)督????Self Supervision Does Not Help Natural Language Supervision at Scale
F Weers, V Shankar, A Katharopoulos, Y Yang, T Gunter
[Apple]
https://arxiv.org/abs/2301.07836
要點(diǎn):調(diào)研自監(jiān)督對大規(guī)模圖像-文本訓(xùn)練的有效性,發(fā)現(xiàn)在14億張圖像的大型語料庫上進(jìn)訓(xùn)練時(shí),自監(jiān)督幾乎沒有收益;引入一種將標(biāo)準(zhǔn)自監(jiān)督和語言監(jiān)督技術(shù)相結(jié)合的直截了當(dāng)?shù)幕€方法MAE-CLIP;實(shí)驗(yàn)發(fā)現(xiàn),在高樣本量狀態(tài)下,ImageNet、VTAB和VQA任務(wù)的MAE-CLIP和CLIP之間的性能幾乎沒有差異。
一句話總結(jié):這項(xiàng)工作發(fā)現(xiàn)大規(guī)模圖像-文本訓(xùn)練的自監(jiān)督幾乎沒有好處,研究了最先進(jìn)的方法在低樣本量和高樣本量場景下的性能,自監(jiān)督在高樣本量場景下效果較差。

面向單視圖重建的密度場????Behind the Scenes: Density Fields for Single View Reconstruction
F Wimbauer, N Yang, C Rupprecht, D Cremers
[Technical University of Munich & University of Oxford]
https://arxiv.org/abs/2301.07668
https://fwmb.github.io/bts/
要點(diǎn):提出一種用預(yù)測隱密度場的神經(jīng)網(wǎng)絡(luò),從單幅圖像推斷有意義幾何場景表示的新方法;能捕捉真實(shí)的3D幾何形狀,包括顏色,但比神經(jīng)輻射場(NeRF)等其他方法更簡單、更易于處理;僅用視頻數(shù)據(jù)的自監(jiān)督進(jìn)行訓(xùn)練,使得網(wǎng)絡(luò)能在具有挑戰(zhàn)性場景的大型實(shí)際場景數(shù)據(jù)集上進(jìn)行訓(xùn)練;該方法能預(yù)測輸入圖像中被遮擋區(qū)域有意義的幾何形狀,并實(shí)現(xiàn)深度預(yù)測和新視圖合成,達(dá)到與最先進(jìn)方法可比的水平。
一句話總結(jié):提出一種用預(yù)測隱密度場的神經(jīng)網(wǎng)絡(luò)從單幅圖像推斷 3D 幾何的新方法,比其他方法更簡單、更易于處理,僅用視頻數(shù)據(jù)的自監(jiān)督進(jìn)行訓(xùn)練,能預(yù)測遮擋區(qū)域有意義的幾何形狀。
摘要:從單幅圖像推斷有意義的幾何場景表示,是計(jì)算機(jī)視覺的一個(gè)基本問題?;趥鹘y(tǒng)深度圖預(yù)測的方法,只能推理圖像中的可見區(qū)域。目前,神經(jīng)輻射場(NeRF)可以捕獲包括顏色在內(nèi)的真實(shí)3D,但過于復(fù)雜,無法用單幅圖像生成。作為替代方案,本文提出一種神經(jīng)網(wǎng)絡(luò),從單幅圖像預(yù)測隱密度場,將圖像截頭錐體每個(gè)位置映射成體密度。所提網(wǎng)絡(luò)能通過僅視頻數(shù)據(jù)的自監(jiān)督進(jìn)行訓(xùn)練。不將顏色存儲在隱式體,而在訓(xùn)練期間直接從可用視圖中采樣顏色,相比 NeRF,所提場景表示不那么復(fù)雜,可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)來進(jìn)行預(yù)測??梢詰?yīng)用體渲染來執(zhí)行深度預(yù)測和新視圖合成。在所做的實(shí)驗(yàn)中,本文證明,所提出方法能預(yù)測輸入圖像中遮擋的區(qū)域的有意義的幾何形狀。本文還展示了在三個(gè)數(shù)據(jù)集上所提出方法在深度預(yù)測和新視圖合成方面的潛力。



Laser: 3D生成建模的集值潛表示????Laser: Latent Set Representations for 3D Generative Modeling
P Moreno, A R. Kosiorek, H Strathmann, D Zoran, R G. Schneider, B Winckler, L Markeeva, T Weber, D J. Rezende
[DeepMind]
https://arxiv.org/abs/2301.05747
https://laser-nv-paper.github.io/
要點(diǎn):提出一種由基于上下文視圖的專用置換不變歸一化流建模的新型集值潛表示;提出一種新的注意力機(jī)制,以設(shè)置值潛在以及從上下文視圖計(jì)算的其他局部特征來調(diào)節(jié)場景功能。在各種數(shù)據(jù)集上的表現(xiàn)優(yōu)于之前的模型,尤其是場景未觀察部分存在高度不確定性時(shí)。
一句話總結(jié):LASER-NV 是一種用歸一化流建模的新型集值潛表示,采用幾何感知注意力機(jī)制來實(shí)現(xiàn)高保真新視圖合成,在各種數(shù)據(jù)集上的表現(xiàn)優(yōu)于之前的模型,尤其是場景未觀察部分存在高度不確定性時(shí)。
摘要:NeRF為新視圖合成提供了優(yōu)秀的保真度:從任意角度渲染3D場景。NeRF需要對大量完全覆蓋場景的視圖進(jìn)行訓(xùn)練,這限制了其適用性。雖然這些問題可以通過以各種形式學(xué)習(xí)先驗(yàn)場景來解決,但之前的方法要么適用于過于簡單的場景,要么努力渲染未觀察到的部分。本文提出 Laser-NV:一種實(shí)現(xiàn)高建模能力的生成模型,基于通用歸一化流建模的集值潛表示。與之前的攤銷方法類似,Laser-NV 從多個(gè)場景中學(xué)習(xí)結(jié)構(gòu),并能從很少的視圖中快速、前饋推斷。為了鼓勵(lì)更高的渲染保真度和與觀測視圖的一致性,Laser-NV 進(jìn)一步在觀測視圖上集成了幾何感知的注意力機(jī)制。Laser-NV 進(jìn)一步產(chǎn)生場景中被遮擋部分的多樣化和可信的補(bǔ)全,同時(shí)與觀察保持一致。在 ShapeNet 和新模擬城市數(shù)據(jù)集上進(jìn)行評估時(shí),Laser-NV 顯示出最先進(jìn)的新視圖合成質(zhì)量,該數(shù)據(jù)集在場景中未觀察區(qū)域具有很高的不確定性。





GLIGEN: 開放世界 Grounded 文本到圖像生成????GLIGEN: Open-Set Grounded Text-to-Image Generation
Y Li, H Liu, Q Wu, F Mu, J Yang, J Gao, C Li, Y J Lee
[University of Wisconsin-Madison & Columbia University & Microsoft]
https://arxiv.org/abs/2301.07093
要點(diǎn):提出GLIGEN,一種新方法,基于并擴(kuò)展了現(xiàn)有預(yù)訓(xùn)練文本到圖像擴(kuò)散模型,使其也以 grounding 輸入為條件,以提高可控性;通過凍結(jié)預(yù)訓(xùn)練模型所有權(quán)重,并通過門控機(jī)制將 grounding 信息注入新的可訓(xùn)練層,來保存預(yù)訓(xùn)練模型的大量概念知識;實(shí)現(xiàn)了基于描述和邊框條件輸入的開放世界 grounded text2img 生成,grounding 能力很好地推廣到新的空間配置和概念。
一句話總結(jié):GLIGEN 是一種新方法,允許在邊框等 grounding 輸入上調(diào)節(jié)預(yù)訓(xùn)練文本到圖像擴(kuò)散模型,實(shí)現(xiàn)開放世界 grounded text2img 生成,可很好地推廣到新的空間配置和概念,并在零樣本任務(wù)中顯著優(yōu)于現(xiàn)有的有監(jiān)督 layout-to-image 基線。
摘要:大規(guī)模文本到圖像擴(kuò)散模型取得了驚人的進(jìn)步。然而,現(xiàn)狀是僅使用文本輸入,這可能會阻礙可控性。本文提出 GLIGEN,Grounded 語言到圖像生成,一種基于并擴(kuò)展現(xiàn)有預(yù)訓(xùn)練文本到圖像擴(kuò)散模型的新方法,使它們也以 grounding 的輸入為條件。為了保留預(yù)訓(xùn)練模型的大量概念知識,凍結(jié)其所有權(quán)重,通過門控機(jī)制將 grounding 信息注入新的可訓(xùn)練層。所提出模型實(shí)現(xiàn)了基于描述和邊框條件輸入的開放世界 grounded text2img 生成,grounding 能力很好地推廣到新的空間配置和概念。GLIGEN 在 COCO 和 LVIS 上的零樣本性能大大優(yōu)于現(xiàn)有的有監(jiān)督 layout-to-image 基線。




基于檢索增強(qiáng)知識的定制視覺模型學(xué)習(xí)????Learning Customized Visual Models with Retrieval-Augmented Knowledge
H Liu, K Son, J Yang, C Liu, J Gao, Y J Lee, C Li
[Microsoft & University of Wisconsin–Madison]
https://arxiv.org/abs/2301.07094
https://react-vl.github.io/
要點(diǎn):提出一種新框架REACT(檢索增強(qiáng)定制),用于用網(wǎng)絡(luò)級圖像文本數(shù)據(jù)為目標(biāo)域構(gòu)建定制視覺模型;對各種任務(wù)的廣泛實(shí)驗(yàn),包括在零樣本和少樣本的設(shè)置下進(jìn)行分類、檢索、檢測和分割,展示了REACT的有效性;與當(dāng)前最先進(jìn)的模型 CLIP 相比,REACT 可以在 ImageNet 上實(shí)現(xiàn)高達(dá) 5.4% 的改進(jìn),在 ELEVATER 基準(zhǔn)(20個(gè)數(shù)據(jù)集)上實(shí)現(xiàn) 3.7% 的零樣本分類任務(wù)。
一句話總結(jié):提出REACT,一個(gè)獲取相關(guān)網(wǎng)絡(luò)知識的框架,為目標(biāo)域構(gòu)建定制的視覺模型,與現(xiàn)有模型相比,在零樣本分類任務(wù)方面實(shí)現(xiàn)了高達(dá) 5.4% 的改進(jìn)。
摘要:CLIP等圖像文本對比學(xué)習(xí)模型表現(xiàn)出很強(qiáng)的任務(wù)遷移能力。這些視覺模型的高度通用性和可用性是通過網(wǎng)絡(luò)級的數(shù)據(jù)收集過程實(shí)現(xiàn)的,以確保廣泛的概念覆蓋,然后是昂貴的預(yù)訓(xùn)練,將所有知識注入模型權(quán)重。本文提出 REACT,檢索增強(qiáng)定制,一種獲取相關(guān)網(wǎng)絡(luò)知識的框架,為目標(biāo)域構(gòu)建定制的視覺模型。作為外部知識,從網(wǎng)絡(luò)級數(shù)據(jù)庫中檢索最相關(guān)的圖像文本對(約占CLIP預(yù)訓(xùn)練數(shù)據(jù)的3%),提出僅通過訓(xùn)練新的修改塊來自定義模型,同時(shí)凍結(jié)所有原始權(quán)重。REACT 的有效性通過對分類、檢索、檢測和分割任務(wù)(包括零樣本、少樣本和全樣本設(shè)置)的廣泛實(shí)驗(yàn)得到了證明。特別是,在零樣本分類任務(wù)上,與CLIP相比,在ImageNet上實(shí)現(xiàn)了高達(dá)5.4%的改進(jìn),在ELEVATER基準(zhǔn)(20個(gè)數(shù)據(jù)集)上實(shí)現(xiàn)了3.7%的改進(jìn)。https://react-vl.github.io/


大型生成式AI模型前沿綜述????ChatGPT is not all you need. A State of the Art Review of large Generative AI models
R Gozalo-Brizuela, E C. Garrido-Merchan
[Universidad Pontificia Comillas]
https://arxiv.org/abs/2301.04655
要點(diǎn):ChatGPT 和 Stable Diffusion 等大型生成模型在數(shù)據(jù)集、計(jì)算、偏差和對倫理的理解以及必要約束方面存在局限性;局限性包括難以為某些任務(wù)找到數(shù)據(jù),以及需要大型數(shù)據(jù)集和計(jì)算資源;提供了最近生成模型的分類,并總結(jié)了其能力和局限性。
一句話總結(jié):ChatGPT 和 Stable Diffusion 等大型生成模型正在通過執(zhí)行文本到圖像和文本到音頻等任務(wù)徹底改變幾個(gè)行業(yè),但它們在數(shù)據(jù)集、計(jì)算、偏差和對倫理的理解以及必要約束方面具有局限性。

機(jī)器學(xué)習(xí)損失函數(shù)綜述????A survey and taxonomy of loss functions in machine learning
L Ciampiconi, A Elwood, M Leonardi, A Mohamed, A Rozza
[lastminute.com group]
https://arxiv.org/abs/2301.05579
要點(diǎn):對各種機(jī)器學(xué)習(xí)應(yīng)用的33種常用損失函數(shù)進(jìn)行調(diào)研,包括分類、回歸、排序、樣本生成和基于能源建模;損失函數(shù)的直觀分類,按任務(wù)、學(xué)習(xí)范式和基本策略來進(jìn)行組織;為初學(xué)者和高級機(jī)器學(xué)習(xí)從業(yè)者在為他們的問題定義適當(dāng)損失函數(shù)時(shí)提供使用參考。
一句話總結(jié):對各種機(jī)器學(xué)習(xí)應(yīng)用的33種常用損失函數(shù)進(jìn)行調(diào)研,按易于理解的分類進(jìn)行整理,作為從業(yè)者在為問題定義適當(dāng)損失函數(shù)時(shí)提供參考。
摘要:大多數(shù)最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),都圍繞著損失函數(shù)的優(yōu)化。因此,定義適當(dāng)?shù)膿p失函數(shù)對于成功解決該領(lǐng)域的問題至關(guān)重要。本文對各種不同應(yīng)用中最常用的損失函數(shù)進(jìn)行了調(diào)研,分為分類、回歸、排序、樣本生成和基于能源建模。本文將33種不同的損失函數(shù),組織成容易理解的分類。每種損失函數(shù)都有其理論支持,本文描述了其最適合使用的場景。本綜述旨在為初學(xué)者和高級機(jī)器學(xué)習(xí)從業(yè)者提供最基本的損失函數(shù)參考。
面向Grounded生成的文本到圖像擴(kuò)散模型引導(dǎo)????Guiding Text-to-Image Diffusion Model Towards Grounded Generation
Z Li, Q Zhou, X Zhang, Y Zhang, Y Wang, W Xie
[Shanghai Jiao Tong University]
https://arxiv.org/abs/2301.05221
https://lipurple.github.io/Grounded_Diffusion/
要點(diǎn):在現(xiàn)有的擴(kuò)散模型中插入一個(gè) grounding 模塊,該模塊可進(jìn)行訓(xùn)練,使擴(kuò)散模型的視覺和文本嵌入空間僅與少數(shù)目標(biāo)類別對齊;提出一種由 {圖像、分割掩碼、文本提示} 三元組組成的數(shù)據(jù)集的自動化管線,以訓(xùn)練所提出的 grounding 模塊;評估從文本到圖像擴(kuò)散模型生成的圖像上的開放詞匯 grounding 性能,該模塊可以很好地分割訓(xùn)練時(shí)看到的類別的對象。
一句話總結(jié):提出一種用 grounding 模塊將開放詞匯對象 grounding 加入文本到圖像擴(kuò)散模型的方法,以及相應(yīng)的數(shù)據(jù)集構(gòu)建管線,顯示出分割未見過對象的良好性能,以及用于零樣本語義分割的潛力。
摘要:本文的目標(biāo)是增強(qiáng)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,該模型具有開放世界目標(biāo) grounding 的能力,即同時(shí)為文本提示符中描述的相應(yīng)視覺實(shí)體生成圖像和分割掩碼。本文貢獻(xiàn)如下:(i) 在現(xiàn)有的擴(kuò)散模型中插入一個(gè) grounding 模塊,該模塊可進(jìn)行訓(xùn)練,使擴(kuò)散模型的視覺和文本嵌入空間僅與少數(shù)目標(biāo)類別對齊;(ii) 提出一種由 {圖像、分割掩碼、文本提示} 三元組組成的數(shù)據(jù)集的自動化管線,以訓(xùn)練所提出的 grounding 模塊;(iii) 評估從文本到圖像擴(kuò)散模型生成的圖像上的開放詞匯 grounding 性能,該模塊可以很好地分割訓(xùn)練時(shí)看到的類別的對象;(iv) 用引導(dǎo)擴(kuò)散模型構(gòu)建合成語義分割數(shù)據(jù)集,在此類數(shù)據(jù)集上訓(xùn)練標(biāo)準(zhǔn)分割模型表明,在零樣本分割(ZS3)基準(zhǔn)上具有競爭力,為采用強(qiáng)大的擴(kuò)散模型進(jìn)行判別性任務(wù)提供了新的思路。




Box2Mask: 基于水平集演化的框監(jiān)督實(shí)例分割????Box2Mask: Box-supervised Instance Segmentation via Level-set Evolution
W Li, W Liu, J Zhu, M Cui, R Yu, X Hua, L Zhang
[Zhejiang University & Alibaba Group & The Hong Kong Polytechnic University]
https://arxiv.org/abs/2212.01579
https://github.com/LiWentomng/boxlevelset
要點(diǎn):提出一種新的單樣本實(shí)例分割方法Box2Mask,使用邊框標(biāo)注而不是像素級掩碼標(biāo)記;Box2Mask 用水平集演化模型來實(shí)現(xiàn)準(zhǔn)確的掩模預(yù)測,并將深度神經(jīng)網(wǎng)絡(luò)集成到學(xué)習(xí)水平集曲線中;用基于像素親和力核的局部一致性模塊來挖掘局部上下文和空間關(guān)系。
一句話總結(jié):Box2Mask方法是一種新的單樣本實(shí)例分割方法,使用邊框標(biāo)注并集成水平集演化和深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了在各種數(shù)據(jù)集上準(zhǔn)確的掩模預(yù)測,超越全掩碼監(jiān)督方法。
摘要:與使用像素掩碼標(biāo)記的全監(jiān)督方法不同,框監(jiān)督實(shí)例分割利用了簡單的框標(biāo)注,這種方法正引來越來越多的研究關(guān)注。本文提出一種新的單樣本實(shí)例分割方法Box2Mask,將經(jīng)典的水平集(Level-Set)演化模型集成到深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,只需邊框監(jiān)督即可實(shí)現(xiàn)準(zhǔn)確的掩碼預(yù)測。輸入圖像及其深度特征都用于隱式地進(jìn)化水平集曲線,用基于像素親和力核的局部一致性模塊來挖掘局部上下文和空間關(guān)系。提出了兩種類型的單級框架,即基于CNN和基于 Transformer 的框架,以增強(qiáng)框監(jiān)督實(shí)例分割的水平集進(jìn)化,每個(gè)框架由三個(gè)基本組件組成:實(shí)例感知解碼器、框級匹配分配和水平集進(jìn)化。通過最小化水平集能量函數(shù),可以在其邊框標(biāo)注中迭代優(yōu)化每個(gè)實(shí)例的掩碼映射。五個(gè)具有挑戰(zhàn)性的測試平臺的實(shí)驗(yàn)結(jié)果涵蓋了一般場景、遙感、醫(yī)療和場景文本圖像,展示了所提出的Box2Mask方法在框監(jiān)督實(shí)例分割方面的出色表現(xiàn)。特別是,使用 Swin-Transformer 大規(guī)模主干,Box2Mask在COCO上獲得了42.4%的掩碼AP,與最近提出的全掩碼監(jiān)督方法相當(dāng)。






SemPPL: 面向更好對比性表示的偽標(biāo)簽預(yù)測????SemPPL: Predicting pseudo-labels for better contrastive representations
M Bo?njak, P H. Richemond, N Tomasev, F Strub, J C. Walker, F Hill, L H Buesing, R Pascanu, C Blundell, J Mitrovic
[DeepMind]
https://arxiv.org/abs/2301.05158
要點(diǎn):提出一種新的半監(jiān)督學(xué)習(xí)方法,Semantic Positives via Pseudo-Labels (SemPPL),結(jié)合標(biāo)記和無標(biāo)記的數(shù)據(jù)來學(xué)習(xí)信息性表示;通過使用k近鄰分類器來擴(kuò)展自監(jiān)督對比學(xué)習(xí),以預(yù)測缺失標(biāo)簽(偽標(biāo)簽),用具有相同偽標(biāo)簽(語義正樣本)的數(shù)據(jù)點(diǎn)豐富一組正樣本;聯(lián)合學(xué)習(xí)表示和預(yù)測 bootstrapped 偽標(biāo)簽,從而提高與競爭的半監(jiān)督方法相比的性能。
一句話總結(jié):提出一種新的半監(jiān)督學(xué)習(xí)方法Semantic Positives via Pseudo-Labels (SemPPL),結(jié)合了標(biāo)記和未標(biāo)記數(shù)據(jù),通過預(yù)測缺失標(biāo)簽來學(xué)習(xí)信息豐富的表示,在 ImageNet 數(shù)據(jù)集上取得了新的最佳性能。
摘要:從大量非監(jiān)督數(shù)據(jù)和少量監(jiān)督中學(xué)習(xí),是計(jì)算機(jī)視覺中的一個(gè)重要開放問題。本文提出一種新的半監(jiān)督學(xué)習(xí)方法,Semantic Positives via Pseudo-Labels (SemPPL)),結(jié)合了標(biāo)記和無標(biāo)記數(shù)據(jù)來學(xué)習(xí)信息性表示。該方法擴(kuò)展了自監(jiān)督對比學(xué)習(xí)——通過區(qū)分兩個(gè)樣本是否代表相同的底層基準(zhǔn)(正性)來塑造表示——并采用一種選擇正樣本的新方法。為了豐富一組正樣本,利用現(xiàn)有的少數(shù)真實(shí)標(biāo)簽,通過k近鄰分類器,用標(biāo)記數(shù)據(jù)的習(xí)得嵌入來預(yù)測缺失標(biāo)簽。用具有相同偽標(biāo)簽的數(shù)據(jù)點(diǎn)擴(kuò)展正樣本,叫做語義正樣本。聯(lián)合學(xué)習(xí)表征和預(yù)測 bootstrapped 偽標(biāo)簽。這創(chuàng)造了一個(gè)強(qiáng)化循環(huán)。強(qiáng)大的初始表示可以實(shí)現(xiàn)更好的偽標(biāo)簽預(yù)測,從而改善語義正樣本的選擇,并導(dǎo)致更好的表示。

視覺 Transformer 是優(yōu)秀的掩碼自標(biāo)記器? ??Vision Transformers Are Good Mask Auto-Labelers
S Lan, X Yang, Z Yu, Z Wu, J M. Alvarez, A Anandkumar
[NVIDIA & Meta AI & Fudan University]
https://arxiv.org/abs/2301.03992
https://github.com/NVlabs/mask-auto-labeler
要點(diǎn):提出一種新的基于框監(jiān)督的實(shí)例分割兩階段框架——掩碼自標(biāo)記器(MAL),簡單且與實(shí)例分割模塊設(shè)計(jì)無關(guān);用視覺Transformers(ViTs)作為圖像編碼器會產(chǎn)生較強(qiáng)的自動標(biāo)記效果;MAL的特定設(shè)計(jì)元素——例如基于注意力的解碼器,基于框擴(kuò)展的多實(shí)例學(xué)習(xí)和類別無關(guān)訓(xùn)練——對自動標(biāo)記性能有重要影響。
一句話總結(jié):提出一種新的基于框監(jiān)督的實(shí)例分割的兩階段框架MAL,利用視覺 Transformer 生成高質(zhì)量的掩碼偽標(biāo)記,確定了增強(qiáng)MAL性能的關(guān)鍵設(shè)計(jì)元素,縮小了框監(jiān)督和全監(jiān)督方法之間的差距,可以達(dá)到幾乎人類水平的表現(xiàn),并能很好地泛化到未見過的新類別。
摘要:提出了一種基于Transformer的高質(zhì)量掩碼自標(biāo)注框架掩碼自標(biāo)記器(MAL),只用框標(biāo)注進(jìn)行實(shí)例分割。MAL將框裁剪圖像作為輸入,并有條件地生成其掩碼偽標(biāo)簽。視覺Transformer是優(yōu)秀的掩碼自標(biāo)注器。所提出方法顯著減少了自動標(biāo)記與人工標(biāo)記之間關(guān)于掩碼質(zhì)量的差距。用MAL生成的掩碼訓(xùn)練的實(shí)例分割模型可以接近與其全監(jiān)督對應(yīng)模型的性能相匹配,保留了高達(dá) 97.4% 的全監(jiān)督模型性能。最佳模型在COCO實(shí)例分割上(test-dev 2017)達(dá)到 44.1% mAP,顯著優(yōu)于最先進(jìn)的框監(jiān)督方法。定性結(jié)果表明,MAL生成的掩碼在某些情況下甚至比人工標(biāo)注更好。




訓(xùn)練軌跡、mini-batch損失和學(xué)習(xí)率的獨(dú)特特性????Training trajectories, mini-batch losses and the curious role of the learning rate
M Sandler, A Zhmoginov, M Vladymyrov, N Miller
[Google Research]
https://arxiv.org/abs/2301.02312
要點(diǎn):在用隨機(jī)梯度下降訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)時(shí),mini-batch損失函數(shù)可以通過二次函數(shù)準(zhǔn)確模擬;大的學(xué)習(xí)率可以在單次梯度下降步達(dá)到非常低的損失值;一個(gè)簡單的模型和幾何解釋可以分析mini-batch梯度與全批量梯度之間的關(guān)系以及學(xué)習(xí)率如何影響這種關(guān)系;迭代平均和學(xué)習(xí)率規(guī)劃之間的聯(lián)系,可以在理論模型和大規(guī)模多數(shù)據(jù)集訓(xùn)練中同時(shí)觀察到。
一句話總結(jié):隨機(jī)梯度下降學(xué)習(xí)率具有獨(dú)特的特性,可以通過簡單的模型和幾何解釋進(jìn)行分析,并且與迭代平均的聯(lián)系可以在理論模型和大規(guī)模多數(shù)據(jù)集訓(xùn)練中同時(shí)觀察到。
摘要:隨機(jī)梯度下降(SGD)在幾乎所有深度學(xué)習(xí)應(yīng)用中都起著基礎(chǔ)性的作用。然而,它的效率以及收斂于全局最小值的顯著能力依然很神秘。在大型網(wǎng)絡(luò)上定義的損失函數(shù)在大量數(shù)據(jù)中已知是非凸的。然而,關(guān)于單個(gè)批次的損失函數(shù)的行為探討相對較少。本文表明,對ResNet而言,任何固定的mini-batch在SGD軌跡旁測量時(shí)的損失似乎可以通過二次函數(shù)準(zhǔn)確建模。特別地,在單步梯度下降中,可以通過足夠大的學(xué)習(xí)率達(dá)到非常低的損失值。本文提出一個(gè)簡單的模型和幾何解釋,可以分析隨機(jī)mini-batch梯度與全批量梯度間的關(guān)系以及學(xué)習(xí)率如何影響這種關(guān)系。該分析使得能發(fā)現(xiàn)迭代聚合與特定學(xué)習(xí)率規(guī)劃之間的等價(jià)性。特別地,對于指數(shù)移動平均(EMA)和隨機(jī)權(quán)重平均,所提出的模型與ImageNet上觀察到的訓(xùn)練軌跡相匹配。本文的理論模型預(yù)測,即使用更簡單的平均技術(shù),平均僅幾步外的兩個(gè)點(diǎn),也相對于基線顯著提高了精度。用ResNet架構(gòu)在ImageNet和其他數(shù)據(jù)集上也驗(yàn)證了該發(fā)現(xiàn)。
面向視覺語言預(yù)訓(xùn)練的過濾、蒸餾和硬負(fù)樣本????Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training
F Radenovic, A Dubey, A Kadian, T Mihaylov, S Vandenhende, Y Patel, Y Wen, V Ramanathan, D Mahajan
[Meta AI]
https://arxiv.org/abs/2301.02280
https://github.com/facebookresearch/diht
要點(diǎn):提出復(fù)雜度、動作和文本定位(Complexity, Action, and Text-spotting - CAT)數(shù)據(jù)集過濾策略,可以減少數(shù)據(jù)集大小,并提高零樣本視覺-語言任務(wù)上的性能;概念蒸餾是一種用強(qiáng)大的單模態(tài)表示進(jìn)行對比訓(xùn)練的技術(shù),不會增加訓(xùn)練復(fù)雜度;提出一種重要性采樣方法,用于對硬負(fù)樣本進(jìn)行上采樣,作為對傳統(tǒng)對比對齊目標(biāo)的修改;一種新的少樣本線性探測方法彌合了零樣本和少樣本學(xué)習(xí)之間的差距。
一句話總結(jié):通過精心的數(shù)據(jù)集過濾和簡單的建模改進(jìn),可以通過大規(guī)模預(yù)訓(xùn)練在檢索和分類任務(wù)中實(shí)現(xiàn)零樣本性能的顯著提高。CAT 過濾可以應(yīng)用于任意大規(guī)模數(shù)據(jù)集,概念蒸餾是利用大容量預(yù)訓(xùn)練圖像模型進(jìn)行多模態(tài)訓(xùn)練的計(jì)算和存儲高效的方法,提出少樣本線性探測方法比之前的工作有所改進(jìn)。
摘要:用大規(guī)模含噪數(shù)據(jù)對比學(xué)習(xí)訓(xùn)練的視覺-語言模型越來越受歡迎,用于零樣本識別問題。本文改進(jìn)了對比預(yù)訓(xùn)練流水線的以下三方面:數(shù)據(jù)集噪聲、模型初始化和訓(xùn)練目標(biāo)。本文提出一種簡單的過濾策略,名為復(fù)雜度,動作和文本定位(CAT),它顯著減少了數(shù)據(jù)集大小,同時(shí)在零樣本視覺-語言任務(wù)中實(shí)現(xiàn)了性能改進(jìn)。本文提出一種名為概念蒸餾的方法,利用強(qiáng)大的單模態(tài)表示進(jìn)行對比訓(xùn)練,在性能優(yōu)于之前工作的同時(shí)不會增加訓(xùn)練復(fù)雜度。本文修改了傳統(tǒng)的對比對齊目標(biāo),并提出一種重要性采樣方法,用于對硬負(fù)樣本進(jìn)行上采樣,而不會增加額外的復(fù)雜度。在29項(xiàng)任務(wù)的廣泛零樣本基準(zhǔn)測試中,所提出的蒸餾和硬負(fù)訓(xùn)練(DiHT)方法相比基線在20項(xiàng)任務(wù)中取得了改進(jìn)。此外,對于少樣本線性探測,本文提出一種新的方法,該方法彌合了零樣本和少樣本性能之間的差距,大大改善了之前的工作。




高性能計(jì)算的迷思和傳說????Myths and Legends in High-Performance Computing
S Matsuoka, J Domke, M Wahib, A Drozd, T Hoefler
[RIKEN Center for Computational Science & ETH Zurich]
https://arxiv.org/abs/2301.02432
要點(diǎn):討論高性能計(jì)算社區(qū)內(nèi)外流傳的迷思和傳言。這些迷思代表了該領(lǐng)域當(dāng)前經(jīng)歷巨大變化的時(shí)代,可以作為未來研究和投資的潛在新方向。
一句話總結(jié):本文提出了高性能計(jì)算社區(qū)內(nèi)外的一系列迷思和傳言,并鼓勵(lì)就這些迷思進(jìn)行討論和爭論,作為未來研究和投資的潛在新方向。
摘要:這篇幽默而發(fā)人深省的文章,討論了高性能計(jì)算社區(qū)中流傳的某些迷思和傳言。本文從會議和活動的對話、產(chǎn)品廣告、論文以及其他媒介(如推文、博客和新聞文章)中收集了這些迷思。相信它們代表了由 Dennard 擴(kuò)展和摩爾定律等許多擴(kuò)展律終結(jié)引發(fā)的當(dāng)前大變革的時(shí)代精神。雖然一些定律終結(jié),但也打開了新的方向,如算法擴(kuò)展或新的體系結(jié)構(gòu)研究。但是,這些迷思很少基于科學(xué)事實(shí),而往往基于某些證據(jù)或論證。本文認(rèn)為這就是許多迷思存在的原因,也是它們無法明確回答的原因。雖然感覺上應(yīng)該為每個(gè)迷思都有明確的答案,但有些可能會成為無休止的哲學(xué)辯論,比如貝多芬是否比莫扎特更優(yōu)秀的問題。希望將這些迷思作為可能的新研究方向和產(chǎn)業(yè)投資的討論。
StitchNet: 用預(yù)訓(xùn)練片段創(chuàng)建高性能神經(jīng)網(wǎng)絡(luò)????StitchNet: Composing Neural Networks from Pre-Trained Fragments
S Teerapittayanon, M Comiter, B McDanel, H.T. Kung (2023)
https://arxiv.org/abs/2301.01947
要點(diǎn):StitchNet 范式:一種通過組合多個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的片段來創(chuàng)建高性能神經(jīng)網(wǎng)絡(luò)的方法;在評估片段的可組合性時(shí),采用居中內(nèi)核對齊(CKA)的新方法;提出用于線性層和卷積層的可組合片段的組合技術(shù)。
一句話總結(jié):StitchNet 是通過結(jié)合多個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的片段來創(chuàng)建高性能神經(jīng)網(wǎng)絡(luò)的方法,用居中內(nèi)核對齊(CKA)來評估兼容性并指導(dǎo)選擇。StitchNets 可以在較少的計(jì)算和數(shù)據(jù)資源的情況下實(shí)現(xiàn)與傳統(tǒng)訓(xùn)練網(wǎng)絡(luò)相當(dāng)?shù)木?,并可用于即時(shí)個(gè)性化模型創(chuàng)建和推理效率的提升。
摘要:提出了 StitchNet,一種新的神經(jīng)網(wǎng)絡(luò)創(chuàng)建范式,將來自多個(gè)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的片段(一個(gè)或多個(gè)連續(xù)網(wǎng)絡(luò)層)拼接在一起。StitchNet 可以不需要傳統(tǒng)模型創(chuàng)建過程中反向傳播所需大量計(jì)算和數(shù)據(jù)要求而創(chuàng)建高性能神經(jīng)網(wǎng)絡(luò)。利用居中內(nèi)核對齊(CKA)作為兼容性度量,有效地指導(dǎo)這些片段在組成針對特定精度需求和計(jì)算資源約束的給定任務(wù)的網(wǎng)絡(luò)的選擇。本文展示了這些片段可以被拼接在一起,以創(chuàng)建與傳統(tǒng)訓(xùn)練網(wǎng)絡(luò)相當(dāng)精度的神經(jīng)網(wǎng)絡(luò),而計(jì)算資源和數(shù)據(jù)要求的比例小得多。本文還探索了這種新范式激活的新型即時(shí)個(gè)性化模型創(chuàng)建和推理應(yīng)用。

重新思考高效神經(jīng)模型的移動端塊????Rethinking Mobile Block for Efficient Neural Models
J Zhang, X Li, J Li, L Liu, Z Xue, B Zhang, Z Jiang, T Huang, Y Wang, C Wang
[Tencent & Peking University & Wuhan University]
https://arxiv.org/abs/2301.01146
要點(diǎn):本文專注于設(shè)計(jì)具有低參數(shù)低 FLOPs 的高效模型,用于稠密預(yù)測;提出Meta-Mobile Block,一種統(tǒng)一 MobileNetv2 中高效逆殘差塊和 ViT 中有效Transformer的通用概念;提出了用于移動和稠密應(yīng)用的逆殘差移動塊(iRMB)和高效模塊(EMO),基于Meta-Mobile Block概念,并在多個(gè)基準(zhǔn)測試上實(shí)現(xiàn)了強(qiáng)大的性能。
一句話總結(jié):本文提出 Meta-Mobile Block 概念和 iRMB 和 EMO 模型,用于高效稠密預(yù)測,在多個(gè)基準(zhǔn)測試中證明了其優(yōu)于最先進(jìn)的方法。
摘要:本文致力于設(shè)計(jì)低參數(shù)低 FLOPs 的高效模型,用于稠密預(yù)測。盡管基于 CNN 的輕量方法在多年的研究后取得了令人矚目的成果,但在準(zhǔn)確性和受限資源之間權(quán)衡的模型仍需進(jìn)一步改進(jìn)。本研究重新思考了 MobileNetv2 中高效逆殘差塊和 ViT 中有效 Transformer 的基本統(tǒng)一性,通過歸納抽象出 Meta-Mobile Block 的一般概念,即使共享相同的框架,具體實(shí)例化也對模型性能非常重要。受這一現(xiàn)象的啟發(fā),本文推導(dǎo)出了一種簡單而高效的現(xiàn)代逆殘差移動塊(iRMB),用于移動應(yīng)用,其吸收了 CNN 的效率,用于模擬短程依賴關(guān)系,并具有 Transformer 類似的動態(tài)建模能力,用于學(xué)習(xí)長程交互。本文還設(shè)計(jì)了一種僅基于一系列 iRMB 的 ResNet 類 4 階段高效模塊(EMO),用于稠密應(yīng)用。在 ImageNet-1K、COCO2017 和 ADE20K 基準(zhǔn)測試中進(jìn)行的大量實(shí)驗(yàn)證明了 EMO 優(yōu)于最先進(jìn)的方法,同時(shí)很好地平衡了模型準(zhǔn)確性和效率。

魯棒動態(tài)輻射場????Robust Dynamic Radiance Fields
Y Liu, C Gao, A Meuleman, H Tseng, A Saraf, C Kim, Y Chuang, J Kopf, J Huang
[Meta & National Taiwan University & KAIST]
https://arxiv.org/abs/2301.02239
https://robust-dynrf.github.io/
要點(diǎn):提出一種不需要已知相機(jī)姿態(tài)作為輸入的動態(tài)單目視頻時(shí)空合成算法;經(jīng)過精心設(shè)計(jì)的架構(gòu)和輔助損失,提高了相機(jī)姿態(tài)估計(jì)和動態(tài)輻射場重建的魯棒性;在典型的 SfM 系統(tǒng)無法估計(jì)相機(jī)姿態(tài)的挑戰(zhàn)性數(shù)據(jù)集上表現(xiàn)出良好的魯棒性。
一句話總結(jié):提出了一種在不需要已知相機(jī)姿態(tài)的情況下魯棒重建動態(tài)輻射場的方法,通過精心設(shè)計(jì)的模型和輔助損失有效提升了魯棒性。
摘要:動態(tài)輻射場重建方法旨在對動態(tài)場景的時(shí)變結(jié)構(gòu)和外觀進(jìn)行建模。然而,現(xiàn)有方法假設(shè)通過運(yùn)動結(jié)構(gòu)(SfM)算法可以可靠地估計(jì)準(zhǔn)確的相機(jī)姿態(tài)。因此,這些方法不可靠,因?yàn)?SfM 算法常常在具有高動態(tài)對象、紋理質(zhì)量差的表面和旋轉(zhuǎn)相機(jī)運(yùn)動的挑戰(zhàn)性視頻中失敗或產(chǎn)生錯(cuò)誤的姿態(tài)。本文通過聯(lián)合估計(jì)靜態(tài)和動態(tài)輻射場以及相機(jī)參數(shù)(姿態(tài)和焦距)來解決該魯棒性問題。本文通過大量的定量和定性實(shí)驗(yàn)來展示該方法的魯棒性。實(shí)驗(yàn)結(jié)果顯示,與最先進(jìn)的動態(tài)視圖合成方法相比具有良好的性能。




All in Tokens: 通過軟Token統(tǒng)一視覺任務(wù)輸出空間????All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
J Ning, C Li, Z Zhang, Z Geng, Q Dai, K He, H Hu
[Microsoft Research Asia & Huazhong University of Science and Technology & ...]
https://arxiv.org/abs/2301.02229
https://github.com/SwinTransformer/AiT
要點(diǎn):引入軟Token來表示視覺任務(wù)的輸出;用掩碼增強(qiáng)來提高存在標(biāo)簽標(biāo)記值損壞或未定義的任務(wù)的性能;提出一個(gè)統(tǒng)一的自回歸編-解碼器模型,可同時(shí)處理多個(gè)視覺任務(wù)。
一句話總結(jié):提出用軟Token表示視覺任務(wù)輸出的新方法,以及多視覺任務(wù)的統(tǒng)一模型,在深度估計(jì)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能,并在目標(biāo)檢測和實(shí)例分割方面實(shí)現(xiàn)了有競爭力的結(jié)果。



BiMLP: 視覺多層感知器緊湊二值架構(gòu)????BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons
Y Xu, X Chen, Y Wang
[Huawei Noah’s Ark Lab]
https://arxiv.org/abs/2212.14158
https://gitee.com/mindspore/models/tree/master/research/cv/BiMLP
要點(diǎn):二值化多層感知器(MLP)模型的主要困難,在于FC層的表示能力比卷積網(wǎng)絡(luò)模型中具有更大核尺寸的卷積操作要差;引入一種多分支二值MLP塊(MBB塊)和Uni-shortcut操作來提高二值MLP模型的表示能力;修改下采樣層架構(gòu)以降低計(jì)算復(fù)雜度;在ImageNet-1K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的BiMLP模型比最先進(jìn)的ReActNet模型在top-1精度上有1.3%的提高,操作次數(shù)減少了12.1%。


SinDDM: 單圖像去噪擴(kuò)散模型????SinDDM: A Single Image Denoising Diffusion Model
V Kulikov, S Yadin, M Kleiner, T Michaeli
[Technion – Israel Institute of Technology]
https://arxiv.org/abs/2211.16582
https://matankleiner.github.io/sinddm/
要點(diǎn):去噪擴(kuò)散模型(DDM)為圖像生成、編輯和恢復(fù)帶來了顯著的性能提升;提出一種在單幅圖像上訓(xùn)練DDM的框架SinDDM,用多尺度擴(kuò)散過程和輕量去噪器來驅(qū)動反向擴(kuò)散過程;SinDDM適用于各種任務(wù),如風(fēng)格遷移和用單幅圖像引導(dǎo)生成,并且能生成任意維的多樣高質(zhì)量樣本。
摘要:去噪擴(kuò)散模型(DDM)帶來了圖像生成、編輯和恢復(fù)方面的驚人性能飛躍。然而,現(xiàn)有的DDM用非常大的數(shù)據(jù)集進(jìn)行訓(xùn)練。本文提出一種在單幅圖像上訓(xùn)練DDM的框架。創(chuàng)建SinDDM的方法通過用多尺度擴(kuò)散過程學(xué)習(xí)訓(xùn)練圖像的內(nèi)部統(tǒng)計(jì)信息。為了推動反向擴(kuò)散過程,用全卷積輕量去噪器,該去噪器取決于噪音水平和規(guī)模。該架構(gòu)允許以從粗到細(xì)的方式生成任意維的樣本。SinDDM可生成各種高質(zhì)量樣本,并適用于各種任務(wù),包括樣式遷移和協(xié)調(diào)。此外,它很容易受到外部監(jiān)督的指導(dǎo)。特別是,用預(yù)訓(xùn)練的CLIP模型演示了從單幅圖像進(jìn)行文本引導(dǎo)生成。


Imagen編輯器和EditBench:文本引導(dǎo)圖像補(bǔ)齊的推進(jìn)與評估????Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting
S Wang, C Saharia, C Montgomery, J Pont-Tuset, S Noy, S Pellegrini, Y Onoe, S Laszlo, D J. Fleet, R Soricut...
[Google Research]
https://arxiv.org/abs/2212.06909
要點(diǎn):Imagen Editor是一種級聯(lián)擴(kuò)散模型,可在文本引導(dǎo)圖像補(bǔ)全上微調(diào),用目標(biāo)檢測器在訓(xùn)練期間提出補(bǔ)全掩碼;EditBench是一種系統(tǒng)的文本引導(dǎo)圖像補(bǔ)全基準(zhǔn),可對自然圖像和生成圖像的補(bǔ)全編輯進(jìn)行細(xì)粒度評估,探索對象、屬性和場景;EditBench上的人工評估表明,訓(xùn)練期間的目標(biāo)掩碼可以改善文本圖像對齊,當(dāng)前模型比文本渲染更擅長對象渲染。
摘要:文本引導(dǎo)圖像編輯可在支持創(chuàng)意應(yīng)用方面產(chǎn)生變革性影響。一個(gè)關(guān)鍵的挑戰(zhàn)是生成忠實(shí)于輸入文本提示的編輯,同時(shí)與輸入圖像保持一致。本文提出Imagen編輯器,一種通過在文本引導(dǎo)圖像補(bǔ)全上微調(diào)Imagen構(gòu)建的級聯(lián)擴(kuò)散模型。Imagen編輯器的編輯忠實(shí)于文本提示,這是通過在訓(xùn)練期間使用目標(biāo)檢測器提出補(bǔ)全掩碼來完成的。此外,圖像編輯器通過調(diào)節(jié)原始高分辨率圖像上的級聯(lián)管道來捕獲輸入圖像中的精細(xì)細(xì)節(jié)。為了改進(jìn)定性和定量評估,引入了EditBench,文本引導(dǎo)圖像補(bǔ)全的系統(tǒng)基準(zhǔn)。EditBench評估自然和生成圖像的補(bǔ)全編輯,探索對象、屬性和場景。通過對EditBench的廣泛人工評估,發(fā)現(xiàn)訓(xùn)練期間的目標(biāo)掩碼導(dǎo)致文本圖像對齊的全面改進(jìn)——例如,圖像編輯器優(yōu)于DALL-E 2和Stable Diffusion——作為一個(gè)隊(duì)列,這些模型更擅長目標(biāo)渲染而不是文本渲染,并且比計(jì)數(shù)/形狀屬性更好地處理材料/顏色/大小屬性。




