愛(ài)可可老師7月至9月的推薦(2021.10.12整理)——MLPs與Vision Transformer主干架構(gòu)專(zhuān)題,時(shí)間從近(9月)至遠(yuǎn)(7月)
PoNet: Pooling Network for Efficient Token Mixing in Long Sequences
PoNet:基于池化網(wǎng)絡(luò)的長(zhǎng)序列高效Token混合
https://hub.fastgit.org/lxchtan/PoNet
UFO-ViT: High Performance Linear Vision Transformer without Softmax
UFO-ViT:免Softmax高性能線性視覺(jué)Transformer
J Song
[Kakao Enterprise]
Predicting Attention Sparsity in Transformers
M Treviso, A Góis, P Fernandes, E Fonseca, A F. T. Martins
[Instituto de Telecomunica??es]
Transformer注意力稀疏度預(yù)測(cè)。Transformer結(jié)構(gòu)的一個(gè)瓶頸,是其相對(duì)于輸入序列的二次復(fù)雜度,這催生了大量關(guān)于softmax有效稀疏近似的工作。entmax transformer使用的另一種方法,是內(nèi)置精確的稀疏注意;但是這種方法仍然需要四次的計(jì)算。本文提出Sparsefinder,一個(gè)簡(jiǎn)單模型,在計(jì)算entmax注意力之前,訓(xùn)練它來(lái)識(shí)別稀疏模式。在兩個(gè)任務(wù)上實(shí)驗(yàn)了該方法的三個(gè)變體,即基于距離、量化和聚類(lèi)的方法:機(jī)器翻譯(解碼器中的注意力)和掩碼語(yǔ)言建模(僅編碼器)。該工作為研究模型效率提供了一個(gè)新的角度,即對(duì)預(yù)測(cè)注意力圖的稀疏性和召回率之間的權(quán)衡做了廣泛的分析。允許在不同的模型之間進(jìn)行詳細(xì)的比較,并可能指導(dǎo)未來(lái)稀疏模型的基準(zhǔn)。
Transformers Generalize Linearly
Transformer的線性泛化(結(jié)構(gòu)性泛化)
J Petty, R Frank
Do Long-Range Language Models Actually Use Long-Range Context?
長(zhǎng)程語(yǔ)言模型真的有用長(zhǎng)程上下文嗎?
S Sun, K Krishna, A Mattarella-Micke, M Iyyer
[University of Massachusetts Amherst & Intuit AI]
https://weibo.com/1402400261/Kzi2bkkn9
Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?
C Tang, Y Zhao, G Wang, C Luo, W Xie, W Zeng
[Microsoft Research Asia & University of Science and Technology of China]
稀疏MLP圖像識(shí)別:自注意力真有必要嗎?Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用正在大規(guī)模興起。本文探討了Transformer中的核心自注意力模塊是否是在圖像識(shí)別中取得優(yōu)異表現(xiàn)的關(guān)鍵。為此,在現(xiàn)有的基于MLP的視覺(jué)模型基礎(chǔ)上建立了一個(gè)無(wú)注意力的網(wǎng)絡(luò)sMLPNet。用一種新的稀疏MLP(sMLP)模塊取代了token混合步驟中的MLP模塊。對(duì)于2D圖像token,sMLP沿軸向應(yīng)用一維MLP,參數(shù)在行或列之間共享。通過(guò)稀疏連接和權(quán)重共享,sMLP模塊避免了傳統(tǒng)MLP的二次模型大小和二次計(jì)算復(fù)雜性,大大減少了模型參數(shù)數(shù)量和計(jì)算復(fù)雜性,避免了困擾類(lèi)MLP模型性能的常見(jiàn)過(guò)擬合問(wèn)題。當(dāng)只在ImageNet-1K數(shù)據(jù)集上訓(xùn)練時(shí),所提出的sMLPNet僅用24M的參數(shù)就達(dá)到了81.9%的top-1準(zhǔn)確率,在相同的模型規(guī)模約束下,比大多數(shù)CNN和視覺(jué)Transformer要好得多。當(dāng)擴(kuò)展到66M參數(shù)時(shí),sMLPNet達(dá)到了83.4%的最高準(zhǔn)確率,這與最先進(jìn)的Swin Transformer相當(dāng)。sMLPNet的成功表明,自注意力機(jī)制不一定是計(jì)算機(jī)視覺(jué)中的銀彈。代碼將被公開(kāi)提供。
Sparse-MLP: A Fully-MLP Architecture with Conditional Computation
Y Lou, F Xue, Z Zheng, Y You
[National University of Singapore]
Sparse-MLP:條件計(jì)算全MLP架構(gòu)。稀疏條件計(jì)算混合專(zhuān)家模型(MoE)已被證明是一種有效的架構(gòu),可以在計(jì)算成本相當(dāng)?shù)那闆r下將基于注意力的模型擴(kuò)展到更多的參數(shù)。本文提出Sparse-MLP,用稀疏MoE層擴(kuò)展最近的MLP-Mixer模型,以實(shí)現(xiàn)更高效的計(jì)算架構(gòu)。將MLP-Mixer模型中的密集MLP塊的一個(gè)子集替換為稀疏塊。在每個(gè)稀疏塊中,應(yīng)用兩級(jí)MoE層:一級(jí)是MLP專(zhuān)家沿圖塊維度混合通道內(nèi)的信息,一級(jí)是MLP專(zhuān)家沿通道維度混合圖塊內(nèi)的信息。此外,為減少路由計(jì)算成本并提高專(zhuān)家能力,在每個(gè)稀疏塊中設(shè)計(jì)了Re-represent層。這些層是通過(guò)兩個(gè)簡(jiǎn)單而有效的線性變換來(lái)重新擴(kuò)展圖像的表示。當(dāng)用MoCo v3算法對(duì)ImageNet-1k進(jìn)行預(yù)訓(xùn)練時(shí),該模型在ImageNet Top-1的準(zhǔn)確率上比密集MLP模型高出2.5%,而參數(shù)和計(jì)算成本更低。在小規(guī)模的下游圖像分類(lèi)任務(wù)上,即Cifar10和Cifar100,稀疏MLP仍然可以取得比基線更好的性能。
ConvMLP: Hierarchical Convolutional MLPs for Vision
https://hub.fastgit.org/SHI-Labs/Convolutional-MLPs
J Li, A Hassani, S Walton, H Shi
[University of Oregon]
ConvMLP:視覺(jué)分層卷積MLP。基于MLP的架構(gòu)由一連串多層感知器塊組成,最近被發(fā)現(xiàn)可達(dá)到與卷積和基于Transformer的方法相當(dāng)?shù)慕Y(jié)果。然而,大多數(shù)采用的是空間MLP,接受固定維度的輸入,因此很難將其應(yīng)用于下游任務(wù),如目標(biāo)檢測(cè)和語(yǔ)義分割。此外,單級(jí)設(shè)計(jì)進(jìn)一步限制了其他計(jì)算機(jī)視覺(jué)任務(wù)的性能,而且全連接層的計(jì)算量很大。為解決這些問(wèn)題,本文提出ConvMLP:面向視覺(jué)識(shí)別的分層卷積MLP,輕量、分階段、共同設(shè)計(jì)的卷積層和MLP。ConvMLPS在ImageNet-1k上以9M的參數(shù)和2.4G的MACs達(dá)到了76.8%的最高精度(MLPMixer-B/16分別是15%和19%)。關(guān)于目標(biāo)檢測(cè)和語(yǔ)義分割的實(shí)驗(yàn)進(jìn)一步表明,通過(guò)ConvMLP學(xué)習(xí)的視覺(jué)表示可以被無(wú)縫遷移,并以較少的參數(shù)取得有競(jìng)爭(zhēng)力的結(jié)果。
PermuteFormer: Efficient Relative Position Encoding for Long Sequences
https://hub.fastgit.org/cpcp1998/PermuteFormer
P Chen
[Peking University]
PermuteFormer: 長(zhǎng)序列高效相對(duì)位置編碼。Transformer的一個(gè)最新變種Performer,通過(guò)線性注意力機(jī)制將Transformer擴(kuò)展到長(zhǎng)序列,但與相對(duì)位置編碼不兼容,而相對(duì)位置編碼比絕對(duì)位置編碼有優(yōu)勢(shì)。本文中討論了為Performer增加相對(duì)位置編碼的可能方法。在分析的基礎(chǔ)上,提出了PermuteFormer,一種基于Performer的相對(duì)位置編碼模型,在長(zhǎng)序列上可線性擴(kuò)展。PermuteFormer在查詢和鍵上應(yīng)用位置相關(guān)轉(zhuǎn)換,將位置信息編碼到注意力模塊。這種轉(zhuǎn)換是經(jīng)過(guò)精心設(shè)計(jì)的,因此自注意力的最終輸出不會(huì)受到token絕對(duì)位置的影響。PermuteFormer通過(guò)設(shè)計(jì)引入了可忽略不計(jì)的計(jì)算開(kāi)銷(xiāo),運(yùn)行速度與Performer一樣快。在Long-Range Arena(一個(gè)長(zhǎng)序列數(shù)據(jù)集)和WikiText-103(一個(gè)語(yǔ)言建模數(shù)據(jù)集)上評(píng)估了PermuteFormer。實(shí)驗(yàn)表明,PermuteFormer在幾乎沒(méi)有計(jì)算開(kāi)銷(xiāo)的情況下普遍提高了Performer的性能,并在大多數(shù)任務(wù)上優(yōu)于vanilla Transformer。
Exploring and Improving Mobile Level Vision Transformers
移動(dòng)級(jí)視覺(jué)Transformer的探索和改進(jìn)
Searching for Efficient Multi-Stage Vision Transformers
Y Liao, S Karaman, V Sze
[MIT]
高效多階段視覺(jué)Transformer探索。視覺(jué)Transformer(ViT)證明了用于自然語(yǔ)言處理的Transformer可以應(yīng)用到計(jì)算機(jī)視覺(jué)任務(wù)中,并產(chǎn)生與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相當(dāng)?shù)男阅埽笳咴谟?jì)算機(jī)視覺(jué)中已經(jīng)被研究和采用多年了。這自然提出了一個(gè)問(wèn)題:如何利用CNN的設(shè)計(jì)技術(shù)提高ViT的性能。為此,本文提出將CNN的兩種設(shè)計(jì)技術(shù),即空間縮減和NAS,融入到ViT中,并提出了ViT-ResNAS,用神經(jīng)架構(gòu)搜索(NAS)設(shè)計(jì)的高效多階段ViT架構(gòu)。提出了殘差空間縮減,以減少較深層的序列長(zhǎng)度,利用多階段架構(gòu)。減少長(zhǎng)度時(shí),增加了跳接(skip connection),以提高性能并穩(wěn)定訓(xùn)練更深的網(wǎng)絡(luò)。提出了具有多架構(gòu)采樣的分權(quán)NAS。放大一個(gè)網(wǎng)絡(luò)并利用其子網(wǎng)絡(luò)來(lái)定義一個(gè)搜索空間。然后訓(xùn)練一個(gè)覆蓋所有子網(wǎng)絡(luò)的超級(jí)網(wǎng)絡(luò),以快速評(píng)估其性能。為有效地訓(xùn)練超級(jí)網(wǎng)絡(luò),提出用一個(gè)前向-后向通道對(duì)多個(gè)子網(wǎng)絡(luò)進(jìn)行采樣和訓(xùn)練。通過(guò)進(jìn)化搜索來(lái)發(fā)現(xiàn)高性能的網(wǎng)絡(luò)結(jié)構(gòu)。在ImageNet上的實(shí)驗(yàn)表明,ViT-ResNAS比原來(lái)的DeiT和ViT的其他強(qiáng)基線實(shí)現(xiàn)了更好的精度-MAC和精度-吞吐量折衷。
∞-former: Infinite Memory Transformer
P H Martins, Z Marinho, A F. T. Martins
[Instituto de Telecomunica??es & DeepMind]
∞-former:無(wú)限記憶Transformer。Transformer在處理長(zhǎng)上下文時(shí)很吃力,因?yàn)橛?jì)算量隨著上下文長(zhǎng)度的增加而增加,不能有效模擬長(zhǎng)期記憶。為緩解該問(wèn)題,已經(jīng)提出了幾種變體,但它們都是有限的記憶容量,被迫放棄舊的信息。本文提出∞-former,它擴(kuò)展了具有無(wú)界長(zhǎng)期記憶的vanilla transformer。通過(guò)利用連續(xù)空間注意力機(jī)制來(lái)關(guān)注長(zhǎng)期記憶,∞-former的注意力復(fù)雜性變得與上下文長(zhǎng)度無(wú)關(guān)。因此,能夠模擬任意長(zhǎng)的上下文并保持"粘性記憶",同時(shí)保持一個(gè)固定的計(jì)算量。在一個(gè)合成分類(lèi)任務(wù)上的實(shí)驗(yàn)證明了∞-former保留長(zhǎng)序列信息的能力。進(jìn)行了語(yǔ)言建模的實(shí)驗(yàn),通過(guò)從頭開(kāi)始訓(xùn)練一個(gè)模型和微調(diào)一個(gè)預(yù)訓(xùn)練語(yǔ)言模型,顯示了無(wú)界長(zhǎng)期記憶的好處。
Hire-MLP: Vision MLP via Hierarchical Rearrangement
J Guo, Y Tang, K Han, X Chen, H Wu, C Xu, C Xu, Y Wang
[Huawei Technologies & Peking University & University of Sydney]
Hire-MLP:基于分層重排的視覺(jué)MLP。本文提出Hire-MLP,一個(gè)簡(jiǎn)單而有競(jìng)爭(zhēng)力的基于分層重排的視覺(jué)MLP架構(gòu)。之前的視覺(jué)MLP,如MLP-Mixer,對(duì)于各種尺寸的圖像來(lái)說(shuō)并不靈活,而且通過(guò)扁平化的token捕捉空間信息的效率很低。Hire-MLP對(duì)現(xiàn)有基于MLP的模型進(jìn)行了創(chuàng)新,提出了分層重排的想法,以聚合局部和全局的空間信息,同時(shí)對(duì)下游任務(wù)具有通用性。內(nèi)部區(qū)域重排的設(shè)計(jì)是為了捕捉空間區(qū)域內(nèi)的局部信息。為了實(shí)現(xiàn)不同區(qū)域之間的信息交流并獲取全局信息,提出了跨區(qū)域重排,以沿空間方向循環(huán)移動(dòng)所有token。所提出的HireMLP架構(gòu)是由簡(jiǎn)單的通道混合MLP和重排操作構(gòu)建的,具有很高的靈活性和推理速度。實(shí)驗(yàn)表明,Hire-MLP在ImageNet-1K基準(zhǔn)上取得了最先進(jìn)的性能,在ImageNet上達(dá)到了83.4%的最高精度,超過(guò)了之前基于Transformer和基于MLP的模型,在準(zhǔn)確率和吞吐量之間有更好的權(quán)衡。
The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers
R Csordás, K Irie, J Schmidhuber
[The Swiss AI Lab IDSIA]
魔鬼在細(xì)節(jié):提高Transformer系統(tǒng)泛化能力的簡(jiǎn)單技巧。最近,很多數(shù)據(jù)集被提出以測(cè)試神經(jīng)網(wǎng)絡(luò)的系統(tǒng)泛化能力。與之對(duì)應(yīng)的基線Transformer,通常是用標(biāo)準(zhǔn)任務(wù)中的默認(rèn)超參數(shù)進(jìn)行訓(xùn)練的,被證明是非常失敗的。本文證明通過(guò)改進(jìn)模型配置,如嵌入的尺度、早期停止、相對(duì)位置嵌入和通用Transformer變體等基本配置,可以極大提高Transformer在系統(tǒng)泛化方面的性能。報(bào)告了對(duì)五個(gè)流行數(shù)據(jù)集的改進(jìn)。SCAN、CFQ、PCFG、COGS和數(shù)學(xué)數(shù)據(jù)集。所提出模型在PCFG分割上將準(zhǔn)確率從50%提高到85%,在COGS上從35%提高到81%。在SCAN上,相對(duì)位置嵌入在很大程度上緩解了EOS決策問(wèn)題,在長(zhǎng)度分割上達(dá)到了100%的精度。這些模型之間的性能差異通常在IID數(shù)據(jù)分割上是看不見(jiàn)的,需要適當(dāng)?shù)姆夯?yàn)證集來(lái)開(kāi)發(fā)系統(tǒng)性泛化的神經(jīng)網(wǎng)絡(luò)。
Do Transformer Modifications Transfer Across Implementations and Applications?
S Narang, H W Chung, Y Tay, W Fedus, T Fevry, M Matena, K Malkan, N Fiedel, N Shazeer, Z Lan, Y Zhou, W Li, N Ding, J Marcus, A Roberts, C Raffel
[Google Research]
Transformer的修改能否在不同的實(shí)現(xiàn)和應(yīng)用間遷移?自Transformer架構(gòu)在三年前推出以來(lái),研究界已經(jīng)提出了大量的修改意見(jiàn),但其中相對(duì)較少的修改意見(jiàn)得到了廣泛的采用。本文在一個(gè)涵蓋自然語(yǔ)言處理中Transformer大多數(shù)常見(jiàn)用途的共享實(shí)驗(yàn)環(huán)境中,全面評(píng)估了這些修改。令人驚訝的是,大多數(shù)修改都不能有意義地提高性能。大多數(shù)Transformer變體都是基于同一套代碼開(kāi)發(fā)的,或者只有相對(duì)較小的改動(dòng)。猜測(cè)性能的提高可能在很大程度上取決于實(shí)現(xiàn)細(xì)節(jié),相應(yīng)地提出一些建議,以提高實(shí)驗(yàn)結(jié)果的通用性。
Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer
C Wu, F Wu, T Qi, Y Huang
[Tsinghua University & Microsoft Research Asia]
Smart Bird:基于可學(xué)習(xí)稀疏注意力的高效高性能Transformer。Transformer在NLP中取得了巨大的成功。然而,Transformer中自注意力機(jī)制的二次方復(fù)雜性使其在處理長(zhǎng)序列時(shí)效率低下。許多現(xiàn)有的工作探索通過(guò)計(jì)算稀疏自注意力而不是密集自注意力來(lái)加速Transformer,通常關(guān)注某些位置的token或隨機(jī)選擇的token。然而,手動(dòng)選擇的或隨機(jī)的標(biāo)記,對(duì)上下文建模來(lái)說(shuō)可能是信息不足的。本文提出Smart Bird,一種具有可學(xué)習(xí)稀疏注意力的高效Transformer,可智能地關(guān)注重要的token對(duì)。先用一個(gè)單頭低維Transformer計(jì)算出一個(gè)粗略的注意力矩陣,其目的是找到token之間潛在的重要交互,根據(jù)從粗略注意力矩陣中得出的概率分?jǐn)?shù)對(duì)token進(jìn)行采樣,為不同的注意力頭生成不同的稀疏注意力指數(shù)矩陣,根據(jù)索引矩陣選擇token嵌入,以形成稀疏注意力網(wǎng)絡(luò)的輸入。Smart Bird可有效降低Transformer的計(jì)算復(fù)雜度,同時(shí)可以識(shí)別token間的重要交互,更準(zhǔn)確地捕捉上下文信息。在6個(gè)不同任務(wù)的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn),驗(yàn)證了Smart Bird在文本建模中的效率和效果。
SHAQ: Single Headed Attention with Quasi-Recurrence
SHAQ:準(zhǔn)遞歸單頭注意力
N Bharwani, W Kushner, S Dandona, B Schreiber
[Georgia Institute of Technology]
Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs
M A Islam, M Kowal, S Jia, K G. Derpanis, N D. B. Bruce
[Ryerson University & York University & University of Guelph & Toronto AI Lab]
CNN中的每通道位置信息編碼。本文挑戰(zhàn)一個(gè)常見(jiàn)假設(shè),即通過(guò)全局池化將卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的3D(空間通道)張量的空間維度壓縮成一個(gè)矢量,會(huì)消除所有空間信息。證明了位置信息是根據(jù)通道維度排序來(lái)編碼的,而語(yǔ)義信息基本上沒(méi)有。通過(guò)將這些發(fā)現(xiàn)應(yīng)用到兩個(gè)應(yīng)用中,展示了其在現(xiàn)實(shí)世界中的影響。提出了一個(gè)簡(jiǎn)單而有效的數(shù)據(jù)增強(qiáng)策略和損失函數(shù),以提高CNN輸出的轉(zhuǎn)換不變性。提出了一種方法來(lái)有效地確定潛表示中的哪些通道負(fù)責(zé)(i)編碼整體位置信息 或(ii)特定區(qū)域的位置。語(yǔ)義分割在很大程度上依賴于整體位置通道進(jìn)行預(yù)測(cè)。有可能進(jìn)行 "特定區(qū)域 "攻擊,并降低網(wǎng)絡(luò)在輸入的特定部分的性能。
Adaptive Multi-Resolution Attention with Linear Complexity
線性復(fù)雜度自適應(yīng)多分辨率注意力
Mobile-Former: Bridging MobileNet and Transformer
Y Chen, X Dai, D Chen, M Liu, X Dong, L Yuan, Z Liu
[Microsoft & University of Science and Technology of China]
Mobile-Former:MobileNet和Transformer的橋接并行設(shè)計(jì)。本文提出Mobile-Former,MobileNet和Transformer帶有雙向通道的并行設(shè)計(jì)。這種結(jié)構(gòu)充分利用了MobileNet在局部處理和Transformer在全局交互方面的優(yōu)勢(shì)。通道實(shí)現(xiàn)了局部和全局特征的雙向融合。與最近關(guān)于視覺(jué)Transformer的工作不同,Mobile-Former中的Transformer包含很少的Token(例如,少于6個(gè)Token),這些Token是隨機(jī)初始化的,因此計(jì)算成本很低。結(jié)合所提出的輕量交叉注意力建立通道模型,Mobile-Former不僅計(jì)算效率高,而且有更多的表示能力,在ImageNet分類(lèi)上,在25M到500M FLOPs的低FLOP設(shè)置下,超過(guò)了MobileNetV3。例如,在294M FLOPs時(shí),它達(dá)到了77.9%的最高準(zhǔn)確率,比MobileNetV3提高了1.3%,但節(jié)省了17%的計(jì)算量。當(dāng)遷移到目標(biāo)檢測(cè)時(shí),Mobile-Former比MobileNetV3高出8.6AP。
RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision?
RaftMLP:面向計(jì)算機(jī)視覺(jué)的改進(jìn)MLP模型
PSViT: Better Vision Transformer via Token Pooling and Attention Sharing
B Chen, P Li, B Li, C Li, L Bai, C Lin, M Sun, J Yan, W Ouyang
[The University of Sydney & BAIDU USA LLC & SenseTime Group Limited & University of Oxford]
PSViT:基于Token池化和注意力共享的更好視覺(jué)Transformer。本文觀察到在應(yīng)用視覺(jué)Transformer(ViT)進(jìn)行圖像識(shí)別時(shí),存在兩個(gè)層次的冗余。首先,在整個(gè)網(wǎng)絡(luò)中固定Token數(shù)量會(huì)在空間層面產(chǎn)生冗余的特征。第二,不同Transformer層之間的注意力圖是冗余的?;谏鲜鲇^察,本文提出PSViT:一種基于Token池化和注意力共享的ViT,以減少冗余,有效提高特征表示能力,并實(shí)現(xiàn)更好的速度-精度權(quán)衡。在PSViT中,Token池化可以被定義為在空間層面減少token數(shù)量的操作。相鄰Transformer層之間將建立注意力共享,以重用相鄰層之間具有強(qiáng)關(guān)聯(lián)性的注意力圖。為不同的Token池化和注意力共享機(jī)制構(gòu)建可能組合的緊湊集。基于該緊湊集,每層的Token數(shù)量和分享注意力的層的選擇可以被視為超參數(shù),從數(shù)據(jù)中自動(dòng)學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,與DeiT相比,所提出的方案在ImageNet分類(lèi)中可以實(shí)現(xiàn)高達(dá)6.6%的精度提升。
FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention
T M. Nguyen, V Suliafu, S J. Osher, L Chen, B Wang
[University of California, Los Angeles & University of Utah]
FMMformer: 基于近場(chǎng)和遠(yuǎn)場(chǎng)注意力分解的高效靈活Transformer。本文提出FMMformer,一種高效靈活的Transformer,其靈感來(lái)自于用于加速相互作用粒子仿真的快速多極方法(FMM)。FMM將粒子與粒子的相互作用分解為近場(chǎng)和遠(yuǎn)場(chǎng)部分,然后分別進(jìn)行直接計(jì)算和粗粒度計(jì)算。同樣,F(xiàn)MMformers將注意力分解為近場(chǎng)注意力和遠(yuǎn)場(chǎng)注意力,用帶狀矩陣對(duì)近場(chǎng)注意力進(jìn)行建模,用低秩矩陣對(duì)遠(yuǎn)場(chǎng)注意力進(jìn)行建模。計(jì)算FMMformers的注意力矩陣需要在計(jì)算時(shí)間和內(nèi)存占用方面與序列長(zhǎng)度呈線性復(fù)雜關(guān)系。相比之下,標(biāo)準(zhǔn)Transformer的復(fù)雜度是二次的。分析并驗(yàn)證了FMMformers在Long Range Arena和語(yǔ)言建?;鶞?zhǔn)上相比標(biāo)準(zhǔn)Transformer的優(yōu)勢(shì)。FMMformers甚至可以在精度方面大大超過(guò)標(biāo)準(zhǔn)Transformer。例如,F(xiàn)MMformers在五個(gè)Long Range Arena任務(wù)中取得了60.74%的平均分類(lèi)準(zhǔn)確率,這明顯優(yōu)于標(biāo)準(zhǔn)Transformer的58.70%的平均準(zhǔn)確率。
Vision Transformer with Progressive Sampling
https://hub.fastgit.org/yuexy/PS-ViT
(ICCV2021)
X Yue, S Sun, Z Kuang, M Wei, P Torr, W Zhang, D Lin
[Centre for Perceptual and Interactive Intelligence & University of Oxford & SenseTime Research & Tsinghua University]
漸進(jìn)采樣視覺(jué)Transformer。最近,具有強(qiáng)大全局關(guān)系建模能力的Transformer,已經(jīng)被引入到基本計(jì)算機(jī)視覺(jué)任務(wù)中。作為一個(gè)典型例子,視覺(jué)Transformer(ViT)直接將純Transformer架構(gòu)應(yīng)用于圖像分類(lèi),通過(guò)簡(jiǎn)單將圖像分割成具有固定長(zhǎng)度的token,用Transformer學(xué)習(xí)token之間的關(guān)系。然而,這種簡(jiǎn)單的token化可能會(huì)破壞物體結(jié)構(gòu),將網(wǎng)格分配給不感興趣的區(qū)域,如背景,引入干擾信號(hào)。為緩解該問(wèn)題,本文提出一種迭代和漸進(jìn)采樣策略,以定位鑒別性區(qū)域。每次迭代中,當(dāng)前采樣步驟的嵌入被送入一個(gè)Transformer編碼器層,預(yù)測(cè)一組采樣偏移量,以更新下一步采樣位置。漸進(jìn)式采樣是可微的。當(dāng)與視覺(jué)Transformer結(jié)合時(shí),得到的PS-ViT網(wǎng)絡(luò)可以自適應(yīng)地學(xué)習(xí)尋找的位置。PS-ViT既有效又高效,在ImageNet上從頭開(kāi)始訓(xùn)練時(shí),PS-ViT比vanilla ViT的top-1準(zhǔn)確率高3.8%,參數(shù)少4倍,F(xiàn)LOPs少10倍。
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
Evo-ViT:動(dòng)態(tài)視覺(jué)Transformer的慢-快Token進(jìn)化
https://hub.fastgit.org/YifanXu74/Evo-ViT
S2-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
T Yu, X Li, Y Cai, M Sun, P Li
[Baidu Research]
S2-MLPV2:面向視覺(jué)的改進(jìn)型空間位移MLP架構(gòu)。最近,基于MLP的視覺(jué)骨干嶄露頭角。與CNN和視覺(jué)Transformer相比,基于MLP的視覺(jué)架構(gòu)具有較小的歸納偏差,在圖像識(shí)別方面取得了有競(jìng)爭(zhēng)力的性能。其中,空間位移MLP(S-MLP),采用直接的空間位移操作,取得了比包括MLP-mixer和ResMLP在內(nèi)的開(kāi)創(chuàng)性工作更好的性能。最近,通過(guò)采用金字塔結(jié)構(gòu)和更小的圖塊,Vision Permutator(ViP)和Global Filter Network(GFNet)取得了比S-MLP更好的性能。本文改進(jìn)了S-MLP的視覺(jué)骨架,沿通道維度擴(kuò)展特征圖,并將擴(kuò)展后的特征圖分成若干部分。對(duì)分割的部分進(jìn)行不同的空間位移操作。利用分割-注意力操作來(lái)融合這些分割部分。同樣采用了更小圖塊,并使用金字塔結(jié)構(gòu),來(lái)提高圖像識(shí)別的精度。改進(jìn)的空間位移MLP視覺(jué)骨干稱為S2-MLPv2。使用55M參數(shù)的中等規(guī)模模型SMLPv2-Medium在ImageNet-1K基準(zhǔn)上使用224×224的圖像,在沒(méi)有自注意力和外部訓(xùn)練數(shù)據(jù)的情況下,達(dá)到了83.6%的最高精確度。
Go Wider Instead of Deeper
F Xue, Z Shi, F Wei, Y Lou, Y Liu, Y You
[National University of Singapore]
更寬而不是更深。Transformer最近在各種任務(wù)上取得了令人印象深刻的結(jié)果。為進(jìn)一步提高Transformer的有效性和效率,現(xiàn)有工作主要是兩種思路:(1)通過(guò)擴(kuò)展到更多的可訓(xùn)練參數(shù)來(lái)擴(kuò)大范圍;(2)通過(guò)參數(shù)共享或模型壓縮以及深度來(lái)縮小范圍。然而,當(dāng)可用于訓(xùn)練的標(biāo)記較少時(shí),較大的模型通常不能很好地?cái)U(kuò)展,而且當(dāng)模型非常大時(shí),需要先進(jìn)的并行機(jī)制。由于表示力的損失,較小的模型與原始的Transformer模型相比,通常取得較差的性能。為了用更少的可訓(xùn)練參數(shù)實(shí)現(xiàn)更好的性能,本文提出一個(gè)框架,通過(guò)更寬而不是更深來(lái)有效地部署可訓(xùn)練參數(shù)。通過(guò)用專(zhuān)家混合(MoE)取代前饋網(wǎng)絡(luò)(FFN)來(lái)擴(kuò)展模型寬度。利用各層的規(guī)范化,在各Transformer塊之間共享MoE層。這樣的部署起到了轉(zhuǎn)換各種語(yǔ)義表示的作用,使得模型的參數(shù)效率更高、更有效。為了評(píng)估該框架,設(shè)計(jì)了WideNet,并在ImageNet-1K上對(duì)其進(jìn)行了評(píng)估。其最佳模型在0.72倍的可訓(xùn)練參數(shù)下,比Vision Transformer(ViT)高出1.46%。使用0.46倍和0.13倍的參數(shù),WideNet仍然可以分別比ViT和ViT-MoE高出0.83%和2.08%。
Rethinking and Improving Relative Position Encoding for Vision Transformer
K Wu, H Peng, M Chen, J Fu, H Chao
[Sun Yat-sen University & Microsoft Research Asia]
視覺(jué)Transformer相對(duì)位置編碼的反思和改進(jìn)。相對(duì)位置編碼(RPE)對(duì)于Transformer來(lái)說(shuō)非常重要,可以捕捉到輸入標(biāo)記的序列順序。在自然語(yǔ)言處理中,其通用有效性已被證實(shí)。然而,在計(jì)算機(jī)視覺(jué)中,其有效性并沒(méi)有得到很好的研究,甚至仍然存在爭(zhēng)議,例如,相對(duì)位置編碼是否可以和絕對(duì)位置編碼一樣好用?為澄清這一點(diǎn),本文首先回顧了現(xiàn)有的相對(duì)位置編碼方法,并分析了它們?cè)谝曈X(jué)Transformer應(yīng)用中的優(yōu)點(diǎn)和缺點(diǎn)。提出了專(zhuān)用于2D圖像的新的相對(duì)位置編碼方法——圖像RPE(iRPE),該方法考慮了方向性的相對(duì)距離建模,以及查詢和相對(duì)位置嵌入在自注意力機(jī)制中的相互作用。iRPE方法是簡(jiǎn)單和輕量的,可以很容易地插入到Transformer塊中。實(shí)驗(yàn)表明,僅僅由于所提出的編碼方法,DeiT和DETR在ImageNet和COCO上分別比其原始版本獲得了高達(dá)1.5%(top-1 Acc)和1.3%(mAP)的穩(wěn)定改進(jìn),無(wú)需調(diào)整任何額外的超參數(shù),如學(xué)習(xí)速率和權(quán)重衰減。消融和分析也產(chǎn)生了有趣的發(fā)現(xiàn),其中一些與之前的理解相悖。
Contextual Transformer Networks for Visual Recognition
Y Li, T Yao, Y Pan, T Mei
[JD AI Research]
面向視覺(jué)識(shí)別的上下文Transformer網(wǎng)絡(luò)?;谧宰⒁饬Φ腡ransformer帶來(lái)了自然語(yǔ)言處理領(lǐng)域的革命,最近也激發(fā)了Transformer式架構(gòu)設(shè)計(jì)的出現(xiàn),并在許多計(jì)算機(jī)視覺(jué)任務(wù)中取得了有競(jìng)爭(zhēng)力的結(jié)果。然而,大多數(shù)現(xiàn)有設(shè)計(jì)直接采用2D特征圖上的自注意力,以獲得基于每個(gè)空間位置上孤立查詢和鍵對(duì)的注意力矩陣,但沒(méi)有充分地利用鄰近鍵之間的豐富上下文。本文設(shè)計(jì)了一種新的Transformer式模塊Contextual Transformer(CoT),利用輸入鍵之間的上下文信息來(lái)指導(dǎo)自注意力的學(xué)習(xí),用于視覺(jué)識(shí)別。該設(shè)計(jì)充分地利用了輸入鍵之間的上下文信息來(lái)指導(dǎo)動(dòng)態(tài)注意力矩陣的學(xué)習(xí),從而加強(qiáng)了視覺(jué)表示的能力。CoT塊首先通過(guò)3×3卷積對(duì)輸入鍵進(jìn)行上下文編碼,形成輸入的靜態(tài)上下文表示。將編碼的鍵與輸入查詢連接起來(lái),通過(guò)兩個(gè)連續(xù)的1×1卷積來(lái)學(xué)習(xí)動(dòng)態(tài)的多頭注意力矩陣。學(xué)到的注意力矩陣與輸入值相乘,以實(shí)現(xiàn)輸入的動(dòng)態(tài)上下文表示。靜態(tài)和動(dòng)態(tài)上下文表示的融合最終作為輸出。這種方式優(yōu)雅地將上下文挖掘和自注意力學(xué)習(xí)統(tǒng)一到一個(gè)架構(gòu)中,加強(qiáng)了視覺(jué)表示的能力。CoT模塊可以很容易地取代ResNet架構(gòu)中的每個(gè)3×3卷積,產(chǎn)生一個(gè)Transformer式的骨干——Contextual Transformer Networks(CoTNet)。對(duì)廣泛的應(yīng)用(如圖像識(shí)別、物體檢測(cè)和實(shí)例分割)的實(shí)驗(yàn),表明了CoTNet作為一個(gè)更強(qiáng)大的骨干網(wǎng)的優(yōu)勢(shì)。
H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences
Z Zhu, R Soricut
[Google Research]
H-Transformer-1D:面向序列的快速一維層次注意力。本文提出一種高效的層次方法來(lái)計(jì)算Transformer架構(gòu)中的注意力。所提出的注意機(jī)制利用了類(lèi)似于數(shù)值分析領(lǐng)域?qū)哟尉仃?H-Matrix)的矩陣結(jié)構(gòu),具有線性的運(yùn)行時(shí)間和內(nèi)存復(fù)雜度,與GPU和TPU上的密集線性代數(shù)庫(kù)完全兼容。廣泛的實(shí)驗(yàn)表明層次注意力所體現(xiàn)的歸納偏差在捕捉自然語(yǔ)言和視覺(jué)任務(wù)的典型序列中的層次結(jié)構(gòu)方面是有效的。在Long Range Arena基準(zhǔn)測(cè)試中,所提出方法比其他次二次建議平均高出+6分。在One-Billion Word數(shù)據(jù)集上創(chuàng)造了新的SOTA測(cè)試?yán)Щ蠖?,模型參?shù)比之前最好的基于Transformer的模型少5倍。
CycleMLP: A MLP-like Architecture for Dense Prediction
S Chen, E Xie, C Ge, D Liang, P Luo
[The University of Hong Kong & SenseTime Research]
CycleMLP:類(lèi)MLP密集預(yù)測(cè)架構(gòu)。本文提出一種簡(jiǎn)單的類(lèi)MLP架構(gòu)CycleMLP,視覺(jué)識(shí)別和密集預(yù)測(cè)的多功能骨干,與MLP-Mixer、ResMLP和gMLP等現(xiàn)代MLP架構(gòu)不同,它們的架構(gòu)與圖像大小相關(guān),因此在目標(biāo)檢測(cè)和分割中不可行。與現(xiàn)代方法相比,CycleMLP的主要優(yōu)勢(shì)有兩個(gè):(1) 可以應(yīng)對(duì)各種圖像尺寸 (2) 通過(guò)使用局部窗口實(shí)現(xiàn)了與圖像大小相關(guān)的線性計(jì)算復(fù)雜度。相比之下,之前的MLP由于其全空間連接而具有二次計(jì)算量。本文構(gòu)建了一個(gè)超越現(xiàn)有MLP的模型族,與最先進(jìn)的Swin Transformer(83.3%)相比,在ImageNet-1K分類(lèi)上取得了相當(dāng)?shù)臏?zhǔn)確性(83.2%),但用到的參數(shù)和FLOPs更少。擴(kuò)大了類(lèi)MLP模型的適用性,使其成為密集預(yù)測(cè)任務(wù)的多功能骨干。CycleMLP旨在為MLP模型的目標(biāo)檢測(cè)、實(shí)例分割和語(yǔ)義分割提供一個(gè)有競(jìng)爭(zhēng)力的基線。
Combiner: Full Attention Transformer with Sparse Computation Cost
H Ren, H Dai, Z Dai, M Yang, J Leskovec, D Schuurmans, B Dai
[Stanford University & Google Research]
Combiner:具有稀疏計(jì)算成本的全注意力Transformer。Transformer提供了一類(lèi)表現(xiàn)力強(qiáng)的架構(gòu),對(duì)序列建模非常有效。然而,Transformer的關(guān)鍵限制是它們相對(duì)注意力層序列長(zhǎng)度的二次記憶量和時(shí)間復(fù)雜度O(L),這限制了對(duì)極長(zhǎng)序列的應(yīng)用。大多數(shù)現(xiàn)有方法利用注意力矩陣中的稀疏性或低秩假設(shè)來(lái)降低成本,但犧牲了表達(dá)能力。本文提出Combiner,在每個(gè)注意力頭中提供完全的注意力能力,同時(shí)保持低計(jì)算和內(nèi)存復(fù)雜度。其關(guān)鍵思想是將自注意力機(jī)制視為對(duì)每個(gè)位置的嵌入的條件期望,并用結(jié)構(gòu)因子化來(lái)近似條件分布。每個(gè)位置都可以通過(guò)直接注意力或間接注意力來(lái)注意到所有其他位置的抽象,這些抽象又是對(duì)相應(yīng)局部區(qū)域嵌入的條件期望。在現(xiàn)有的稀疏Transformer中使用的大多數(shù)稀疏注意力模式能夠啟發(fā)全注意力的這種因子化的設(shè)計(jì),導(dǎo)致同樣的次二次方成本。Combiner是現(xiàn)有Transformer中注意力層的平移替換,可以很容易地在普通框架中實(shí)現(xiàn)。對(duì)自回歸和雙向序列任務(wù)的實(shí)驗(yàn)評(píng)估,證明了該方法的有效性,在一些圖像和文本建模任務(wù)上產(chǎn)生了最先進(jìn)的結(jié)果。
CMT: Convolutional Neural Networks Meet Vision Transformers
J Guo, K Han, H Wu, C Xu, Y Tang, C Xu, Y Wang
[Noah’s Ark Lab & University of Sydney]
CMT:卷積神經(jīng)網(wǎng)絡(luò)與視覺(jué)Transformer的混合架構(gòu)。視覺(jué)Transformer已經(jīng)成功地應(yīng)用于圖像識(shí)別任務(wù),得益于其能捕捉圖像中的長(zhǎng)程依賴關(guān)系。然而,Transformer和卷積神經(jīng)網(wǎng)絡(luò)(CNN)在性能和計(jì)算成本方面仍然存在差距。本文的目標(biāo),是開(kāi)發(fā)一個(gè)不僅可以超越典型的Transformer,還能超越高性能卷積模型的網(wǎng)絡(luò)。提出一種新的基于Transformer的混合網(wǎng)絡(luò),利用Transformer來(lái)捕捉長(zhǎng)程依賴關(guān)系,用CNN來(lái)模擬局部特征。對(duì)其進(jìn)行擴(kuò)展,得到了一個(gè)叫CMT的模型族,與之前基于卷積和Transformer的模型相比,獲得了更好的精度和效率。特別是,CMT-S在ImageNet上達(dá)到了83.5%的最高精度,同時(shí)在FLOPs上比現(xiàn)有的DeiT和EfficientNet分別小14倍和2倍。所提出的CMT-S在CIFAR10(99.2%)、CIFAR100(91.7%)、Flowers(98.7%)和其他具有挑戰(zhàn)性的視覺(jué)數(shù)據(jù)集如COCO(44.3% mAP)上也有很好的通用性,而且計(jì)算成本大大降低。
Perceiver: General Perception with Iterative Attention
https://hub.fastgit.org/lucidrains/perceiver-pytorch
很多星
A Jaegle, F Gimeno, A Brock, A Zisserman, O Vinyals, J Carreira
[DeepMind]
Perceiver:基于迭代注意力的一般感知。生物系統(tǒng)通過(guò)同時(shí)處理來(lái)自視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、本體感覺(jué)等不同模態(tài)的高維輸入來(lái)感知世界,而深度學(xué)習(xí)使用的感知模型是為單模態(tài)設(shè)計(jì)的,通常依賴于特定領(lǐng)域的假設(shè),如幾乎所有視覺(jué)模型所利用的局部網(wǎng)格結(jié)構(gòu)。這些先驗(yàn)引入了有用的歸納偏差,但也將模型鎖定在個(gè)別模態(tài)上。本文提出Perceiver——一種建立在Transformers基礎(chǔ)上的模型,對(duì)其輸入之間的關(guān)系沒(méi)有什么架構(gòu)上的假設(shè),但也可以像ConvNets一樣擴(kuò)展到數(shù)十萬(wàn)個(gè)輸入,可以處理任意的傳感器配置,在所有層面上實(shí)現(xiàn)信息的融合。該模型利用非對(duì)稱的注意力機(jī)制,將輸入迭代提煉成一個(gè)緊密的潛在瓶頸,使其能夠擴(kuò)展到處理非常大的輸入。實(shí)驗(yàn)表明,該架構(gòu)在各種模式的分類(lèi)任務(wù)上與強(qiáng)大的專(zhuān)門(mén)模型相競(jìng)爭(zhēng),甚至超過(guò)了它們:圖像、點(diǎn)云、音頻、視頻和視頻+音頻。Perceiver通過(guò)直接處理50,000個(gè)像素,在ImageNet上獲得了與ResNet-50和ViT相當(dāng)?shù)男阅?。它在AudioSet的所有模式中也有競(jìng)爭(zhēng)力。
Long-Short Transformer: Efficient Transformers for Language and Vision
https://hub.fastgit.org/lucidrains/long-short-transformer
C Zhu, W Ping, C Xiao, M Shoeybi, T Goldstein, A Anandkumar, B Catanzaro
[NVIDIA & University of Maryland]
長(zhǎng)-短Transformer:面向語(yǔ)言和視覺(jué)的高效Transformer。Transformer在語(yǔ)言和視覺(jué)領(lǐng)域都取得了成功。然而,將它們擴(kuò)展到長(zhǎng)序列(如長(zhǎng)文檔或高分辨率圖像)是非常昂貴的,因?yàn)橄鄬?duì)于輸入序列的長(zhǎng)度,自注意力機(jī)制具有二次的時(shí)間和記憶復(fù)雜度。本文中提出長(zhǎng)短Transformer(Transformer-LS),一種高效的自注意力機(jī)制,用于語(yǔ)言和視覺(jué)任務(wù)的長(zhǎng)序列建模,具有線性復(fù)雜度。該方法聚集了一種新的長(zhǎng)程注意力和一種短程注意力,前者用動(dòng)態(tài)投影來(lái)模擬遠(yuǎn)距離相關(guān)性,后者用來(lái)捕捉細(xì)粒度的局部相關(guān)性。提出一種雙重歸一化(DualLN)策略,已解決這兩種注意力機(jī)制之間規(guī)模的不匹配,更有效地聚合局部和全局注意力。Transformer-LS可用于自回歸和雙向模型,沒(méi)有額外的復(fù)雜性。該方法在語(yǔ)言和視覺(jué)領(lǐng)域的多個(gè)任務(wù)上都優(yōu)于最先進(jìn)的模型,包括Long Range Arena benchmark、自回歸語(yǔ)言建模和ImageNet分類(lèi)。例如,Transformer-LS在enwik8上用比以前的方法少一半的參數(shù)實(shí)現(xiàn)了0.97的測(cè)試BPC,同時(shí)速度更快,與相同硬件上的全注意力版本相比,能夠處理3倍長(zhǎng)的序列。在ImageNet上,可以獲得最先進(jìn)的結(jié)果(例如,僅在224×224的ImageNet-1K上訓(xùn)練的Top-1準(zhǔn)確率為84.1%),同時(shí)在高分辨率圖像上更具可擴(kuò)展性。
Rethinking Positional Encoding
J Zheng, S Ramasinghe, S Lucey
[University of Adelaide]
位置編碼的反思?;谧鴺?biāo)的多層感知器通過(guò)將坐標(biāo)位置編碼為一系列的傅里葉特征,在保留高頻信息方面受益匪淺。到目前為止,這些位置編碼的有效性的理由只通過(guò)傅里葉的視角進(jìn)行研究。本文試圖擴(kuò)大這種理解,表明其他非傅里葉嵌入函數(shù)確實(shí)可以用于位置編碼,其性能完全由嵌入矩陣的穩(wěn)定秩和嵌入坐標(biāo)間距離保持兩者的權(quán)衡決定?,F(xiàn)在無(wú)處不在的位置傅里葉特征映射是滿足這些條件的一個(gè)特例。提出了一個(gè)更普遍的理論來(lái)分析移位基函數(shù)方面的位置編碼。推導(dǎo)了必要的理論公式,并從經(jīng)驗(yàn)上驗(yàn)證了該理論主張?jiān)趯?shí)踐中是成立的。提出了一種新的位置編碼機(jī)制,在某些約束條件下,可以將任意的連續(xù)信號(hào)作為潛嵌入器,使位置編碼有更多的可解釋性和更少的限制性,可用于各種計(jì)算機(jī)視覺(jué)任務(wù)。
Augmented Shortcuts for Vision Transformers
Y Tang, K Han, C Xu, A Xiao, Y Deng, C Xu, Y Wang
[Peking University & Huawei Technologies & University of Sydney]
視覺(jué)Transformer的增強(qiáng)捷徑。Transformer模型最近在計(jì)算機(jī)視覺(jué)任務(wù)上取得了很大的進(jìn)展。視覺(jué)Transformer的快速發(fā)展主要是由于其從輸入圖像中提取信息性特征的強(qiáng)表示能力。然而,主流的Transformer模型都是采用深度架構(gòu)設(shè)計(jì)的,隨著深度的增加,特征的多樣性會(huì)不斷減少,也就是特征坍縮。本文從理論上分析了特征坍縮現(xiàn)象,研究了這些Transformer模型中捷徑和特征多樣性之間的關(guān)系。提出了一個(gè)增強(qiáng)捷徑方案,該方案在原始捷徑上并行插入了具有可學(xué)習(xí)參數(shù)的額外路徑。為節(jié)省計(jì)算成本,進(jìn)一步探索了一種高效方法,用塊循環(huán)投影來(lái)實(shí)現(xiàn)增強(qiáng)捷徑。在基準(zhǔn)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證明了所提出方法的有效性,使最先進(jìn)的視覺(jué)Transformer的準(zhǔn)確度提高了1%,而沒(méi)有明顯增加它們的參數(shù)和FLOPs。
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
CSWin Transformer:帶十字形窗口的通用視覺(jué)Transformer骨干
X Dong, J Bao, D Chen, W Zhang, N Yu, L Yuan, D Chen, B Guo
[University of Science and Technology of China & Microsoft Research Asia & Microsoft Cloud + AI]
Focal Self-attention for Local-Global Interactions in Vision Transformers
J Yang, C Li, P Zhang, X Dai, B Xiao, L Yuan, J Gao
[Microsoft Research at Redmond & Microsoft Cloud + AI]
視覺(jué)Transformer局部-全局交互焦點(diǎn)自注意力。最近,視覺(jué)Transformer及其變體在各種計(jì)算機(jī)視覺(jué)任務(wù)中顯示出巨大的前景。通過(guò)自注意力捕捉短程和長(zhǎng)程視覺(jué)依賴關(guān)系的能力是成功的關(guān)鍵,但同時(shí)也帶來(lái)了挑戰(zhàn),因?yàn)樾枰谋兜挠?jì)算開(kāi)銷(xiāo),特別是對(duì)于高分辨率的視覺(jué)任務(wù)(如目標(biāo)檢測(cè))。最近的許多工作試圖通過(guò)應(yīng)用粗粒度的全局注意力或細(xì)粒度的局部注意力來(lái)減少計(jì)算和內(nèi)存成本并提高性能。然而,這兩類(lèi)方法都削弱了多層Transformer原始的自注意力機(jī)制的建模能力,從而導(dǎo)致了次優(yōu)的解決方案。本文提出焦點(diǎn)式自注意力,同時(shí)包含細(xì)粒度局部和粗粒度全局的交互。每個(gè)標(biāo)記在細(xì)粒度上關(guān)注其周?chē)幍臉?biāo)記,在粗粒度上關(guān)注遠(yuǎn)處的標(biāo)記,可有效地捕捉短程和長(zhǎng)程的視覺(jué)依賴。基于焦點(diǎn)自注意力,提出一種新的視覺(jué)Transformer模型變體,F(xiàn)ocal Transformers,在一系列公共圖像分類(lèi)和物體檢測(cè)基準(zhǔn)上取得了比最先進(jìn)的視覺(jué)Transformer更高的性能。
Global Filter Networks for Image Classification
Y Rao, W Zhao, Z Zhu, J Lu, J Zhou
[Tsinghua University]
面向圖像分類(lèi)的全局濾波網(wǎng)絡(luò)。最近,用于視覺(jué)的自注意力和純多層感知器(MLP)模型的進(jìn)展顯示出巨大潛力,以較少的歸納偏差實(shí)現(xiàn)了可喜的性能。這些模型通常是基于從原始數(shù)據(jù)中學(xué)習(xí)空間位置之間的相互作用。隨著圖像大小的增加,自注意力和MLP的復(fù)雜性呈四次方增長(zhǎng),這使得這些模型在需要高分辨率特征時(shí)難以擴(kuò)大規(guī)模。本文提出全局濾波網(wǎng)絡(luò)(GFNet),一種概念簡(jiǎn)單但計(jì)算效率高的架構(gòu),以對(duì)數(shù)線性的復(fù)雜度學(xué)習(xí)頻域中的長(zhǎng)程空間依賴關(guān)系。該架構(gòu)用三個(gè)關(guān)鍵操作取代了視覺(jué)transformer中的自注意力層:二維離散傅里葉變換,頻域特征和可學(xué)習(xí)全局濾波器之間的逐元乘法,以及二維反傅里葉變換。展示了該模型在ImageNet和下游任務(wù)中有利的準(zhǔn)確性/復(fù)雜性權(quán)衡。實(shí)驗(yàn)結(jié)果表明,GFNet在效率、泛化能力和魯棒性方面可以成為transformer式模型和CNN的一個(gè)非常有競(jìng)爭(zhēng)力的替代方案。
AutoFormer: Searching Transformers for Visual Recognition
AutoFormer:面向視覺(jué)識(shí)別的Transformer架構(gòu)搜索