韩日av一区二区,中文字幕不卡无码视频

愛(ài)可可老師7月至9月的推薦(2021.10.12整理)——MLPs與Vision Transformer主干架構(gòu)專(zhuān)題，時(shí)間從近（9月）至遠(yuǎn)（7月）

PoNet: Pooling Network for Efficient Token Mixing in Long Sequences

PoNet：基于池化網(wǎng)絡(luò)的長(zhǎng)序列高效Token混合

https://hub.fastgit.org/lxchtan/PoNet

UFO-ViT: High Performance Linear Vision Transformer without Softmax

UFO-ViT：免Softmax高性能線性視覺(jué)Transformer

J Song

[Kakao Enterprise]

Predicting Attention Sparsity in Transformers

M Treviso, A Góis, P Fernandes, E Fonseca, A F. T. Martins

[Instituto de Telecomunica??es]

Transformer注意力稀疏度預(yù)測(cè)。Transformer結(jié)構(gòu)的一個(gè)瓶頸，是其相對(duì)于輸入序列的二次復(fù)雜度，這催生了大量關(guān)于softmax有效稀疏近似的工作。entmax transformer使用的另一種方法，是內(nèi)置精確的稀疏注意；但是這種方法仍然需要四次的計(jì)算。本文提出Sparsefinder，一個(gè)簡(jiǎn)單模型，在計(jì)算entmax注意力之前，訓(xùn)練它來(lái)識(shí)別稀疏模式。在兩個(gè)任務(wù)上實(shí)驗(yàn)了該方法的三個(gè)變體，即基于距離、量化和聚類(lèi)的方法：機(jī)器翻譯(解碼器中的注意力)和掩碼語(yǔ)言建模(僅編碼器)。該工作為研究模型效率提供了一個(gè)新的角度，即對(duì)預(yù)測(cè)注意力圖的稀疏性和召回率之間的權(quán)衡做了廣泛的分析。允許在不同的模型之間進(jìn)行詳細(xì)的比較，并可能指導(dǎo)未來(lái)稀疏模型的基準(zhǔn)。

Transformers Generalize Linearly

Transformer的線性泛化(結(jié)構(gòu)性泛化)

J Petty, R Frank

Do Long-Range Language Models Actually Use Long-Range Context?

長(zhǎng)程語(yǔ)言模型真的有用長(zhǎng)程上下文嗎？

S Sun, K Krishna, A Mattarella-Micke, M Iyyer

[University of Massachusetts Amherst & Intuit AI]

https://weibo.com/1402400261/Kzi2bkkn9

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

C Tang, Y Zhao, G Wang, C Luo, W Xie, W Zeng

[Microsoft Research Asia & University of Science and Technology of China]

稀疏MLP圖像識(shí)別：自注意力真有必要嗎？Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用正在大規(guī)模興起。本文探討了Transformer中的核心自注意力模塊是否是在圖像識(shí)別中取得優(yōu)異表現(xiàn)的關(guān)鍵。為此，在現(xiàn)有的基于MLP的視覺(jué)模型基礎(chǔ)上建立了一個(gè)無(wú)注意力的網(wǎng)絡(luò)sMLPNet。用一種新的稀疏MLP(sMLP)模塊取代了token混合步驟中的MLP模塊。對(duì)于2D圖像token，sMLP沿軸向應(yīng)用一維MLP，參數(shù)在行或列之間共享。通過(guò)稀疏連接和權(quán)重共享，sMLP模塊避免了傳統(tǒng)MLP的二次模型大小和二次計(jì)算復(fù)雜性，大大減少了模型參數(shù)數(shù)量和計(jì)算復(fù)雜性，避免了困擾類(lèi)MLP模型性能的常見(jiàn)過(guò)擬合問(wèn)題。當(dāng)只在ImageNet-1K數(shù)據(jù)集上訓(xùn)練時(shí)，所提出的sMLPNet僅用24M的參數(shù)就達(dá)到了81.9%的top-1準(zhǔn)確率，在相同的模型規(guī)模約束下，比大多數(shù)CNN和視覺(jué)Transformer要好得多。當(dāng)擴(kuò)展到66M參數(shù)時(shí)，sMLPNet達(dá)到了83.4%的最高準(zhǔn)確率，這與最先進(jìn)的Swin Transformer相當(dāng)。sMLPNet的成功表明，自注意力機(jī)制不一定是計(jì)算機(jī)視覺(jué)中的銀彈。代碼將被公開(kāi)提供。

Sparse-MLP: A Fully-MLP Architecture with Conditional Computation

Y Lou, F Xue, Z Zheng, Y You

[National University of Singapore]

Sparse-MLP：條件計(jì)算全MLP架構(gòu)。稀疏條件計(jì)算混合專(zhuān)家模型(MoE)已被證明是一種有效的架構(gòu)，可以在計(jì)算成本相當(dāng)?shù)那闆r下將基于注意力的模型擴(kuò)展到更多的參數(shù)。本文提出Sparse-MLP，用稀疏MoE層擴(kuò)展最近的MLP-Mixer模型，以實(shí)現(xiàn)更高效的計(jì)算架構(gòu)。將MLP-Mixer模型中的密集MLP塊的一個(gè)子集替換為稀疏塊。在每個(gè)稀疏塊中，應(yīng)用兩級(jí)MoE層：一級(jí)是MLP專(zhuān)家沿圖塊維度混合通道內(nèi)的信息，一級(jí)是MLP專(zhuān)家沿通道維度混合圖塊內(nèi)的信息。此外，為減少路由計(jì)算成本并提高專(zhuān)家能力，在每個(gè)稀疏塊中設(shè)計(jì)了Re-represent層。這些層是通過(guò)兩個(gè)簡(jiǎn)單而有效的線性變換來(lái)重新擴(kuò)展圖像的表示。當(dāng)用MoCo v3算法對(duì)ImageNet-1k進(jìn)行預(yù)訓(xùn)練時(shí)，該模型在ImageNet Top-1的準(zhǔn)確率上比密集MLP模型高出2.5%，而參數(shù)和計(jì)算成本更低。在小規(guī)模的下游圖像分類(lèi)任務(wù)上，即Cifar10和Cifar100，稀疏MLP仍然可以取得比基線更好的性能。

ConvMLP: Hierarchical Convolutional MLPs for Vision

https://hub.fastgit.org/SHI-Labs/Convolutional-MLPs

J Li, A Hassani, S Walton, H Shi

[University of Oregon]

ConvMLP：視覺(jué)分層卷積MLP。基于MLP的架構(gòu)由一連串多層感知器塊組成，最近被發(fā)現(xiàn)可達(dá)到與卷積和基于Transformer的方法相當(dāng)?shù)慕Y(jié)果。然而，大多數(shù)采用的是空間MLP，接受固定維度的輸入，因此很難將其應(yīng)用于下游任務(wù)，如目標(biāo)檢測(cè)和語(yǔ)義分割。此外，單級(jí)設(shè)計(jì)進(jìn)一步限制了其他計(jì)算機(jī)視覺(jué)任務(wù)的性能，而且全連接層的計(jì)算量很大。為解決這些問(wèn)題，本文提出ConvMLP：面向視覺(jué)識(shí)別的分層卷積MLP，輕量、分階段、共同設(shè)計(jì)的卷積層和MLP。ConvMLPS在ImageNet-1k上以9M的參數(shù)和2.4G的MACs達(dá)到了76.8%的最高精度(MLPMixer-B/16分別是15%和19%）。關(guān)于目標(biāo)檢測(cè)和語(yǔ)義分割的實(shí)驗(yàn)進(jìn)一步表明，通過(guò)ConvMLP學(xué)習(xí)的視覺(jué)表示可以被無(wú)縫遷移，并以較少的參數(shù)取得有競(jìng)爭(zhēng)力的結(jié)果。

PermuteFormer: Efficient Relative Position Encoding for Long Sequences

https://hub.fastgit.org/cpcp1998/PermuteFormer

P Chen

[Peking University]

PermuteFormer: 長(zhǎng)序列高效相對(duì)位置編碼。Transformer的一個(gè)最新變種Performer，通過(guò)線性注意力機(jī)制將Transformer擴(kuò)展到長(zhǎng)序列，但與相對(duì)位置編碼不兼容，而相對(duì)位置編碼比絕對(duì)位置編碼有優(yōu)勢(shì)。本文中討論了為Performer增加相對(duì)位置編碼的可能方法。在分析的基礎(chǔ)上，提出了PermuteFormer，一種基于Performer的相對(duì)位置編碼模型，在長(zhǎng)序列上可線性擴(kuò)展。PermuteFormer在查詢和鍵上應(yīng)用位置相關(guān)轉(zhuǎn)換，將位置信息編碼到注意力模塊。這種轉(zhuǎn)換是經(jīng)過(guò)精心設(shè)計(jì)的，因此自注意力的最終輸出不會(huì)受到token絕對(duì)位置的影響。PermuteFormer通過(guò)設(shè)計(jì)引入了可忽略不計(jì)的計(jì)算開(kāi)銷(xiāo)，運(yùn)行速度與Performer一樣快。在Long-Range Arena(一個(gè)長(zhǎng)序列數(shù)據(jù)集)和WikiText-103(一個(gè)語(yǔ)言建模數(shù)據(jù)集)上評(píng)估了PermuteFormer。實(shí)驗(yàn)表明，PermuteFormer在幾乎沒(méi)有計(jì)算開(kāi)銷(xiāo)的情況下普遍提高了Performer的性能，并在大多數(shù)任務(wù)上優(yōu)于vanilla Transformer。

Exploring and Improving Mobile Level Vision Transformers

移動(dòng)級(jí)視覺(jué)Transformer的探索和改進(jìn)

Searching for Efficient Multi-Stage Vision Transformers

Y Liao, S Karaman, V Sze

[MIT]

高效多階段視覺(jué)Transformer探索。視覺(jué)Transformer(ViT)證明了用于自然語(yǔ)言處理的Transformer可以應(yīng)用到計(jì)算機(jī)視覺(jué)任務(wù)中，并產(chǎn)生與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相當(dāng)?shù)男阅埽笳咴谟?jì)算機(jī)視覺(jué)中已經(jīng)被研究和采用多年了。這自然提出了一個(gè)問(wèn)題：如何利用CNN的設(shè)計(jì)技術(shù)提高ViT的性能。為此，本文提出將CNN的兩種設(shè)計(jì)技術(shù)，即空間縮減和NAS，融入到ViT中，并提出了ViT-ResNAS，用神經(jīng)架構(gòu)搜索(NAS)設(shè)計(jì)的高效多階段ViT架構(gòu)。提出了殘差空間縮減，以減少較深層的序列長(zhǎng)度，利用多階段架構(gòu)。減少長(zhǎng)度時(shí)，增加了跳接(skip connection)，以提高性能并穩(wěn)定訓(xùn)練更深的網(wǎng)絡(luò)。提出了具有多架構(gòu)采樣的分權(quán)NAS。放大一個(gè)網(wǎng)絡(luò)并利用其子網(wǎng)絡(luò)來(lái)定義一個(gè)搜索空間。然后訓(xùn)練一個(gè)覆蓋所有子網(wǎng)絡(luò)的超級(jí)網(wǎng)絡(luò)，以快速評(píng)估其性能。為有效地訓(xùn)練超級(jí)網(wǎng)絡(luò)，提出用一個(gè)前向-后向通道對(duì)多個(gè)子網(wǎng)絡(luò)進(jìn)行采樣和訓(xùn)練。通過(guò)進(jìn)化搜索來(lái)發(fā)現(xiàn)高性能的網(wǎng)絡(luò)結(jié)構(gòu)。在ImageNet上的實(shí)驗(yàn)表明，ViT-ResNAS比原來(lái)的DeiT和ViT的其他強(qiáng)基線實(shí)現(xiàn)了更好的精度-MAC和精度-吞吐量折衷。

∞-former: Infinite Memory Transformer

P H Martins, Z Marinho, A F. T. Martins

[Instituto de Telecomunica??es & DeepMind]

∞-former：無(wú)限記憶Transformer。Transformer在處理長(zhǎng)上下文時(shí)很吃力，因?yàn)橛?jì)算量隨著上下文長(zhǎng)度的增加而增加，不能有效模擬長(zhǎng)期記憶。為緩解該問(wèn)題，已經(jīng)提出了幾種變體，但它們都是有限的記憶容量，被迫放棄舊的信息。本文提出∞-former，它擴(kuò)展了具有無(wú)界長(zhǎng)期記憶的vanilla transformer。通過(guò)利用連續(xù)空間注意力機(jī)制來(lái)關(guān)注長(zhǎng)期記憶，∞-former的注意力復(fù)雜性變得與上下文長(zhǎng)度無(wú)關(guān)。因此，能夠模擬任意長(zhǎng)的上下文并保持"粘性記憶"，同時(shí)保持一個(gè)固定的計(jì)算量。在一個(gè)合成分類(lèi)任務(wù)上的實(shí)驗(yàn)證明了∞-former保留長(zhǎng)序列信息的能力。進(jìn)行了語(yǔ)言建模的實(shí)驗(yàn)，通過(guò)從頭開(kāi)始訓(xùn)練一個(gè)模型和微調(diào)一個(gè)預(yù)訓(xùn)練語(yǔ)言模型，顯示了無(wú)界長(zhǎng)期記憶的好處。

Hire-MLP: Vision MLP via Hierarchical Rearrangement

J Guo, Y Tang, K Han, X Chen, H Wu, C Xu, C Xu, Y Wang

[Huawei Technologies & Peking University & University of Sydney]

Hire-MLP：基于分層重排的視覺(jué)MLP。本文提出Hire-MLP，一個(gè)簡(jiǎn)單而有競(jìng)爭(zhēng)力的基于分層重排的視覺(jué)MLP架構(gòu)。之前的視覺(jué)MLP，如MLP-Mixer，對(duì)于各種尺寸的圖像來(lái)說(shuō)并不靈活，而且通過(guò)扁平化的token捕捉空間信息的效率很低。Hire-MLP對(duì)現(xiàn)有基于MLP的模型進(jìn)行了創(chuàng)新，提出了分層重排的想法，以聚合局部和全局的空間信息，同時(shí)對(duì)下游任務(wù)具有通用性。內(nèi)部區(qū)域重排的設(shè)計(jì)是為了捕捉空間區(qū)域內(nèi)的局部信息。為了實(shí)現(xiàn)不同區(qū)域之間的信息交流并獲取全局信息，提出了跨區(qū)域重排，以沿空間方向循環(huán)移動(dòng)所有token。所提出的HireMLP架構(gòu)是由簡(jiǎn)單的通道混合MLP和重排操作構(gòu)建的，具有很高的靈活性和推理速度。實(shí)驗(yàn)表明，Hire-MLP在ImageNet-1K基準(zhǔn)上取得了最先進(jìn)的性能，在ImageNet上達(dá)到了83.4%的最高精度，超過(guò)了之前基于Transformer和基于MLP的模型，在準(zhǔn)確率和吞吐量之間有更好的權(quán)衡。

The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers

R Csordás, K Irie, J Schmidhuber

[The Swiss AI Lab IDSIA]

魔鬼在細(xì)節(jié)：提高Transformer系統(tǒng)泛化能力的簡(jiǎn)單技巧。最近，很多數(shù)據(jù)集被提出以測(cè)試神經(jīng)網(wǎng)絡(luò)的系統(tǒng)泛化能力。與之對(duì)應(yīng)的基線Transformer，通常是用標(biāo)準(zhǔn)任務(wù)中的默認(rèn)超參數(shù)進(jìn)行訓(xùn)練的，被證明是非常失敗的。本文證明通過(guò)改進(jìn)模型配置，如嵌入的尺度、早期停止、相對(duì)位置嵌入和通用Transformer變體等基本配置，可以極大提高Transformer在系統(tǒng)泛化方面的性能。報(bào)告了對(duì)五個(gè)流行數(shù)據(jù)集的改進(jìn)。SCAN、CFQ、PCFG、COGS和數(shù)學(xué)數(shù)據(jù)集。所提出模型在PCFG分割上將準(zhǔn)確率從50%提高到85%，在COGS上從35%提高到81%。在SCAN上，相對(duì)位置嵌入在很大程度上緩解了EOS決策問(wèn)題，在長(zhǎng)度分割上達(dá)到了100%的精度。這些模型之間的性能差異通常在IID數(shù)據(jù)分割上是看不見(jiàn)的，需要適當(dāng)?shù)姆夯?yàn)證集來(lái)開(kāi)發(fā)系統(tǒng)性泛化的神經(jīng)網(wǎng)絡(luò)。

Do Transformer Modifications Transfer Across Implementations and Applications?

S Narang, H W Chung, Y Tay, W Fedus, T Fevry, M Matena, K Malkan, N Fiedel, N Shazeer, Z Lan, Y Zhou, W Li, N Ding, J Marcus, A Roberts, C Raffel

[Google Research]

Transformer的修改能否在不同的實(shí)現(xiàn)和應(yīng)用間遷移？自Transformer架構(gòu)在三年前推出以來(lái)，研究界已經(jīng)提出了大量的修改意見(jiàn)，但其中相對(duì)較少的修改意見(jiàn)得到了廣泛的采用。本文在一個(gè)涵蓋自然語(yǔ)言處理中Transformer大多數(shù)常見(jiàn)用途的共享實(shí)驗(yàn)環(huán)境中，全面評(píng)估了這些修改。令人驚訝的是，大多數(shù)修改都不能有意義地提高性能。大多數(shù)Transformer變體都是基于同一套代碼開(kāi)發(fā)的，或者只有相對(duì)較小的改動(dòng)。猜測(cè)性能的提高可能在很大程度上取決于實(shí)現(xiàn)細(xì)節(jié)，相應(yīng)地提出一些建議，以提高實(shí)驗(yàn)結(jié)果的通用性。

Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer

C Wu, F Wu, T Qi, Y Huang

[Tsinghua University & Microsoft Research Asia]

Smart Bird：基于可學(xué)習(xí)稀疏注意力的高效高性能Transformer。Transformer在NLP中取得了巨大的成功。然而，Transformer中自注意力機(jī)制的二次方復(fù)雜性使其在處理長(zhǎng)序列時(shí)效率低下。許多現(xiàn)有的工作探索通過(guò)計(jì)算稀疏自注意力而不是密集自注意力來(lái)加速Transformer，通常關(guān)注某些位置的token或隨機(jī)選擇的token。然而，手動(dòng)選擇的或隨機(jī)的標(biāo)記，對(duì)上下文建模來(lái)說(shuō)可能是信息不足的。本文提出Smart Bird，一種具有可學(xué)習(xí)稀疏注意力的高效Transformer，可智能地關(guān)注重要的token對(duì)。先用一個(gè)單頭低維Transformer計(jì)算出一個(gè)粗略的注意力矩陣，其目的是找到token之間潛在的重要交互，根據(jù)從粗略注意力矩陣中得出的概率分?jǐn)?shù)對(duì)token進(jìn)行采樣，為不同的注意力頭生成不同的稀疏注意力指數(shù)矩陣，根據(jù)索引矩陣選擇token嵌入，以形成稀疏注意力網(wǎng)絡(luò)的輸入。Smart Bird可有效降低Transformer的計(jì)算復(fù)雜度，同時(shí)可以識(shí)別token間的重要交互，更準(zhǔn)確地捕捉上下文信息。在6個(gè)不同任務(wù)的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)，驗(yàn)證了Smart Bird在文本建模中的效率和效果。

SHAQ: Single Headed Attention with Quasi-Recurrence

SHAQ：準(zhǔn)遞歸單頭注意力

N Bharwani, W Kushner, S Dandona, B Schreiber

[Georgia Institute of Technology]

Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs

M A Islam, M Kowal, S Jia, K G. Derpanis, N D. B. Bruce

[Ryerson University & York University & University of Guelph & Toronto AI Lab]

CNN中的每通道位置信息編碼。本文挑戰(zhàn)一個(gè)常見(jiàn)假設(shè)，即通過(guò)全局池化將卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的3D(空間通道)張量的空間維度壓縮成一個(gè)矢量，會(huì)消除所有空間信息。證明了位置信息是根據(jù)通道維度排序來(lái)編碼的，而語(yǔ)義信息基本上沒(méi)有。通過(guò)將這些發(fā)現(xiàn)應(yīng)用到兩個(gè)應(yīng)用中，展示了其在現(xiàn)實(shí)世界中的影響。提出了一個(gè)簡(jiǎn)單而有效的數(shù)據(jù)增強(qiáng)策略和損失函數(shù)，以提高CNN輸出的轉(zhuǎn)換不變性。提出了一種方法來(lái)有效地確定潛表示中的哪些通道負(fù)責(zé)（i）編碼整體位置信息或（ii）特定區(qū)域的位置。語(yǔ)義分割在很大程度上依賴于整體位置通道進(jìn)行預(yù)測(cè)。有可能進(jìn)行 "特定區(qū)域 "攻擊，并降低網(wǎng)絡(luò)在輸入的特定部分的性能。

Adaptive Multi-Resolution Attention with Linear Complexity

線性復(fù)雜度自適應(yīng)多分辨率注意力

Mobile-Former: Bridging MobileNet and Transformer

Y Chen, X Dai, D Chen, M Liu, X Dong, L Yuan, Z Liu

[Microsoft & University of Science and Technology of China]

Mobile-Former：MobileNet和Transformer的橋接并行設(shè)計(jì)。本文提出Mobile-Former，MobileNet和Transformer帶有雙向通道的并行設(shè)計(jì)。這種結(jié)構(gòu)充分利用了MobileNet在局部處理和Transformer在全局交互方面的優(yōu)勢(shì)。通道實(shí)現(xiàn)了局部和全局特征的雙向融合。與最近關(guān)于視覺(jué)Transformer的工作不同，Mobile-Former中的Transformer包含很少的Token(例如，少于6個(gè)Token)，這些Token是隨機(jī)初始化的，因此計(jì)算成本很低。結(jié)合所提出的輕量交叉注意力建立通道模型，Mobile-Former不僅計(jì)算效率高，而且有更多的表示能力，在ImageNet分類(lèi)上，在25M到500M FLOPs的低FLOP設(shè)置下，超過(guò)了MobileNetV3。例如，在294M FLOPs時(shí)，它達(dá)到了77.9%的最高準(zhǔn)確率，比MobileNetV3提高了1.3%，但節(jié)省了17%的計(jì)算量。當(dāng)遷移到目標(biāo)檢測(cè)時(shí)，Mobile-Former比MobileNetV3高出8.6AP。

RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision?

RaftMLP：面向計(jì)算機(jī)視覺(jué)的改進(jìn)MLP模型

PSViT: Better Vision Transformer via Token Pooling and Attention Sharing

B Chen, P Li, B Li, C Li, L Bai, C Lin, M Sun, J Yan, W Ouyang

[The University of Sydney & BAIDU USA LLC & SenseTime Group Limited & University of Oxford]

PSViT：基于Token池化和注意力共享的更好視覺(jué)Transformer。本文觀察到在應(yīng)用視覺(jué)Transformer(ViT)進(jìn)行圖像識(shí)別時(shí)，存在兩個(gè)層次的冗余。首先，在整個(gè)網(wǎng)絡(luò)中固定Token數(shù)量會(huì)在空間層面產(chǎn)生冗余的特征。第二，不同Transformer層之間的注意力圖是冗余的?；谏鲜鲇^察，本文提出PSViT：一種基于Token池化和注意力共享的ViT，以減少冗余，有效提高特征表示能力，并實(shí)現(xiàn)更好的速度-精度權(quán)衡。在PSViT中，Token池化可以被定義為在空間層面減少token數(shù)量的操作。相鄰Transformer層之間將建立注意力共享，以重用相鄰層之間具有強(qiáng)關(guān)聯(lián)性的注意力圖。為不同的Token池化和注意力共享機(jī)制構(gòu)建可能組合的緊湊集。基于該緊湊集，每層的Token數(shù)量和分享注意力的層的選擇可以被視為超參數(shù)，從數(shù)據(jù)中自動(dòng)學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明，與DeiT相比，所提出的方案在ImageNet分類(lèi)中可以實(shí)現(xiàn)高達(dá)6.6%的精度提升。

FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention

T M. Nguyen, V Suliafu, S J. Osher, L Chen, B Wang

[University of California, Los Angeles & University of Utah]

FMMformer: 基于近場(chǎng)和遠(yuǎn)場(chǎng)注意力分解的高效靈活Transformer。本文提出FMMformer，一種高效靈活的Transformer，其靈感來(lái)自于用于加速相互作用粒子仿真的快速多極方法(FMM)。FMM將粒子與粒子的相互作用分解為近場(chǎng)和遠(yuǎn)場(chǎng)部分，然后分別進(jìn)行直接計(jì)算和粗粒度計(jì)算。同樣，F(xiàn)MMformers將注意力分解為近場(chǎng)注意力和遠(yuǎn)場(chǎng)注意力，用帶狀矩陣對(duì)近場(chǎng)注意力進(jìn)行建模，用低秩矩陣對(duì)遠(yuǎn)場(chǎng)注意力進(jìn)行建模。計(jì)算FMMformers的注意力矩陣需要在計(jì)算時(shí)間和內(nèi)存占用方面與序列長(zhǎng)度呈線性復(fù)雜關(guān)系。相比之下，標(biāo)準(zhǔn)Transformer的復(fù)雜度是二次的。分析并驗(yàn)證了FMMformers在Long Range Arena和語(yǔ)言建?；鶞?zhǔn)上相比標(biāo)準(zhǔn)Transformer的優(yōu)勢(shì)。FMMformers甚至可以在精度方面大大超過(guò)標(biāo)準(zhǔn)Transformer。例如，F(xiàn)MMformers在五個(gè)Long Range Arena任務(wù)中取得了60.74%的平均分類(lèi)準(zhǔn)確率，這明顯優(yōu)于標(biāo)準(zhǔn)Transformer的58.70%的平均準(zhǔn)確率。

Vision Transformer with Progressive Sampling

https://hub.fastgit.org/yuexy/PS-ViT

（ICCV2021）

X Yue, S Sun, Z Kuang, M Wei, P Torr, W Zhang, D Lin

[Centre for Perceptual and Interactive Intelligence & University of Oxford & SenseTime Research & Tsinghua University]

漸進(jìn)采樣視覺(jué)Transformer。最近，具有強(qiáng)大全局關(guān)系建模能力的Transformer，已經(jīng)被引入到基本計(jì)算機(jī)視覺(jué)任務(wù)中。作為一個(gè)典型例子，視覺(jué)Transformer(ViT)直接將純Transformer架構(gòu)應(yīng)用于圖像分類(lèi)，通過(guò)簡(jiǎn)單將圖像分割成具有固定長(zhǎng)度的token，用Transformer學(xué)習(xí)token之間的關(guān)系。然而，這種簡(jiǎn)單的token化可能會(huì)破壞物體結(jié)構(gòu)，將網(wǎng)格分配給不感興趣的區(qū)域，如背景，引入干擾信號(hào)。為緩解該問(wèn)題，本文提出一種迭代和漸進(jìn)采樣策略，以定位鑒別性區(qū)域。每次迭代中，當(dāng)前采樣步驟的嵌入被送入一個(gè)Transformer編碼器層，預(yù)測(cè)一組采樣偏移量，以更新下一步采樣位置。漸進(jìn)式采樣是可微的。當(dāng)與視覺(jué)Transformer結(jié)合時(shí)，得到的PS-ViT網(wǎng)絡(luò)可以自適應(yīng)地學(xué)習(xí)尋找的位置。PS-ViT既有效又高效，在ImageNet上從頭開(kāi)始訓(xùn)練時(shí)，PS-ViT比vanilla ViT的top-1準(zhǔn)確率高3.8%，參數(shù)少4倍，F(xiàn)LOPs少10倍。

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Evo-ViT：動(dòng)態(tài)視覺(jué)Transformer的慢-快Token進(jìn)化

https://hub.fastgit.org/YifanXu74/Evo-ViT

S2-MLPv2: Improved Spatial-Shift MLP Architecture for Vision

T Yu, X Li, Y Cai, M Sun, P Li

[Baidu Research]

S2-MLPV2：面向視覺(jué)的改進(jìn)型空間位移MLP架構(gòu)。最近，基于MLP的視覺(jué)骨干嶄露頭角。與CNN和視覺(jué)Transformer相比，基于MLP的視覺(jué)架構(gòu)具有較小的歸納偏差，在圖像識(shí)別方面取得了有競(jìng)爭(zhēng)力的性能。其中，空間位移MLP(S-MLP)，采用直接的空間位移操作，取得了比包括MLP-mixer和ResMLP在內(nèi)的開(kāi)創(chuàng)性工作更好的性能。最近，通過(guò)采用金字塔結(jié)構(gòu)和更小的圖塊，Vision Permutator(ViP)和Global Filter Network(GFNet)取得了比S-MLP更好的性能。本文改進(jìn)了S-MLP的視覺(jué)骨架，沿通道維度擴(kuò)展特征圖，并將擴(kuò)展后的特征圖分成若干部分。對(duì)分割的部分進(jìn)行不同的空間位移操作。利用分割-注意力操作來(lái)融合這些分割部分。同樣采用了更小圖塊，并使用金字塔結(jié)構(gòu)，來(lái)提高圖像識(shí)別的精度。改進(jìn)的空間位移MLP視覺(jué)骨干稱為S2-MLPv2。使用55M參數(shù)的中等規(guī)模模型SMLPv2-Medium在ImageNet-1K基準(zhǔn)上使用224×224的圖像，在沒(méi)有自注意力和外部訓(xùn)練數(shù)據(jù)的情況下，達(dá)到了83.6%的最高精確度。

Go Wider Instead of Deeper

F Xue, Z Shi, F Wei, Y Lou, Y Liu, Y You

[National University of Singapore]

更寬而不是更深。Transformer最近在各種任務(wù)上取得了令人印象深刻的結(jié)果。為進(jìn)一步提高Transformer的有效性和效率，現(xiàn)有工作主要是兩種思路：(1)通過(guò)擴(kuò)展到更多的可訓(xùn)練參數(shù)來(lái)擴(kuò)大范圍；(2)通過(guò)參數(shù)共享或模型壓縮以及深度來(lái)縮小范圍。然而，當(dāng)可用于訓(xùn)練的標(biāo)記較少時(shí)，較大的模型通常不能很好地?cái)U(kuò)展，而且當(dāng)模型非常大時(shí)，需要先進(jìn)的并行機(jī)制。由于表示力的損失，較小的模型與原始的Transformer模型相比，通常取得較差的性能。為了用更少的可訓(xùn)練參數(shù)實(shí)現(xiàn)更好的性能，本文提出一個(gè)框架，通過(guò)更寬而不是更深來(lái)有效地部署可訓(xùn)練參數(shù)。通過(guò)用專(zhuān)家混合(MoE)取代前饋網(wǎng)絡(luò)(FFN)來(lái)擴(kuò)展模型寬度。利用各層的規(guī)范化，在各Transformer塊之間共享MoE層。這樣的部署起到了轉(zhuǎn)換各種語(yǔ)義表示的作用，使得模型的參數(shù)效率更高、更有效。為了評(píng)估該框架，設(shè)計(jì)了WideNet，并在ImageNet-1K上對(duì)其進(jìn)行了評(píng)估。其最佳模型在0.72倍的可訓(xùn)練參數(shù)下，比Vision Transformer(ViT)高出1.46%。使用0.46倍和0.13倍的參數(shù)，WideNet仍然可以分別比ViT和ViT-MoE高出0.83%和2.08%。

Rethinking and Improving Relative Position Encoding for Vision Transformer

K Wu, H Peng, M Chen, J Fu, H Chao

[Sun Yat-sen University & Microsoft Research Asia]

視覺(jué)Transformer相對(duì)位置編碼的反思和改進(jìn)。相對(duì)位置編碼(RPE)對(duì)于Transformer來(lái)說(shuō)非常重要，可以捕捉到輸入標(biāo)記的序列順序。在自然語(yǔ)言處理中，其通用有效性已被證實(shí)。然而，在計(jì)算機(jī)視覺(jué)中，其有效性并沒(méi)有得到很好的研究，甚至仍然存在爭(zhēng)議，例如，相對(duì)位置編碼是否可以和絕對(duì)位置編碼一樣好用？為澄清這一點(diǎn)，本文首先回顧了現(xiàn)有的相對(duì)位置編碼方法，并分析了它們?cè)谝曈X(jué)Transformer應(yīng)用中的優(yōu)點(diǎn)和缺點(diǎn)。提出了專(zhuān)用于2D圖像的新的相對(duì)位置編碼方法——圖像RPE(iRPE)，該方法考慮了方向性的相對(duì)距離建模，以及查詢和相對(duì)位置嵌入在自注意力機(jī)制中的相互作用。iRPE方法是簡(jiǎn)單和輕量的，可以很容易地插入到Transformer塊中。實(shí)驗(yàn)表明，僅僅由于所提出的編碼方法，DeiT和DETR在ImageNet和COCO上分別比其原始版本獲得了高達(dá)1.5%(top-1 Acc)和1.3%(mAP)的穩(wěn)定改進(jìn)，無(wú)需調(diào)整任何額外的超參數(shù)，如學(xué)習(xí)速率和權(quán)重衰減。消融和分析也產(chǎn)生了有趣的發(fā)現(xiàn)，其中一些與之前的理解相悖。

Contextual Transformer Networks for Visual Recognition

Y Li, T Yao, Y Pan, T Mei

[JD AI Research]

面向視覺(jué)識(shí)別的上下文Transformer網(wǎng)絡(luò)?；谧宰⒁饬Φ腡ransformer帶來(lái)了自然語(yǔ)言處理領(lǐng)域的革命，最近也激發(fā)了Transformer式架構(gòu)設(shè)計(jì)的出現(xiàn)，并在許多計(jì)算機(jī)視覺(jué)任務(wù)中取得了有競(jìng)爭(zhēng)力的結(jié)果。然而，大多數(shù)現(xiàn)有設(shè)計(jì)直接采用2D特征圖上的自注意力，以獲得基于每個(gè)空間位置上孤立查詢和鍵對(duì)的注意力矩陣，但沒(méi)有充分地利用鄰近鍵之間的豐富上下文。本文設(shè)計(jì)了一種新的Transformer式模塊Contextual Transformer(CoT)，利用輸入鍵之間的上下文信息來(lái)指導(dǎo)自注意力的學(xué)習(xí)，用于視覺(jué)識(shí)別。該設(shè)計(jì)充分地利用了輸入鍵之間的上下文信息來(lái)指導(dǎo)動(dòng)態(tài)注意力矩陣的學(xué)習(xí)，從而加強(qiáng)了視覺(jué)表示的能力。CoT塊首先通過(guò)3×3卷積對(duì)輸入鍵進(jìn)行上下文編碼，形成輸入的靜態(tài)上下文表示。將編碼的鍵與輸入查詢連接起來(lái)，通過(guò)兩個(gè)連續(xù)的1×1卷積來(lái)學(xué)習(xí)動(dòng)態(tài)的多頭注意力矩陣。學(xué)到的注意力矩陣與輸入值相乘，以實(shí)現(xiàn)輸入的動(dòng)態(tài)上下文表示。靜態(tài)和動(dòng)態(tài)上下文表示的融合最終作為輸出。這種方式優(yōu)雅地將上下文挖掘和自注意力學(xué)習(xí)統(tǒng)一到一個(gè)架構(gòu)中，加強(qiáng)了視覺(jué)表示的能力。CoT模塊可以很容易地取代ResNet架構(gòu)中的每個(gè)3×3卷積，產(chǎn)生一個(gè)Transformer式的骨干——Contextual Transformer Networks(CoTNet)。對(duì)廣泛的應(yīng)用(如圖像識(shí)別、物體檢測(cè)和實(shí)例分割)的實(shí)驗(yàn)，表明了CoTNet作為一個(gè)更強(qiáng)大的骨干網(wǎng)的優(yōu)勢(shì)。

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences

Z Zhu, R Soricut

[Google Research]

H-Transformer-1D：面向序列的快速一維層次注意力。本文提出一種高效的層次方法來(lái)計(jì)算Transformer架構(gòu)中的注意力。所提出的注意機(jī)制利用了類(lèi)似于數(shù)值分析領(lǐng)域?qū)哟尉仃?H-Matrix)的矩陣結(jié)構(gòu)，具有線性的運(yùn)行時(shí)間和內(nèi)存復(fù)雜度，與GPU和TPU上的密集線性代數(shù)庫(kù)完全兼容。廣泛的實(shí)驗(yàn)表明層次注意力所體現(xiàn)的歸納偏差在捕捉自然語(yǔ)言和視覺(jué)任務(wù)的典型序列中的層次結(jié)構(gòu)方面是有效的。在Long Range Arena基準(zhǔn)測(cè)試中，所提出方法比其他次二次建議平均高出+6分。在One-Billion Word數(shù)據(jù)集上創(chuàng)造了新的SOTA測(cè)試?yán)Щ蠖?，模型參?shù)比之前最好的基于Transformer的模型少5倍。

CycleMLP: A MLP-like Architecture for Dense Prediction

S Chen, E Xie, C Ge, D Liang, P Luo

[The University of Hong Kong & SenseTime Research]

CycleMLP：類(lèi)MLP密集預(yù)測(cè)架構(gòu)。本文提出一種簡(jiǎn)單的類(lèi)MLP架構(gòu)CycleMLP，視覺(jué)識(shí)別和密集預(yù)測(cè)的多功能骨干，與MLP-Mixer、ResMLP和gMLP等現(xiàn)代MLP架構(gòu)不同，它們的架構(gòu)與圖像大小相關(guān)，因此在目標(biāo)檢測(cè)和分割中不可行。與現(xiàn)代方法相比，CycleMLP的主要優(yōu)勢(shì)有兩個(gè)：(1) 可以應(yīng)對(duì)各種圖像尺寸 (2) 通過(guò)使用局部窗口實(shí)現(xiàn)了與圖像大小相關(guān)的線性計(jì)算復(fù)雜度。相比之下，之前的MLP由于其全空間連接而具有二次計(jì)算量。本文構(gòu)建了一個(gè)超越現(xiàn)有MLP的模型族，與最先進(jìn)的Swin Transformer(83.3%)相比，在ImageNet-1K分類(lèi)上取得了相當(dāng)?shù)臏?zhǔn)確性(83.2%)，但用到的參數(shù)和FLOPs更少。擴(kuò)大了類(lèi)MLP模型的適用性，使其成為密集預(yù)測(cè)任務(wù)的多功能骨干。CycleMLP旨在為MLP模型的目標(biāo)檢測(cè)、實(shí)例分割和語(yǔ)義分割提供一個(gè)有競(jìng)爭(zhēng)力的基線。

Combiner: Full Attention Transformer with Sparse Computation Cost

H Ren, H Dai, Z Dai, M Yang, J Leskovec, D Schuurmans, B Dai

[Stanford University & Google Research]

Combiner：具有稀疏計(jì)算成本的全注意力Transformer。Transformer提供了一類(lèi)表現(xiàn)力強(qiáng)的架構(gòu)，對(duì)序列建模非常有效。然而，Transformer的關(guān)鍵限制是它們相對(duì)注意力層序列長(zhǎng)度的二次記憶量和時(shí)間復(fù)雜度O(L)，這限制了對(duì)極長(zhǎng)序列的應(yīng)用。大多數(shù)現(xiàn)有方法利用注意力矩陣中的稀疏性或低秩假設(shè)來(lái)降低成本，但犧牲了表達(dá)能力。本文提出Combiner，在每個(gè)注意力頭中提供完全的注意力能力，同時(shí)保持低計(jì)算和內(nèi)存復(fù)雜度。其關(guān)鍵思想是將自注意力機(jī)制視為對(duì)每個(gè)位置的嵌入的條件期望，并用結(jié)構(gòu)因子化來(lái)近似條件分布。每個(gè)位置都可以通過(guò)直接注意力或間接注意力來(lái)注意到所有其他位置的抽象，這些抽象又是對(duì)相應(yīng)局部區(qū)域嵌入的條件期望。在現(xiàn)有的稀疏Transformer中使用的大多數(shù)稀疏注意力模式能夠啟發(fā)全注意力的這種因子化的設(shè)計(jì)，導(dǎo)致同樣的次二次方成本。Combiner是現(xiàn)有Transformer中注意力層的平移替換，可以很容易地在普通框架中實(shí)現(xiàn)。對(duì)自回歸和雙向序列任務(wù)的實(shí)驗(yàn)評(píng)估，證明了該方法的有效性，在一些圖像和文本建模任務(wù)上產(chǎn)生了最先進(jìn)的結(jié)果。

CMT: Convolutional Neural Networks Meet Vision Transformers

J Guo, K Han, H Wu, C Xu, Y Tang, C Xu, Y Wang

[Noah’s Ark Lab & University of Sydney]

CMT：卷積神經(jīng)網(wǎng)絡(luò)與視覺(jué)Transformer的混合架構(gòu)。視覺(jué)Transformer已經(jīng)成功地應(yīng)用于圖像識(shí)別任務(wù)，得益于其能捕捉圖像中的長(zhǎng)程依賴關(guān)系。然而，Transformer和卷積神經(jīng)網(wǎng)絡(luò)(CNN)在性能和計(jì)算成本方面仍然存在差距。本文的目標(biāo)，是開(kāi)發(fā)一個(gè)不僅可以超越典型的Transformer，還能超越高性能卷積模型的網(wǎng)絡(luò)。提出一種新的基于Transformer的混合網(wǎng)絡(luò)，利用Transformer來(lái)捕捉長(zhǎng)程依賴關(guān)系，用CNN來(lái)模擬局部特征。對(duì)其進(jìn)行擴(kuò)展，得到了一個(gè)叫CMT的模型族，與之前基于卷積和Transformer的模型相比，獲得了更好的精度和效率。特別是，CMT-S在ImageNet上達(dá)到了83.5%的最高精度，同時(shí)在FLOPs上比現(xiàn)有的DeiT和EfficientNet分別小14倍和2倍。所提出的CMT-S在CIFAR10（99.2%）、CIFAR100（91.7%）、Flowers（98.7%）和其他具有挑戰(zhàn)性的視覺(jué)數(shù)據(jù)集如COCO（44.3% mAP）上也有很好的通用性，而且計(jì)算成本大大降低。

Perceiver: General Perception with Iterative Attention

https://hub.fastgit.org/lucidrains/perceiver-pytorch

很多星

A Jaegle, F Gimeno, A Brock, A Zisserman, O Vinyals, J Carreira

[DeepMind]

Perceiver：基于迭代注意力的一般感知。生物系統(tǒng)通過(guò)同時(shí)處理來(lái)自視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、本體感覺(jué)等不同模態(tài)的高維輸入來(lái)感知世界，而深度學(xué)習(xí)使用的感知模型是為單模態(tài)設(shè)計(jì)的，通常依賴于特定領(lǐng)域的假設(shè)，如幾乎所有視覺(jué)模型所利用的局部網(wǎng)格結(jié)構(gòu)。這些先驗(yàn)引入了有用的歸納偏差，但也將模型鎖定在個(gè)別模態(tài)上。本文提出Perceiver——一種建立在Transformers基礎(chǔ)上的模型，對(duì)其輸入之間的關(guān)系沒(méi)有什么架構(gòu)上的假設(shè)，但也可以像ConvNets一樣擴(kuò)展到數(shù)十萬(wàn)個(gè)輸入，可以處理任意的傳感器配置，在所有層面上實(shí)現(xiàn)信息的融合。該模型利用非對(duì)稱的注意力機(jī)制，將輸入迭代提煉成一個(gè)緊密的潛在瓶頸，使其能夠擴(kuò)展到處理非常大的輸入。實(shí)驗(yàn)表明，該架構(gòu)在各種模式的分類(lèi)任務(wù)上與強(qiáng)大的專(zhuān)門(mén)模型相競(jìng)爭(zhēng)，甚至超過(guò)了它們：圖像、點(diǎn)云、音頻、視頻和視頻+音頻。Perceiver通過(guò)直接處理50,000個(gè)像素，在ImageNet上獲得了與ResNet-50和ViT相當(dāng)?shù)男阅?。它在AudioSet的所有模式中也有競(jìng)爭(zhēng)力。

Long-Short Transformer: Efficient Transformers for Language and Vision

https://hub.fastgit.org/lucidrains/long-short-transformer

C Zhu, W Ping, C Xiao, M Shoeybi, T Goldstein, A Anandkumar, B Catanzaro

[NVIDIA & University of Maryland]

長(zhǎng)-短Transformer：面向語(yǔ)言和視覺(jué)的高效Transformer。Transformer在語(yǔ)言和視覺(jué)領(lǐng)域都取得了成功。然而，將它們擴(kuò)展到長(zhǎng)序列(如長(zhǎng)文檔或高分辨率圖像)是非常昂貴的，因?yàn)橄鄬?duì)于輸入序列的長(zhǎng)度，自注意力機(jī)制具有二次的時(shí)間和記憶復(fù)雜度。本文中提出長(zhǎng)短Transformer(Transformer-LS)，一種高效的自注意力機(jī)制，用于語(yǔ)言和視覺(jué)任務(wù)的長(zhǎng)序列建模，具有線性復(fù)雜度。該方法聚集了一種新的長(zhǎng)程注意力和一種短程注意力，前者用動(dòng)態(tài)投影來(lái)模擬遠(yuǎn)距離相關(guān)性，后者用來(lái)捕捉細(xì)粒度的局部相關(guān)性。提出一種雙重歸一化(DualLN)策略，已解決這兩種注意力機(jī)制之間規(guī)模的不匹配，更有效地聚合局部和全局注意力。Transformer-LS可用于自回歸和雙向模型，沒(méi)有額外的復(fù)雜性。該方法在語(yǔ)言和視覺(jué)領(lǐng)域的多個(gè)任務(wù)上都優(yōu)于最先進(jìn)的模型，包括Long Range Arena benchmark、自回歸語(yǔ)言建模和ImageNet分類(lèi)。例如，Transformer-LS在enwik8上用比以前的方法少一半的參數(shù)實(shí)現(xiàn)了0.97的測(cè)試BPC，同時(shí)速度更快，與相同硬件上的全注意力版本相比，能夠處理3倍長(zhǎng)的序列。在ImageNet上，可以獲得最先進(jìn)的結(jié)果（例如，僅在224×224的ImageNet-1K上訓(xùn)練的Top-1準(zhǔn)確率為84.1%），同時(shí)在高分辨率圖像上更具可擴(kuò)展性。

Rethinking Positional Encoding

J Zheng, S Ramasinghe, S Lucey

[University of Adelaide]

位置編碼的反思?；谧鴺?biāo)的多層感知器通過(guò)將坐標(biāo)位置編碼為一系列的傅里葉特征，在保留高頻信息方面受益匪淺。到目前為止，這些位置編碼的有效性的理由只通過(guò)傅里葉的視角進(jìn)行研究。本文試圖擴(kuò)大這種理解，表明其他非傅里葉嵌入函數(shù)確實(shí)可以用于位置編碼，其性能完全由嵌入矩陣的穩(wěn)定秩和嵌入坐標(biāo)間距離保持兩者的權(quán)衡決定?，F(xiàn)在無(wú)處不在的位置傅里葉特征映射是滿足這些條件的一個(gè)特例。提出了一個(gè)更普遍的理論來(lái)分析移位基函數(shù)方面的位置編碼。推導(dǎo)了必要的理論公式，并從經(jīng)驗(yàn)上驗(yàn)證了該理論主張?jiān)趯?shí)踐中是成立的。提出了一種新的位置編碼機(jī)制，在某些約束條件下，可以將任意的連續(xù)信號(hào)作為潛嵌入器，使位置編碼有更多的可解釋性和更少的限制性，可用于各種計(jì)算機(jī)視覺(jué)任務(wù)。

Augmented Shortcuts for Vision Transformers

Y Tang, K Han, C Xu, A Xiao, Y Deng, C Xu, Y Wang

[Peking University & Huawei Technologies & University of Sydney]

視覺(jué)Transformer的增強(qiáng)捷徑。Transformer模型最近在計(jì)算機(jī)視覺(jué)任務(wù)上取得了很大的進(jìn)展。視覺(jué)Transformer的快速發(fā)展主要是由于其從輸入圖像中提取信息性特征的強(qiáng)表示能力。然而，主流的Transformer模型都是采用深度架構(gòu)設(shè)計(jì)的，隨著深度的增加，特征的多樣性會(huì)不斷減少，也就是特征坍縮。本文從理論上分析了特征坍縮現(xiàn)象，研究了這些Transformer模型中捷徑和特征多樣性之間的關(guān)系。提出了一個(gè)增強(qiáng)捷徑方案，該方案在原始捷徑上并行插入了具有可學(xué)習(xí)參數(shù)的額外路徑。為節(jié)省計(jì)算成本，進(jìn)一步探索了一種高效方法，用塊循環(huán)投影來(lái)實(shí)現(xiàn)增強(qiáng)捷徑。在基準(zhǔn)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證明了所提出方法的有效性，使最先進(jìn)的視覺(jué)Transformer的準(zhǔn)確度提高了1%，而沒(méi)有明顯增加它們的參數(shù)和FLOPs。

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

CSWin Transformer：帶十字形窗口的通用視覺(jué)Transformer骨干

X Dong, J Bao, D Chen, W Zhang, N Yu, L Yuan, D Chen, B Guo

[University of Science and Technology of China & Microsoft Research Asia & Microsoft Cloud + AI]

Focal Self-attention for Local-Global Interactions in Vision Transformers

J Yang, C Li, P Zhang, X Dai, B Xiao, L Yuan, J Gao

[Microsoft Research at Redmond & Microsoft Cloud + AI]

視覺(jué)Transformer局部-全局交互焦點(diǎn)自注意力。最近，視覺(jué)Transformer及其變體在各種計(jì)算機(jī)視覺(jué)任務(wù)中顯示出巨大的前景。通過(guò)自注意力捕捉短程和長(zhǎng)程視覺(jué)依賴關(guān)系的能力是成功的關(guān)鍵，但同時(shí)也帶來(lái)了挑戰(zhàn)，因?yàn)樾枰谋兜挠?jì)算開(kāi)銷(xiāo)，特別是對(duì)于高分辨率的視覺(jué)任務(wù)(如目標(biāo)檢測(cè))。最近的許多工作試圖通過(guò)應(yīng)用粗粒度的全局注意力或細(xì)粒度的局部注意力來(lái)減少計(jì)算和內(nèi)存成本并提高性能。然而，這兩類(lèi)方法都削弱了多層Transformer原始的自注意力機(jī)制的建模能力，從而導(dǎo)致了次優(yōu)的解決方案。本文提出焦點(diǎn)式自注意力，同時(shí)包含細(xì)粒度局部和粗粒度全局的交互。每個(gè)標(biāo)記在細(xì)粒度上關(guān)注其周?chē)幍臉?biāo)記，在粗粒度上關(guān)注遠(yuǎn)處的標(biāo)記，可有效地捕捉短程和長(zhǎng)程的視覺(jué)依賴。基于焦點(diǎn)自注意力，提出一種新的視覺(jué)Transformer模型變體，F(xiàn)ocal Transformers，在一系列公共圖像分類(lèi)和物體檢測(cè)基準(zhǔn)上取得了比最先進(jìn)的視覺(jué)Transformer更高的性能。

Global Filter Networks for Image Classification

Y Rao, W Zhao, Z Zhu, J Lu, J Zhou

[Tsinghua University]

面向圖像分類(lèi)的全局濾波網(wǎng)絡(luò)。最近，用于視覺(jué)的自注意力和純多層感知器(MLP)模型的進(jìn)展顯示出巨大潛力，以較少的歸納偏差實(shí)現(xiàn)了可喜的性能。這些模型通常是基于從原始數(shù)據(jù)中學(xué)習(xí)空間位置之間的相互作用。隨著圖像大小的增加，自注意力和MLP的復(fù)雜性呈四次方增長(zhǎng)，這使得這些模型在需要高分辨率特征時(shí)難以擴(kuò)大規(guī)模。本文提出全局濾波網(wǎng)絡(luò)(GFNet)，一種概念簡(jiǎn)單但計(jì)算效率高的架構(gòu)，以對(duì)數(shù)線性的復(fù)雜度學(xué)習(xí)頻域中的長(zhǎng)程空間依賴關(guān)系。該架構(gòu)用三個(gè)關(guān)鍵操作取代了視覺(jué)transformer中的自注意力層：二維離散傅里葉變換，頻域特征和可學(xué)習(xí)全局濾波器之間的逐元乘法，以及二維反傅里葉變換。展示了該模型在ImageNet和下游任務(wù)中有利的準(zhǔn)確性/復(fù)雜性權(quán)衡。實(shí)驗(yàn)結(jié)果表明，GFNet在效率、泛化能力和魯棒性方面可以成為transformer式模型和CNN的一個(gè)非常有競(jìng)爭(zhēng)力的替代方案。

AutoFormer: Searching Transformers for Visual Recognition

AutoFormer：面向視覺(jué)識(shí)別的Transformer架構(gòu)搜索

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2021-10-12

2021-10-12

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2021-10-12

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av