亚洲九九久久,日韩久操无码

這篇文章最大的貢獻(xiàn)就是有效降低了vision transformer的訓(xùn)練成本（時(shí)間以及數(shù)據(jù)），提高了ViT實(shí)驗(yàn)的可復(fù)現(xiàn)性，本文所提出的DeiT只需要在8塊gpu上訓(xùn)練不到3天，就可以達(dá)到媲美JFT上訓(xùn)練的ViT的精度。在Google所提的ViT文章中的實(shí)驗(yàn)結(jié)果表明，vision transformer在用超大數(shù)據(jù)集（如JFT）做訓(xùn)練的情況下，性能才能超過(guò)CNN。本文在結(jié)構(gòu)上沒(méi)有對(duì)vision transformer進(jìn)行修改，而是通過(guò)引入蒸餾、數(shù)據(jù)增強(qiáng)等技巧，有效提高了ViT在ImageNet上的訓(xùn)練精度。

雖然這篇文章針對(duì)ViT專(zhuān)門(mén)提出了一種基于distillation token的蒸餾方式，在ViT中額外引入一個(gè)與classification token類(lèi)似的distillation token，與teacher的distillation token計(jì)算損失，但是與普通的蒸餾方式相比，這種新的蒸餾方式結(jié)果優(yōu)勢(shì)并不太明顯。

除此之外，本文最值得稱(chēng)道的就是作者展現(xiàn)出的牛逼的訓(xùn)模型技術(shù)了，這篇文章的后半部分可以看成一個(gè)trick包，非常適合我這種訓(xùn)模型苦手學(xué)習(xí)。作者經(jīng)過(guò)一系列ablation study，發(fā)現(xiàn)transformer對(duì)于數(shù)據(jù)增強(qiáng)方式非常敏感，用或不用數(shù)據(jù)增強(qiáng)造成的精度差距非常大（當(dāng)然這個(gè)其實(shí)也可以看作是對(duì)數(shù)據(jù)量的要求）；同時(shí)，對(duì)于regularization方式，可調(diào)的地方也非常多，降低weight decay就可以帶來(lái)性能提升；除此之外，在224的resolution上pretrain，384上finetune，也是一個(gè)很有用的技巧。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Training data-ef?cient image transformers & distillation through attention

Training data-ef?cient image transformers & distillation through attention

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Training data-ef?cient image transformers & distillation through attention

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av