Training data-ef?cient image transformers & distillation through attention

這篇文章最大的貢獻(xiàn)就是有效降低了vision transformer的訓(xùn)練成本(時(shí)間以及數(shù)據(jù)),提高了ViT實(shí)驗(yàn)的可復(fù)現(xiàn)性,本文所提出的DeiT只需要在8塊gpu上訓(xùn)練不到3天,就可以達(dá)到媲美JFT上訓(xùn)練的ViT的精度。在Google所提的ViT文章中的實(shí)驗(yàn)結(jié)果表明,vision transformer在用超大數(shù)據(jù)集(如JFT)做訓(xùn)練的情況下,性能才能超過(guò)CNN。本文在結(jié)構(gòu)上沒(méi)有對(duì)vision transformer進(jìn)行修改,而是通過(guò)引入蒸餾、數(shù)據(jù)增強(qiáng)等技巧,有效提高了ViT在ImageNet上的訓(xùn)練精度。

雖然這篇文章針對(duì)ViT專(zhuān)門(mén)提出了一種基于distillation token的蒸餾方式,在ViT中額外引入一個(gè)與classification token類(lèi)似的distillation token,與teacher的distillation token計(jì)算損失,但是與普通的蒸餾方式相比,這種新的蒸餾方式結(jié)果優(yōu)勢(shì)并不太明顯。



除此之外,本文最值得稱(chēng)道的就是作者展現(xiàn)出的牛逼的訓(xùn)模型技術(shù)了,這篇文章的后半部分可以看成一個(gè)trick包,非常適合我這種訓(xùn)模型苦手學(xué)習(xí)。作者經(jīng)過(guò)一系列ablation study,發(fā)現(xiàn)transformer對(duì)于數(shù)據(jù)增強(qiáng)方式非常敏感,用或不用數(shù)據(jù)增強(qiáng)造成的精度差距非常大(當(dāng)然這個(gè)其實(shí)也可以看作是對(duì)數(shù)據(jù)量的要求);同時(shí),對(duì)于regularization方式,可調(diào)的地方也非常多,降低weight decay就可以帶來(lái)性能提升; 除此之外,在224的resolution上pretrain,384上finetune,也是一個(gè)很有用的技巧。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容