這篇文章最大的貢獻(xiàn)就是有效降低了vision transformer的訓(xùn)練成本(時(shí)間以及數(shù)據(jù)),提高了ViT實(shí)驗(yàn)的可復(fù)現(xiàn)性,本文所提出的DeiT只需要在8塊gpu上訓(xùn)練不到3天,就可以達(dá)到媲美JFT上訓(xùn)練的ViT的精度。在Google所提的ViT文章中的實(shí)驗(yàn)結(jié)果表明,vision transformer在用超大數(shù)據(jù)集(如JFT)做訓(xùn)練的情況下,性能才能超過(guò)CNN。本文在結(jié)構(gòu)上沒(méi)有對(duì)vision transformer進(jìn)行修改,而是通過(guò)引入蒸餾、數(shù)據(jù)增強(qiáng)等技巧,有效提高了ViT在ImageNet上的訓(xùn)練精度。
雖然這篇文章針對(duì)ViT專(zhuān)門(mén)提出了一種基于distillation token的蒸餾方式,在ViT中額外引入一個(gè)與classification token類(lèi)似的distillation token,與teacher的distillation token計(jì)算損失,但是與普通的蒸餾方式相比,這種新的蒸餾方式結(jié)果優(yōu)勢(shì)并不太明顯。


除此之外,本文最值得稱(chēng)道的就是作者展現(xiàn)出的牛逼的訓(xùn)模型技術(shù)了,這篇文章的后半部分可以看成一個(gè)trick包,非常適合我這種訓(xùn)模型苦手學(xué)習(xí)。作者經(jīng)過(guò)一系列ablation study,發(fā)現(xiàn)transformer對(duì)于數(shù)據(jù)增強(qiáng)方式非常敏感,用或不用數(shù)據(jù)增強(qiáng)造成的精度差距非常大(當(dāng)然這個(gè)其實(shí)也可以看作是對(duì)數(shù)據(jù)量的要求);同時(shí),對(duì)于regularization方式,可調(diào)的地方也非常多,降低weight decay就可以帶來(lái)性能提升; 除此之外,在224的resolution上pretrain,384上finetune,也是一個(gè)很有用的技巧。
