URL:
https://arxiv.org/pdf/1812.01187.pdf
TL;DR
一系列的訓練tricks。large batch、Low-precision、Label Smoothing、Cosine Learning Rate Decay、Knowledge Distillation和Mixup Training等。
方法
方法沒什么具體可講解的,主要是介紹了上述一系列的訓練tricks。
加trick vs 不加trick的實驗。

加trick vs 不加trick的實驗
各個trick帶來的影響。有些奇怪的是batchsize變大時掉點,而低精度訓練卻漲點。

各個trick帶來的影響
第二批tricks帶來的影響?;臼蔷兴鶟q點。但蒸餾和mixup的混用在不同模型上效果不同。

第二批tricks帶來的影響
這些trick不僅對識別任務有效,部分trick在檢測、分割等任務上也有效。但并不是所有trick都有效,具體可以看論文中的實驗。