這篇論文還是出自google家與Meta-Dataset作者完全不同, 但是也是在meta-dataset倉庫里有提到.
工作主要是統(tǒng)一了transfer learning 和meta-learning兩家的benchmark: VTAB和meta-dataset, 然后在構(gòu)造的統(tǒng)一的賽道上對比transfer learning和meta-learning的效果. 這里實際上測試的都是少樣本圖像分類實驗.
論文給出的主要結(jié)論是transfer會比meta-learning強一些, 而這種優(yōu)勢主要來自于BIT-L為代表的transfer采用了大量的數(shù)據(jù)(ImageNet/JFT), 并且使用的是大規(guī)模的模型(ResNet-101x3). 另一方面, meta-learning在VTAB賽道上表現(xiàn)不好, 論文傾向于認為是因為meta-learning對OOD(out-of-distribution)的情況有較差的泛化性, 說白了就是在學(xué)過的類似的類別分類任務(wù)上比較好使, 在完全沒學(xué)過的任務(wù)上就比較離譜, 并且meta-learning插話式學(xué)習(xí)(episodic learning)代價大(需要顯存大), 跑不起大模型.
論文首先指出meta-learning存在的一大問題是數(shù)據(jù)batch設(shè)置問題, meta-learning在few-shot learning場景下用的是n-way k-shot 數(shù)據(jù)格式 也就是 n個類別的圖片 每個具有k個帶標簽樣本作為一個最小的訓(xùn)練單位(后面也稱為task), 這樣的設(shè)置相對于transfer來說meta-learning給batch大小帶來了一個下界, 因為半個task數(shù)據(jù)沒法訓(xùn)練, 至少都要一個batch. 那這樣相對于transfer來說, 同樣的數(shù)據(jù), transfer可以下調(diào)batch所含樣本數(shù)量來提高模型的復(fù)雜度, 而meta-learning則會被batch下界和模型復(fù)雜度卡死. 這是限制meta-learning的一個要點, 如果能做出一個輕量級的meta-learning算法突破這種限制, 就可以把大一些規(guī)模的模型塞入進來, 應(yīng)該是一個不錯的點.
具體實驗中, meta-learning這邊的算法, MD-transfer, protoMAML, CTX, SUR都是用的淺ResNet(18,18,34,18)網(wǎng)絡(luò). 在超參選擇上, BIT-L單獨處理, 其余統(tǒng)一用meta-dataset論文里的辦法在validation set上做.
其次, 文章前半部分基本給出的結(jié)論就是BIT-L, 模型大, 數(shù)據(jù)多, 爽! 而Meta-learning可能隱含只適用與訓(xùn)練類類似的場景的弊病, 它用SUR舉例訓(xùn)練數(shù)據(jù)多, 但是在VTAB上超不過CTX.? 后半部分則開始解析BIT-L好的原因.
1. 把BIT-L和MD-transfer對比, 作者認為超參影響比較大, 這里沒有做直接表述而是舉了幾個其他論文中提出的關(guān)于超參的觀點.(等于也沒把話說透, 只說有影響, 不說怎么影響或什么細節(jié)影響)
2.模型大了表現(xiàn)整體更好(針對BIT-L), 但是在嚴重ood的omniglot上結(jié)論相反, 并且分辨率提高對模型正確率有提升.
3.BIT-L采用的normalization方式, 用的是group normalization and weight standardization (GNWS)而不是batch normalization. BN已經(jīng)在某篇論文中被指出不適應(yīng)few-shot 分類任務(wù).
4.另一方面, 作者對比是更多的數(shù)據(jù)對模型有影響還是因為數(shù)據(jù)多了將覆蓋更多的domain從而帶來更好的影響, 所以對BIT-L所學(xué)習(xí)的數(shù)據(jù)進行了對比, 一組學(xué)正常的VTAB, 另一組學(xué)VTAB+MD的測試集的一部分, 最后一組學(xué)刪去部分的VTAB. 結(jié)果表明, 刪去部分數(shù)據(jù)后, 與之類似的測試任務(wù)性能立即下降, 而增加的MD部分對結(jié)果影響甚微, 從而證明了domain覆蓋的重要性, 而我認為這也是現(xiàn)有transfer和meta-learning的一種弊病或者特性, 但是現(xiàn)有的論文工作還沒有細化或量化地表述這種domain coverage對模型性能的影響, 我覺得這是數(shù)據(jù)集和模型需要雙面努力的方向.
我看這篇論文的時候這篇論文還沒有被特定會議收錄, 但是應(yīng)該已經(jīng)是投稿狀態(tài)了. 后續(xù)工作可以開始考慮輕量化meta-learning, 以容納更大模型等.