Self-Attention Meta-Learner for Continual Learning論文歸納

被aamas2021(?Autonomous Agents and Multiagent Systems) CCF B類會(huì)議收錄。是荷蘭埃因霍芬理工大學(xué)一群人寫的。

這篇論文我都不想讀完,論文撰寫沒(méi)什么問(wèn)題,但是論文核心思想太淺了,沒(méi)東西,有效性證明的很片面,嚴(yán)格點(diǎn)可以直接質(zhì)疑論文觀點(diǎn)正確性。

這篇工作聽(tīng)起來(lái)是meta-learning實(shí)際上就是用了用MAML,也沒(méi)原創(chuàng)什么東西, 就是把模型每層中間加了個(gè)attention層, 把不同task訓(xùn)練得到的output layer收集起來(lái)來(lái)構(gòu)造一個(gè)任務(wù)無(wú)關(guān)場(chǎng)景下的模型。任務(wù)無(wú)關(guān)就是測(cè)試中可能會(huì)出現(xiàn)任意一個(gè)訓(xùn)練過(guò)程中出現(xiàn)的任務(wù)所涉及到的類別(分類任務(wù)),因此需要對(duì)所有訓(xùn)練任務(wù)的類別進(jìn)行保留,也就是保留不同任務(wù)訓(xùn)練時(shí)的output layer用于最后得出關(guān)于所有訓(xùn)練過(guò)的類別的概率值。


不過(guò)話說(shuō)回來(lái),本篇論文也是continual learning領(lǐng)域的工作, 只是在meta-learning 層面貢獻(xiàn)太小而已,但是因?yàn)槲覜](méi)怎么讀過(guò)continual learning方面文獻(xiàn),真按原文表述來(lái)看它進(jìn)步性還是很大的, 看到用來(lái)對(duì)比的數(shù)據(jù)集split MNIST/CIFAR-10/CIFAR-100等 感覺(jué)這種規(guī)模測(cè)試集好像顯得有點(diǎn)落后, 而這篇文章又是2021年也就是目前最新的一批工作了,和它對(duì)比的其他SOTA算法也從實(shí)驗(yàn)數(shù)據(jù)上看都有明顯缺陷,跟它差很遠(yuǎn)感覺(jué)有點(diǎn)離譜。

它meta-learning 訓(xùn)練部分調(diào)用的dragen1860的MAML庫(kù), 也是GitHub上搜MAML-pytorch版本排第一的庫(kù)。我也用過(guò)這個(gè)庫(kù),它問(wèn)題在于模型正確率離MAML原文差了2%左右,并且死活提不上去,用在其他領(lǐng)域還好,要是用在元學(xué)習(xí)和其他類MAML算法對(duì)比上直接硬性吃虧。


論文在分析方面好像做的很充分但是都經(jīng)不起仔細(xì)推敲。

首先關(guān)于self-attention結(jié)構(gòu)所發(fā)揮的作用上,作者給出兩組數(shù)據(jù),一組是消融實(shí)驗(yàn)證明了self-attention能提高模型正確率,另一組是可視化的模型不同階段輸出。第一組數(shù)據(jù)在我看來(lái)并不能直接支撐作者認(rèn)為的attention機(jī)制能選擇合適新任務(wù)的知識(shí)的觀點(diǎn),因?yàn)樾Ч貌淮砭褪沁x擇出合適任務(wù)的知識(shí),也很可能是attention層對(duì)某些特征處理能力更強(qiáng)一些而已,并且這種本質(zhì)上疊厚模型后得到的性能增加,就算好使也只是說(shuō)明attention好使,并不能說(shuō)明其他作者提出的任何主觀推測(cè)。第二組可視化數(shù)據(jù)更是什么結(jié)論我都看不出來(lái),原文作者也只說(shuō)了一些無(wú)關(guān)痛癢的現(xiàn)象。

然后一組對(duì)比實(shí)驗(yàn)試圖證明擁有好的前驗(yàn)知識(shí)的重要性,這里前驗(yàn)也就是指self-attention meta-learning部分,但是我仔細(xì)閱讀原文描述很多遍后,我唯一發(fā)現(xiàn)的所謂“standard”和SAM的區(qū)別在于前半部分shared sub-network 所用訓(xùn)練集不同,而用更大數(shù)據(jù)集訓(xùn)練的效果更好。。。。。。這里更大數(shù)據(jù)集和好的前驗(yàn)知識(shí)之間有什么必然聯(lián)系嗎?前驗(yàn)知識(shí)的好壞評(píng)判標(biāo)準(zhǔn)是什么?什么才是好的前驗(yàn)知識(shí)?是更大數(shù)據(jù)集嗎?總而言之這里的分析很感性,基本沒(méi)什么邏輯,然后還引入了兩個(gè)沒(méi)什么實(shí)際作用的術(shù)語(yǔ)或者說(shuō)是概念“standard setting”, “FWT”,在我看來(lái)不如直接白話解釋。

最后一組對(duì)比實(shí)驗(yàn)更是迷上加迷,迷到我感覺(jué)應(yīng)該是我沒(méi)看懂。原文先提到?ELM作為對(duì)照組,然后指出在實(shí)驗(yàn)中具體表現(xiàn)為隨機(jī)初始化shared sub-networks的參數(shù)然后在訓(xùn)練中固定。然后給出了和第一份分析差不多的數(shù)據(jù),一組表格和一組可視化。這不訓(xùn)練的模型猜都猜得出來(lái)效果肯定不好啊,然后借助這波對(duì)比作者認(rèn)為學(xué)會(huì)的前驗(yàn)知識(shí)能增強(qiáng)模型的泛化性能,感覺(jué)說(shuō)了一句很對(duì)的廢話。然后根據(jù)可視化數(shù)據(jù)指出attention能提取重點(diǎn)數(shù)據(jù)(因?yàn)橹怀跏蓟腶ttention輸出的權(quán)重都比較均勻而訓(xùn)練過(guò)的則存在差異),還是感覺(jué)在說(shuō)廢話。

總而言之就是做了一些好像有意義又好像沒(méi)有意義的實(shí)驗(yàn),說(shuō)明了一些很對(duì)但是又感覺(jué)沒(méi)什么用的結(jié)論。


畢竟看論文容易帶有自己偏見(jiàn),以上我的說(shuō)法中肯定是存在瑕疵甚至錯(cuò)誤的,但是這篇論文如果我審稿確實(shí)可能會(huì)被判定為勉強(qiáng)過(guò)甚至拒絕。歸根揭底在于其核心idea太薄弱,并沒(méi)有真正挖掘出屬于自己的內(nèi)容或者結(jié)論。對(duì)attention機(jī)制的利用也比較粗糙,就直接嵌入模型中了,而對(duì)造成的模型規(guī)模的增量影響也沒(méi)有考慮。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容