姓名：李妙歌 ? ? ?? 學(xué)號：20021210904

轉(zhuǎn)載自https://mp.weixin.qq.com/s/7aI2pX3TFT7teY_2I5mjqQ

【嵌牛導(dǎo)讀】：本文介紹的是 ICLR 2020 spotlight 論文《Meta-Learning without Memorization》(無記憶的元學(xué)習(xí))，來自德克薩斯大學(xué)奧斯汀分校在讀博士生殷明章。

【嵌牛鼻子】：元學(xué)習(xí) 記憶問題元正則化方法?

【嵌牛提問】：如何提出、定義、分析元學(xué)習(xí)中的記憶問題？如何讓元學(xué)習(xí)更好的學(xué)會學(xué)習(xí)？

【嵌牛正文】：

讓我們回顧片刻在學(xué)校學(xué)習(xí)的經(jīng)歷。每一天我們?nèi)ド险n，回答老師的問題；回家后我們解答作業(yè)問題，對照答案檢查正確與否。日積月累，我們不僅學(xué)到了知識，更學(xué)會了如何學(xué)習(xí) (learning to learn)。當(dāng)面對新任務(wù)時，我們可以利用之前解決問題的經(jīng)驗(yàn)并加上少量的練習(xí)，迅速學(xué)會新的技能。這種 “快速適應(yīng) (fast adaptation)” 能力被認(rèn)為是智能的重要體現(xiàn)。在人工智能領(lǐng)域，元學(xué)習(xí) (meta-learning) 是一種使機(jī)器 “學(xué)會學(xué)習(xí)” 的有效手段。

在這篇論文里，我們發(fā)現(xiàn)一個表征能力強(qiáng)大的人工神經(jīng)網(wǎng)絡(luò)除了 “快速適應(yīng)” 外，還可以通過 “記憶” 的方式來解決訓(xùn)練集里的多項(xiàng)任務(wù)。不幸的是，一個只會記憶的神經(jīng)網(wǎng)絡(luò)不具備解決新任務(wù)的能力這篇論文旨在提出、定義、分析元學(xué)習(xí)中的記憶問題，并提出新的元正則化方法 (meta-regularization) 以避免記憶問題。

1 元學(xué)習(xí)的圖模型

要訓(xùn)練一個元學(xué)習(xí)模型，首先需要從一個任務(wù)分布 $p(\tau )$ 中生成多個任務(wù)。每個任務(wù)都由一個帶標(biāo)注的任務(wù)內(nèi)訓(xùn)練數(shù)據(jù) $D=(X,Y)$ 和測試數(shù)據(jù) $D^*=(X^*,Y^*)$ 組成。我們用 $M$ 代表所有用于元訓(xùn)練（meta-training）的數(shù)據(jù)， $\tau _{j}$ 代表一個元測試階段的新任務(wù)。

我們在 $M$ 上訓(xùn)練模型, 目標(biāo)是當(dāng)面對新任務(wù)時，它能夠在少量訓(xùn)練數(shù)據(jù) $D_{j}$ 上實(shí)現(xiàn)快速適應(yīng)，從而準(zhǔn)確預(yù)測新任務(wù)測試數(shù)據(jù) $X_{j}^*$ 的標(biāo)簽。這個過程可以表示為一個層次型的圖模型：

2 記憶問題?

回到開頭的例子，假設(shè)在學(xué)校每天學(xué)習(xí)的內(nèi)容是解決一種題型，這對應(yīng)于元訓(xùn)練里的一個任務(wù)。經(jīng)過一段時間后，假設(shè)每種題型都被重復(fù)學(xué)習(xí)了若干次。如果一個學(xué)生可以記住各個題型，那么她/他將不需要再去上課也可以解決作業(yè)里的問題。也就是說她/他可以解決已知題型里的新問題，但這樣的純粹記憶并不能解決新的題型。讓我們再看一個例子，假設(shè)每一個元訓(xùn)練里的任務(wù)是擬合一些線性相關(guān)的數(shù)據(jù)。我們希望模型能夠?qū)W會利用少量的數(shù)據(jù)去估計模型參數(shù)，如下圖所示：

這種快速適應(yīng)能力可以泛化到解決元測試中的未曾見過的新任務(wù)，如下圖（左）。但我們發(fā)現(xiàn)，如果模型足夠靈活，那么一個單一模型就可以解決元訓(xùn)練中的所有任務(wù)，并且忽略任何任務(wù)內(nèi)訓(xùn)練數(shù)據(jù)，如下圖(右)。這導(dǎo)致在元測試階段，當(dāng)面對一個新任務(wù)時，算法仍然會忽略任務(wù)內(nèi)訓(xùn)練數(shù)據(jù)，但這樣做將無法解決新任務(wù)

我們將這樣的現(xiàn)象定義為元學(xué)習(xí)中的記憶問題 (memorization problem)，數(shù)學(xué)上表述為條件互信息為零：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? $I(\hat{y} ^*;D|x^*,M)=0$

也就是說預(yù)測值和任務(wù)內(nèi)訓(xùn)練數(shù)據(jù)是條件獨(dú)立的。

值得注意的是記憶問題是否會出現(xiàn)與任務(wù)分布 $p(\tau )$ 緊密相關(guān)。我們發(fā)現(xiàn)，如果各任務(wù)是互斥的（mutually exclusive），意即一個單一預(yù)測模型不可以解決所有的任務(wù)，那么記憶問題不會出現(xiàn)。例如小樣本分類（few-shot classification）廣泛地利用了這個特性。但在很大一類問題中，各任務(wù)不互斥，因此記憶問題廣泛存在，并會影響多種元學(xué)習(xí)算法。

3 元正則化

基于以上分析和圖表式，我們發(fā)現(xiàn)用于預(yù)測模型的信息來自元訓(xùn)練數(shù)據(jù) $M$ , 任務(wù)內(nèi)訓(xùn)練數(shù)據(jù) $D$ 和輸入 $x^*$ 。因此如果能夠控制來自 $M$ 和 $x^*$ 的信息，同時要求實(shí)現(xiàn)精確預(yù)測，就可以鼓勵模型利用 $D$ 中的信息而不是忽略它。利用信息不等式和PAC-Bayes理論，我們得出一種方式是利用信息瓶頸（information bottleneck）約束：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $D_{KL}(q(z^*|x^*,\theta )||r(z^*))$

另一種方式是約束

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $D_{KL}(q(\theta |M)||r(\theta ))$

其中 $\theta$ 對應(yīng)編碼器 (encoder): $x\rightarrow z$ 的參數(shù)。將以上元正則項(xiàng) (Meta Regularization)和Model Agnostic Meta-Learning (MAML)，Conditional Neural Process (CNP) 相結(jié)合，我們提出了新的 “MAML先生” (MR MAML) 和 “CNP先生” (MR CNP) 算法。在幾個非互斥任務(wù)的數(shù)據(jù)集上，我們的算法實(shí)現(xiàn)了大幅度的性能提升。在一個3D物體方向預(yù)測數(shù)據(jù)集上我們進(jìn)行了實(shí)驗(yàn)：