《Learning to Compare: Relation Network for Few-Shot Learning》

一、Introduction

? ? ? ? 深度學(xué)習(xí)模型在視覺識(shí)別任務(wù)中取得了巨大的成功。然而,這些監(jiān)督學(xué)習(xí)模型需要大量的標(biāo)記數(shù)據(jù)和許多迭代來訓(xùn)練它們大量的參數(shù)。由于標(biāo)注成本的原因,這嚴(yán)重限制了它們對新類的可拓展性,但從根本上限制了它們對新出現(xiàn)的或是很少出現(xiàn)的類的適用性。在這些類別中,大量注釋的圖像可能根本不存在。相比之下,人類在幾乎沒有直接監(jiān)督或根本沒有監(jiān)督的情況下卻非常擅長識(shí)別物體,例如小樣本學(xué)習(xí)或零樣本學(xué)習(xí)。例如,孩子們可以毫不費(fèi)力地從書中的一張圖片中或者在聽到它看起來像一匹條紋馬的描述時(shí)可以歸納出“斑馬”的概念。由于傳統(tǒng)的深度學(xué)習(xí)方法在每一類上只有一個(gè)或幾個(gè)樣例都無法很好地發(fā)z揮作用,再加上人類對小樣本學(xué)習(xí)和零樣本學(xué)習(xí)的學(xué)習(xí)能力,最近人們對機(jī)器小樣本學(xué)習(xí)和零樣本學(xué)習(xí)的興趣又重新燃起。

? ? ? ? 小樣本學(xué)習(xí)旨在從極少的標(biāo)記例子中識(shí)別新的視覺類別。只有一個(gè)或很少幾個(gè)例子的可用性挑戰(zhàn)了深度學(xué)習(xí)中的標(biāo)準(zhǔn)的“微調(diào)”實(shí)踐。在這種數(shù)據(jù)有限的情況下,數(shù)據(jù)增強(qiáng)正則化技術(shù)可以緩解過擬合問題,但并不能解決這個(gè)問題。因此,當(dāng)代的小樣本學(xué)習(xí)方法常常將訓(xùn)練分解為一個(gè)輔助元學(xué)習(xí)階段,在這個(gè)階段中,可轉(zhuǎn)移知識(shí)以良好的初始條件、嵌入(?)或優(yōu)化策略的形式學(xué)習(xí)。目標(biāo)小樣本學(xué)習(xí)問題是通過微調(diào)與學(xué)習(xí)優(yōu)化策略或計(jì)算前饋通過不更新網(wǎng)絡(luò)權(quán)值來學(xué)習(xí)的。零樣本學(xué)習(xí)也會(huì)受到相關(guān)挑戰(zhàn)的影響。識(shí)別器是通過類描述形式的單個(gè)例子來訓(xùn)練的,這使得基于梯度學(xué)習(xí)的數(shù)據(jù)不足成為一個(gè)難題。

? ? ? ? 盡管前景很好,但大多數(shù)現(xiàn)有的小樣本學(xué)習(xí)方法要么需要復(fù)雜的推理機(jī)制,復(fù)雜的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu),要么對目標(biāo)問題進(jìn)行微調(diào)。我們的方法與其他旨在訓(xùn)練一次性學(xué)習(xí)的有效度量標(biāo)準(zhǔn)的方法密切相關(guān),其中這些方法專注于可轉(zhuǎn)移嵌入的學(xué)習(xí),并預(yù)先定義了一個(gè)固定的度量(例如,歐幾里得距離),我們進(jìn)一步的目標(biāo)是學(xué)習(xí)一個(gè)可轉(zhuǎn)移的深度度量來比較圖像之間的關(guān)系(小樣本學(xué)習(xí)),或圖像和類描述之間的關(guān)系(零樣本學(xué)習(xí))。通過表達(dá)更深層次解決方案的歸納偏差(在嵌入和關(guān)聯(lián)模塊上的多個(gè)非線性學(xué)習(xí)階段),我們可以更容易地學(xué)習(xí)到問題的可推廣解決方案。

具體地說,我們提出了一個(gè)雙分支關(guān)系網(wǎng)絡(luò)(RN),它通過學(xué)習(xí)比較查詢圖像和標(biāo)記為小樣本圖像的樣本來完成小樣本的識(shí)別。首先,嵌入模塊生成查詢圖像的表示并且訓(xùn)練圖像。然后,使用關(guān)系模塊對這些嵌入進(jìn)行比較,確定它們是否來自匹配的類別。受[39,36]的啟發(fā),定義了episode-based策略,嵌入模塊和關(guān)系模塊是元學(xué)習(xí)、端到端的,以支持小樣本學(xué)習(xí)。這可以被看作是擴(kuò)展了[39,36]的策略,包括一個(gè)可學(xué)習(xí)的非線性比較器,而不是一個(gè)固定的線性比較器。我們的方法優(yōu)于以前的方法,同時(shí)更簡單(沒有RNNs)和更快(沒有微調(diào))。我們提出的策略也直接推廣到零樣本學(xué)習(xí)。在這種情況下,樣本分支嵌入一個(gè)單樣本的類別描述,而不是一個(gè)單一的樣本訓(xùn)練圖像,并且關(guān)系模塊學(xué)習(xí)比較查詢圖像和類別描述嵌入。

總的來說,我們的貢獻(xiàn)是提供了一個(gè)顯而易見的框架,包含了小樣本學(xué)習(xí)和零樣本學(xué)習(xí)。我們對四個(gè)基準(zhǔn)測試的評估表明,它在整體上有比較引人注目的性能,同時(shí)比其他替代方案更簡單、更快。

二、相關(guān)工作

對零樣本或小樣本目標(biāo)識(shí)別的研究一直是人們關(guān)注的焦點(diǎn)。早期關(guān)于小樣本學(xué)習(xí)的工作往往涉及具有復(fù)雜迭代推理策略的生成模型[9,23]。隨著有區(qū)別的深度學(xué)習(xí)方法在數(shù)據(jù)豐富的多樣本學(xué)習(xí)環(huán)境中的成功,人們對將這種深度學(xué)習(xí)方法推廣到小樣本學(xué)習(xí)環(huán)境產(chǎn)生了濃厚的興趣。這些方法使用元學(xué)習(xí)或?qū)W會(huì)學(xué)習(xí)策略在某種意義上,他們從一組輔助任務(wù)中提取一些可轉(zhuǎn)換的知識(shí)(元學(xué)習(xí),學(xué)會(huì)學(xué)習(xí)),然后幫助他們學(xué)習(xí)好目標(biāo)域小樣本問題沒有遭受時(shí)可能的過度擬合應(yīng)用深度模型數(shù)據(jù)稀疏問題。

Learning to Fine-Tune.成功的MAML方法旨在元學(xué)習(xí)一個(gè)初始條件(一組神經(jīng)網(wǎng)絡(luò)權(quán)值),這有利于微調(diào)小樣本問題。這里的策略是搜索給定神經(jīng)網(wǎng)絡(luò)的權(quán)重配置,這樣它就可以在幾個(gè)梯度下降更新步驟內(nèi)有效地微調(diào)到稀疏數(shù)據(jù)問題上。從一個(gè)多任務(wù)訓(xùn)練集中采樣許多不同的目標(biāo)問題;然后對基本神經(jīng)網(wǎng)絡(luò)模型進(jìn)行微調(diào),以解決每一個(gè)問題,并且在微調(diào)驅(qū)動(dòng)后在基本模型中更新每一個(gè)目標(biāo)問題——從而驅(qū)動(dòng)一個(gè)易于微調(diào)的初始條件的產(chǎn)生。[29]的小樣本優(yōu)化方法在元學(xué)習(xí)方面更進(jìn)一步,不僅是一個(gè)良好的初始條件,而且是一個(gè)基于LSTM的優(yōu)化器,這個(gè)優(yōu)化器經(jīng)過訓(xùn)練可有效用于微調(diào)。然而,這兩種方法都需要對目標(biāo)問題進(jìn)行微調(diào)。相反,我們的方法以完全前饋的方式解決目標(biāo)問題,不需要模型更新,使其更方便用于低延遲或低功耗的應(yīng)用。

RNN Memory based.另一類方法利用帶記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)。這里的思想是,典型的RNN迭代給定問題的一個(gè)例子,并在其隱藏的激活或外部記憶中積累解決該問題所需的知識(shí)。新實(shí)例可以分類,例如通過將它們與存儲(chǔ)在存儲(chǔ)器中的歷史信息進(jìn)行比較。因此,在展開RNN的過程中,可以“學(xué)習(xí)”單一目標(biāo)問題,而“學(xué)習(xí)中學(xué)習(xí)”意味著通過學(xué)習(xí)許多不同的問題來訓(xùn)練RNN的權(quán)值。雖然這些架構(gòu)很吸引人,但它們面臨的問題是如何確??煽康卮鎯?chǔ)所有可能是長期的、相關(guān)的歷史信息而不被遺忘。在我們的方法中,我們避免了遞歸網(wǎng)絡(luò)的復(fù)雜性,以及確保其內(nèi)存充足所涉及的問題。相反,我們的“學(xué)會(huì)學(xué)習(xí)”的方法完全定義為簡單而快速的前饋CNN。

Embedding and Metric Learning Approaches.在學(xué)習(xí)目標(biāo)小樣本問題時(shí),前面的方法有一定的復(fù)雜性。另一類方法的目的是學(xué)習(xí)一組投影函數(shù),該函數(shù)從目標(biāo)問題中提取查詢圖像和樣本圖像,并以前饋方式對其進(jìn)行分類。一種方法是根據(jù)樣本集來參數(shù)化前饋分類器的權(quán)重。這里的元學(xué)習(xí)訓(xùn)練輔助參數(shù)化網(wǎng)絡(luò),該網(wǎng)絡(luò)學(xué)習(xí)如何參數(shù)化給定前饋小樣本集的分類問題?;诙攘繉W(xué)習(xí)的方法旨在學(xué)習(xí)一組投影函數(shù),當(dāng)在此嵌入空間表示時(shí),圖片很容易使用簡單的最近鄰或是線性分類器被識(shí)別到。在這種情況下,元學(xué)習(xí)到的可轉(zhuǎn)移知識(shí)是投影函數(shù),并且目標(biāo)問題是一個(gè)簡單的前饋計(jì)算。與我們最相關(guān)的方法是原型網(wǎng)絡(luò)和暹羅網(wǎng)絡(luò)。這些方法集中于學(xué)習(xí)一個(gè)嵌入空間,該嵌入空間轉(zhuǎn)換數(shù)據(jù),這樣它可以被一個(gè)固定的最近鄰或線性分類器識(shí)別。相比之下,我們的框架進(jìn)一步定義了一個(gè)關(guān)系分類器CNN,與[20,36]相比,這可以被視為提供了一個(gè)可學(xué)習(xí)的而不是固定的度量,或非線性而不是線性分類器。與[20]相比,我們受益于從頭開始的端到端的episodic training策略,與[32]相比,我們避免了集合到集合的RNN嵌入樣本集的復(fù)雜性,并且僅僅依賴于pooling[33]。

Zero-shot Learning.我們的方法是為小樣本學(xué)習(xí)而設(shè)計(jì)的,但是通過修改樣本分支輸入單一的類別描述,而不是單一的訓(xùn)練圖像可以使我們的方法跨越到零樣本學(xué)習(xí)(ZSL)的空間。當(dāng)應(yīng)用到ZSL時(shí),我們的架構(gòu)與涉及到學(xué)習(xí)對齊圖像和類別嵌入以及通過預(yù)測圖像和類別嵌入對是否匹配來進(jìn)行識(shí)別的方法有關(guān)。與之前基于度量的小樣本方法類似,這些方法大多在結(jié)合圖像和嵌入類別后,使用一個(gè)固定的人工定義的相似性度量或線性分類器。相比之下,我們再次受益于更深層次的端到端架構(gòu),包括以我們所學(xué)到的卷積關(guān)系網(wǎng)絡(luò)形式的非線性度量;以及以episode為基礎(chǔ)的訓(xùn)練策略。

三、方法

3.1.問題定義

我們考慮了小樣本分類器的學(xué)習(xí)任務(wù)。正式地來說,我們有三個(gè)數(shù)據(jù)集:一個(gè)訓(xùn)練集,一個(gè)支持集,和一個(gè)測試集。支持集和測試集共享相同的標(biāo)簽空間,但訓(xùn)練集都有自己的標(biāo)簽空間與支持集或測試集不相交。如果支持集在每個(gè)獨(dú)特的C個(gè)類中包含K個(gè)標(biāo)記樣本,那么目標(biāo)小樣本問題就被叫做C-way K-shot。

僅在支持集上,原則上我們可以在測試集中為每一個(gè)\hat{x} 訓(xùn)練一個(gè)分類器分配一個(gè)類標(biāo)簽\hat{y} 。然而,由于支持集中缺少標(biāo)簽樣本,這樣一個(gè)分類器的性能通常是不能令人滿意的。因此,我們的目標(biāo)是在訓(xùn)練集上進(jìn)行元學(xué)習(xí),以提取可轉(zhuǎn)移知識(shí),使我們在支持集上進(jìn)行更好的小樣本學(xué)習(xí),從而更成功地對測試集進(jìn)行分類。

利用訓(xùn)練集的一種有效方法是通過基于episode的訓(xùn)練來模擬小樣本學(xué)習(xí)的設(shè)置。在每一次訓(xùn)練的迭代中,一個(gè)episode是由從訓(xùn)練集中隨機(jī)抽取C個(gè)類,每個(gè)類中有K個(gè)標(biāo)記樣本,作為樣本集S(S=\left\{x_{i} ,y_{i} \right\} _{i=1}^m (m=K\times C))及查詢集Q(Q=\left\{ (x_{j} ,y_{j}) \right\} _{j=1}^n)(其余C類示例的一部分而構(gòu)成的)。這個(gè)查詢集分割為支持集/測試集。如果需要,從樣本集/查詢集訓(xùn)練出來的模型可以使用支持集進(jìn)一步進(jìn)行微調(diào)。在這項(xiàng)工作中,我們采用了這樣一種基于episode的訓(xùn)練策略。在我們的小樣本實(shí)驗(yàn)(見4.1節(jié))中,我們考慮了單個(gè)樣本(K = 1,圖1)和五個(gè)樣本的(K = 5)設(shè)置。我們還將處理K = 0零樣本學(xué)習(xí)案例,如3.3節(jié)中所解釋的。

3.2.模型

one-shot.我們的關(guān)系網(wǎng)絡(luò)(RN)包括兩個(gè)模塊:一個(gè)嵌入模塊f_{\varphi } 和關(guān)系模塊g_{\varphi } ,如圖1所示。查詢集Q中的樣本x_{j} ,和樣本集S中的樣本x_{i} 輸入到嵌入模塊f_{\varphi } ,產(chǎn)生特征圖f_{\varphi } (x_{i} )f_{\varphi } (x_{j} )。特征圖f_{\varphi } (x_{i} )f_{\varphi } (x_{j} )通過operator結(jié)合起來C(f_{\varphi } (x_{i} ),f_{\varphi } (x_{j} ))。在這項(xiàng)工作中,我們假設(shè)C(\cdot ,\cdot )是深度特征圖的連接,盡管也可能有其他選擇。將支持集和查詢集的組合特征圖輸入關(guān)系模塊g_{\varphi } ,最終產(chǎn)生一個(gè)在0 - 1范圍的表示x_{i} x_{j} 相似度的標(biāo)量,稱為關(guān)系得分。因此,在C-way one-shot設(shè)置中,我們生成了查詢輸入x_{j} 和支持集樣本x_{i} 間對應(yīng)的C個(gè)關(guān)系得分r_{i,j}

K-shot.對于K-shot,其中K >1,我們對每個(gè)訓(xùn)練類的所有樣本的嵌入模塊輸出按元素求和,形成該類的特征圖。這個(gè)合并的特征圖與上面的查詢圖像特征映射結(jié)合在一起。因此,在one-shot或few-shot設(shè)置中,一個(gè)查詢圖的關(guān)系分?jǐn)?shù)總是C個(gè)。

Objective function.我們使用均方誤差(MSE)損失(Eq.(2))來訓(xùn)練我們的模型,regressing the relation scorer_{i,j} to the ground truth: 匹配的對相似度為1,不匹配的對相似度為0。MSE的選擇有些不標(biāo)準(zhǔn)。我們的問題似乎是一個(gè)標(biāo)簽空間{0,1}的分類問題。然而,我們在概念上預(yù)測的是關(guān)系得分,這可以被認(rèn)為是一個(gè)回歸問題,盡管對于ground-truth,我們只能自動(dòng)生成{0,1}目標(biāo)。


圖1.RN架構(gòu)

3.3.Zero-shot Learning

Zero-shot learning類似于one-shot learning,即給出一個(gè)數(shù)據(jù)來定義要識(shí)別的每個(gè)類。然而,它并沒有為每個(gè)C訓(xùn)練類提供一張圖片的支持集,而是為每個(gè)C訓(xùn)練類包含一個(gè)語義類嵌入向量v_{c} 。修改我們的框架來處理zero-shot問題很簡單:作為一個(gè)不同的形態(tài)語義向量用于支持集(例如,屬性向量而不是圖片),我們使用第二個(gè)異構(gòu)嵌入模塊f_{\varphi 2} 除了嵌入模塊f_{\varphi 1} 用于圖像查詢集。然后關(guān)系網(wǎng)絡(luò)g_{\varphi } 還是用之前的。因此,每個(gè)查詢輸入x_{j} 的關(guān)系得分為:

Zero-shot Learning的目標(biāo)函數(shù)與Few-shot Learning的一樣。

3.4.網(wǎng)絡(luò)結(jié)構(gòu)

由于大多數(shù)小樣本學(xué)習(xí)模型使用四個(gè)卷積塊來嵌入模塊,為了公平比較,我們遵循相同的架構(gòu)設(shè)置,見圖2。更具體地說,每個(gè)卷積塊分別包含一個(gè)64個(gè)filter ,大小為3×3、一個(gè)BN和一個(gè)ReLU非線性層。前兩個(gè)塊還包含一個(gè)2×2的最大池化層,而后兩個(gè)沒有。我們這樣做是因?yàn)槲覀冃枰敵鎏卣鲌D,為了關(guān)系模塊中的卷積層。關(guān)系模塊由兩個(gè)卷積塊和兩個(gè)全連通層組成。每個(gè)卷積塊是一個(gè)3×3的卷積,包含64個(gè)濾波器,然后是批處理歸一化、ReLU非線性和2×2最大池化層。對于數(shù)據(jù)集Omniglot來說,最后一個(gè)最大池化層的輸出大小為H = 64,對于數(shù)據(jù)集miniImageNet來說,H = 64?3?3 = 576。這兩個(gè)完全連接的層分別是8維和1維。除了輸出層為Sigmoid外,所有全連通層均為ReLU,以便為我們所有版本的網(wǎng)絡(luò)架構(gòu)生成一個(gè)合理范圍內(nèi)的關(guān)系分?jǐn)?shù)。zero-shot學(xué)習(xí)架構(gòu)如圖3所示。在這種體系結(jié)構(gòu)中,DNN子網(wǎng)是一個(gè)在ImageNet上預(yù)先訓(xùn)練好的現(xiàn)有網(wǎng)絡(luò)(例如,Inception或ResNet)。

圖2.RN for Few-shot Learning
圖3.RN for Zero-shot Learning

四、實(shí)驗(yàn)

4.1.Few-shot Recognition

settings.在小樣本學(xué)習(xí)的所有實(shí)驗(yàn)中使用Adam,初始學(xué)習(xí)率為10^-3 ,每10萬episode退火一半。我們所有的模型都是端到端,從頭到尾訓(xùn)練的沒有額外的數(shù)據(jù)集。

baselines.我們比較了各種現(xiàn)有的先進(jìn)的小樣本識(shí)別基線,包括神經(jīng)統(tǒng)計(jì),有無微調(diào)的匹配網(wǎng)絡(luò),MANN,有記憶的暹羅網(wǎng)絡(luò),卷積暹羅網(wǎng)絡(luò),MAML,元網(wǎng)絡(luò),原型網(wǎng)絡(luò)和元學(xué)習(xí)器LSTM 。

4.1.1 Omniglot

dataset.Omniglot包含來自50種不同字母的1623個(gè)字符(類)。每個(gè)類別包含20個(gè)不同人抽取的樣本。在[32,39,36]之后,我們通過對現(xiàn)有數(shù)據(jù)進(jìn)行90°,180°和270°的旋轉(zhuǎn)來擴(kuò)充新的類,并使用1200個(gè)原始類加上輪次來進(jìn)行訓(xùn)練,剩余的423個(gè)類加上輪次來進(jìn)行測試。所有輸入圖像都被調(diào)整到28 × 28。

training.除了K個(gè)樣本圖像之外,5-way 1-shot包含19個(gè)查詢圖像,5-way 5-shot具有15個(gè)查詢圖像,20-way 1-shot具有10個(gè)查詢圖像,20-way 5-shot對于每個(gè)訓(xùn)練集的每個(gè)C個(gè)樣本類具有5個(gè)查詢圖像。這意味著,例如,對于5路單鏡頭實(shí)驗(yàn),在一個(gè)訓(xùn)練集/小批量中有19 × 5 + 1 × 5 = 100個(gè)圖像。

results.根據(jù)[36],我們在Omniglot上通過對測試集隨機(jī)生成的1000多集進(jìn)行平均來計(jì)算少鏡頭分類的準(zhǔn)確性。對于1-shot和5-shot實(shí)驗(yàn),我們在測試過程中分別為每個(gè)類批處理一個(gè)和五個(gè)查詢圖像進(jìn)行評估。結(jié)果如表1所示。在所有實(shí)驗(yàn)設(shè)置下,我們都獲得了最高的性能,平均精度更高,標(biāo)準(zhǔn)偏差更低,除了5-way 5-shot,我們的模型精度比[10]低0.1%。盡管許多替代方案有明顯更復(fù)雜的機(jī)制[27,8],或?qū)δ繕?biāo)問題進(jìn)行微調(diào)[10,39],但我們沒有。

4.1.2 miniImageNet

dataset.miniImagenet數(shù)據(jù)集最初由[39]提出,由60,000幅彩色圖像組成,有100個(gè)類別,每個(gè)類別有600個(gè)例子。我們遵循了[29]中介紹的分割方法,分別為64、16和20節(jié)課進(jìn)行訓(xùn)練、驗(yàn)證和測試。16個(gè)驗(yàn)證類僅用于監(jiān)控概括性能。

training.遵循大多數(shù)現(xiàn)有的少鏡頭學(xué)習(xí)工作所采用的標(biāo)準(zhǔn)設(shè)置,我們進(jìn)行了5-way 1-shot和5-shot的分類。除了K個(gè)樣本圖像之外,5-way 1-shot包含15個(gè)查詢圖像,5-way 5-shot在每個(gè)訓(xùn)練集對于C個(gè)樣本類中的每一個(gè)都有10個(gè)查詢圖像。這意味著,例如,對于5-way 1-shot實(shí)驗(yàn),在一個(gè)訓(xùn)練集/小片段中有15×5+1×5?= 80個(gè)圖像。我們將輸入圖像調(diào)整到84 × 84。我們的模型是端到端的,從頭到尾訓(xùn)練的,隨機(jī)初始化,沒有額外的訓(xùn)練集。

results.在[36]之后,我們在每集每類中批處理15個(gè)查詢圖像,以在1-shot和5-shot場景中進(jìn)行評估,并且通過對測試集中隨機(jī)生成的600多集進(jìn)行平均來計(jì)算小樣本分類精度。從表2中,我們可以看到,我們的模型在5-way 1-shot設(shè)置上實(shí)現(xiàn)了一流的性能,在5-way 5-shot設(shè)置上實(shí)現(xiàn)了競爭結(jié)果。然而,由原型網(wǎng)絡(luò)[36]報(bào)告的1-shot結(jié)果要求在每個(gè)訓(xùn)練集上訓(xùn)練30-way 15個(gè)查詢,而5-shot結(jié)果在每個(gè)訓(xùn)練集上訓(xùn)練20-way 15個(gè)查詢。當(dāng)每集訓(xùn)練用5-way15 query訓(xùn)練時(shí),[36]一次評價(jià)只得到46.14±0.77%,明顯弱于我們。相比之下,我們所有的模型都是在5-way上訓(xùn)練的,每個(gè)訓(xùn)練集有1個(gè)1-shot查詢和5個(gè)5-shot查詢,訓(xùn)練查詢比[36]少得多。

表1
表2

4.2 Zero-shot Recognition (沒仔細(xì)看)

datasets and settings.我們遵循兩個(gè)ZSL設(shè)置:舊設(shè)置和[42]為訓(xùn)練/測試劈叉提供的新GBU設(shè)置。在[42]之前的大多數(shù)現(xiàn)有ZSL作品所采用的舊設(shè)置下,一些測試類也出現(xiàn)在ImageNet 1000類中,這些測試類已經(jīng)用于對圖像嵌入網(wǎng)絡(luò)進(jìn)行預(yù)處理,從而違反了零鏡頭假設(shè)。相比之下,新的GBU設(shè)置確保沒有數(shù)據(jù)集的測試類出現(xiàn)在ImageNet 1000類中。在這兩種設(shè)置下,測試集只能包含未看到的類別樣本(常規(guī)測試集設(shè)置)或看到的和未看到的類別樣本的混合。后者被稱為廣義零樣本學(xué)習(xí),在實(shí)踐中更為現(xiàn)實(shí)。兩個(gè)廣泛使用的ZSL基準(zhǔn)被選擇用于舊的設(shè)置:AwA(具有屬性的動(dòng)物)由50類動(dòng)物的30,745幅圖像組成。它有一個(gè)固定的評估部分,有40個(gè)訓(xùn)練類別和10個(gè)測試類別。CUB(Calech-UCSD Birds-200-2011) 包含200種鳥類的11788幅圖像,其中有150個(gè)可見類和50個(gè)不相交的不可見類。選擇三個(gè)數(shù)據(jù)集用于GBU設(shè)置:AwA1、AwA2和CUB。新發(fā)布的AwA2 由50個(gè)級別的37322幅圖像組成,是AwA的擴(kuò)展,而AwA1與AwA相同,但在GBU環(huán)境下。

Semantic representation.對于AwA,我們使用來自[24]的連續(xù)85維類級屬性向量,所有最近的工作都使用了這個(gè)向量。對于CUB,使用連續(xù)的312維類級屬性向量。

Implementation details.在零樣本學(xué)習(xí)中,兩種不同的嵌入模塊用于兩種輸入模式。除非另有說明,否則我們使用InceOptionv2[38,17]作為在舊的常規(guī)設(shè)置中嵌入DNN的查詢圖像,而使用ResNet101 [16]作為GBU和通用設(shè)置,分別將頂部池單元作為維度為D = 1024和2048的圖像嵌入。這個(gè)DNN是預(yù)先訓(xùn)練的ILSVRC 2012 1K分類,沒有微調(diào),如最近的深度ZSL工作[25,30,45]。MLP網(wǎng)絡(luò)用于嵌入語義屬性向量。對于AwA和CUB,隱藏層FC1(圖3)的大小分別設(shè)置為1024和1200,輸出大小FC2設(shè)置為與兩個(gè)數(shù)據(jù)集的圖像嵌入相同的維度。對于關(guān)系模塊,圖像和語義嵌入在被饋送到分別具有400和1200 AWa和CUB的隱藏層FC3尺寸的MLPs之前被連接。

我們在FC1和FC2中增加了權(quán)重衰減(L2正則化),因?yàn)樵赯SL的跨模態(tài)映射中存在一個(gè)中心問題[45],這個(gè)問題可以通過將語義特征向量映射到具有正則化的視覺特征空間來最好地解決。之后,使用FC3 & 4(關(guān)系模塊)計(jì)算語義表示(在視覺特征空間中)和視覺表示之間的關(guān)系。由于在這一步中不存在傲慢問題,因此不需要L2正則化/重量衰減。所有ZSL模型都是在嵌入網(wǎng)絡(luò)中用權(quán)重衰減105來訓(xùn)練的。用亞當(dāng)[19]將學(xué)習(xí)速率初始化為10-5,然后每200,000次迭代退火一半。

Results under the old setting.對ZSL的常規(guī)評估,以及隨后的大部分前期工作,是假設(shè)測試數(shù)據(jù)都來自于看不見的類。我們首先評估這個(gè)設(shè)置。我們在表3中比較了15種替代方法。僅使用屬性向量作為樣本類嵌入,我們的模型在AwA上獲得了有競爭力的結(jié)果,在更具挑戰(zhàn)性的CUB數(shù)據(jù)集上獲得了最先進(jìn)的性能,遠(yuǎn)遠(yuǎn)超過了最相關(guān)的替代原型網(wǎng)絡(luò)[36]。注意,只考慮歸納法。最近的一些方法[48,12,13]是無效的,因?yàn)樗鼈兺瑫r(shí)使用所有的測試數(shù)據(jù)進(jìn)行模型訓(xùn)練,這給了它們很大的優(yōu)勢,但代價(jià)是做出了在實(shí)際應(yīng)用中可能無法滿足的非常強(qiáng)的假設(shè),因此我們在此不做比較。

Results under the GBU setting.我們遵循[42]的評估設(shè)置。我們將我們的模型與表4中的11個(gè)備選ZSL模型進(jìn)行了比較。10個(gè)淺層模型的結(jié)果來自[42],最先進(jìn)的方法DEM [45]的結(jié)果來自作者的GitHub第1頁。我們可以看到,在AwA2和CUB上,我們的模型在使用調(diào)和平均度量測量的更現(xiàn)實(shí)的GZSL設(shè)置下特別強(qiáng)。而在AwA1上,我們的方法僅優(yōu)于DEM [45]。

5.Why does Relation Network Work?

5.1.與現(xiàn)有模型的關(guān)系

相關(guān)的先前少量工作使用固定的預(yù)先指定的距離度量,例如歐幾里德或余弦距離來執(zhí)行分類[39,36]。這些研究可以被視為距離度量學(xué)習(xí),但是所有的學(xué)習(xí)都發(fā)生在特征嵌入中,并且給定所學(xué)習(xí)的嵌入,使用固定的度量。同樣相關(guān)的是傳統(tǒng)的度量學(xué)習(xí)方法[26,7],其集中于學(xué)習(xí)固定特征表示的淺(線性)馬氏度量。與先前工作的固定度量或固定特征和淺學(xué)習(xí)度量相比,關(guān)系網(wǎng)絡(luò)可以被視為既學(xué)習(xí)深度嵌入又學(xué)習(xí)深度非線性度量(相似性函數(shù))2。這些都是端到端的相互調(diào)整,在很少的短期學(xué)習(xí)中相互支持。為什么這可能特別有用?通過使用靈活的函數(shù)逼近器來學(xué)習(xí)相似性,我們可以以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)良好的度量,而不必手動(dòng)選擇正確的度量(歐幾里德、余弦、馬氏)。像[39,36]這樣的固定度量標(biāo)準(zhǔn)假設(shè)特征僅在元素方面進(jìn)行比較,而最相關(guān)的[36]假設(shè)嵌入后的線性可分性。因此,這些嚴(yán)重依賴于學(xué)習(xí)的嵌入網(wǎng)絡(luò)的效率,并因此受到嵌入網(wǎng)絡(luò)產(chǎn)生不充分的區(qū)別性表示的程度的限制。相比之下,通過深入學(xué)習(xí)與嵌入相結(jié)合的非線性相似性,關(guān)系網(wǎng)絡(luò)可以更好地識(shí)別匹配/不匹配對。

5.2.可視化

為了說明前面關(guān)于學(xué)習(xí)輸入嵌入的充分性的觀點(diǎn),我們展示了一個(gè)綜合的例子,其中現(xiàn)有的方法肯定會(huì)失敗,并且我們的關(guān)系網(wǎng)絡(luò)可以由于使用深度關(guān)系模塊而成功。假設(shè)2D查詢和樣本輸入嵌入到關(guān)系模塊,圖4(a)示出了固定2D查詢輸入的2D樣本輸入的空間。每個(gè)樣本輸入(像素)根據(jù)其是否匹配固定查詢而被著色。這表示嵌入模塊的輸出對于查詢和樣本集之間的普通(歐幾里德神經(jīng)網(wǎng)絡(luò))比較而言不夠有區(qū)別的情況。在圖4(c)中,我們試圖通過馬氏度量學(xué)習(xí)關(guān)系模塊來學(xué)習(xí)匹配,并且我們可以看到結(jié)果是不充分的。在圖4(d)中,我們進(jìn)一步學(xué)習(xí)了查詢和樣本輸入的2-隱藏層MLP嵌入以及后續(xù)的馬哈拉諾比斯度量,這也是不夠的。只有通過學(xué)習(xí)相似性的全深度關(guān)系模塊,我們才能在圖4(b)中解決這個(gè)問題。

在一個(gè)真實(shí)的問題中,比較嵌入的困難可能沒有這么極端,但它仍然具有挑戰(zhàn)性。我們定性地說明了匹配兩個(gè)Omniglot示例查詢圖像(投影到2D的嵌入,圖5(左))的挑戰(zhàn),方法是顯示一個(gè)由匹配(青色)或不匹配(洋紅色)著色的真實(shí)樣本圖像與兩個(gè)示例查詢(黃色)的類似圖。在標(biāo)準(zhǔn)假設(shè)[39,36,26,7]下,青色匹配樣本應(yīng)該是具有某種度量(歐幾里德、余弦、馬氏)的黃色查詢圖像的最近鄰居。但是我們可以看到,匹配關(guān)系比這個(gè)更復(fù)雜。在圖5(右)中,我們根據(jù)每個(gè)查詢樣本對的2D主成分分析表示繪制了相同的兩個(gè)示例查詢,如關(guān)系模塊的倒數(shù)第二層所示。我們可以看到,關(guān)系網(wǎng)絡(luò)已經(jīng)將數(shù)據(jù)映射到一個(gè)空間中,在這個(gè)空間中,(誤)匹配對是線性可分的。

圖4
圖5
表3
表4

6.結(jié)論

我們提出了一個(gè)簡單的方法,稱為小樣本和零樣本學(xué)習(xí)的關(guān)系網(wǎng)絡(luò)。關(guān)系網(wǎng)絡(luò)學(xué)習(xí)一個(gè)用于比較查詢和樣本項(xiàng)的嵌入和深度非線性距離度量。使用episode訓(xùn)練對網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練,調(diào)整嵌入和距離度量,以實(shí)現(xiàn)有效的小樣本學(xué)習(xí)。這種方法比最近的小樣本元學(xué)習(xí)方法簡單有效得多,并且產(chǎn)生了最先進(jìn)的結(jié)果。它進(jìn)一步證明了在傳統(tǒng)和一般的零樣本設(shè)置都有效。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容