論文閱讀(36)Few-shot Learning: A Survey(2)

3. 數(shù)據(jù)(Data)

方法利用先驗知識擴充數(shù)據(jù),解決FSL問題,豐富E的監(jiān)督信息。對于更多的樣本,數(shù)據(jù)足以滿足后續(xù)機器學習模型和算法所需的樣本復雜性,并以較小的方差獲得更可靠的R(h_I)

接下來,我們將詳細介紹如何使用先驗知識在FSL中擴充數(shù)據(jù)。根據(jù)先驗知識的類型,我們將這些方法分為四類,如表2所示。因此,圖5顯示了轉換的工作原理。由于對中每個類的擴充都是獨立完成的,因此我們用D^{train}中的n個類別的一個示例(x^{(i)},y^{(i)})進行說明。

image.png
image.png
image.png

3.1 通過轉換復制訓練數(shù)據(jù)(Duplicate D^{train} with Transformation)

擴充D^{train} 的策略是通過引入變量的一些轉換方式將每個(x^{(i)},y^{(i)})復制為多個樣本。轉換過程可以從類似的數(shù)據(jù)中學習,也可以由人類的專業(yè)知識手工制作,作為先驗知識包含在經(jīng)驗E中。由于合成的圖像容易被人評估,因此它僅適用于圖像。

3.1.1 手工制作的規(guī)則(Handcrafted Rule)

在圖像識別任務中,許多工作通過將手工規(guī)則用作預處理程序來轉換D^{train}中的原始示例來增強D^{train},例如變換[11、62、98、104]、翻轉[87、104]、剪切[104]、縮放[62、141]、反射[29、58]、裁剪[87、141]和旋轉[98、125]給定示例。

3.1.2 學習轉換(Learned Transformation)

與此相反,該策略通過將原始示例復制到幾個樣本中來增強D^{train},然后通過所學的轉換對這些樣本進行修改。所學的轉換本身就是E中的先驗知識,而當前的FSL任務既不需要其訓練樣本,也不需要學習過程。

關于FSL的最早論文[76]正是利用這種策略來解決FSL圖像分類問題。通過迭代地將每個樣本對應于其他樣本,從相似的類中學習一組幾何轉換。然后將這個學習的轉換應用于每個(x^{(i)},y^{(i)}),以形成一個可以正常學習的大數(shù)據(jù)集。

同樣,Schwartz等人[2018]從一個相似的類中學習一組自動編碼器,每一個都代表一個類內(nèi)變化,通過將變化添加到(x^{(i)}生成新的樣本。假設所有類別在樣本之間共享一般的可轉換可變性,則在[44]中學習單個轉換函數(shù),將從其他類中學習的樣本對之間的變化轉移(通過類比)。在物體識別中,物體往往是主要的瞬態(tài)屬性(transient attributes),如晴天為場景,白色為雪。相比之下,Kwitt等人[2016]使用一組獨立的屬性強度回歸器將每個樣本轉換為多個新樣本,這些回歸器是從一組帶有細粒度注釋的大型場景圖像中學習到的,并將這些新樣本指定為原始樣本的標簽?;赱60],Liu等人[2018]進一步提出學習連續(xù)屬性子空間,方便對x插入和嵌入任何屬性變化。

3.1.3 討論。

用手工規(guī)則復制D^{train}是任務不變的。它被廣泛應用于深度模型中,以降低過適應的風險[38]。然而,深度模型通常用于大規(guī)模數(shù)據(jù)集,其中樣本足以估計其粗略分布(判別式模型的條件分布或生成模型的生成分布)[78]。在這種情況下,通過更多的樣本增強D^{train}可以幫助更加清晰數(shù)據(jù)分布的形狀。相比之下,F(xiàn)SL只包含少量的監(jiān)督信息,因此它的分布沒有顯露。直接使用這種手工制作的規(guī)則,而不考慮任務或D^{train}中可用的所需數(shù)據(jù)屬性,使得分布的估計很容易偏離。因此,它只能作為圖像數(shù)據(jù)的預處理步驟,而不能解決FSL問題。

至于通過學習的轉換進行復制D^{train},它可以在數(shù)據(jù)驅(qū)動的情況下增加更合適的樣本,并利用類似于D^{train}或任務T的先驗知識。但是,需要從類似的任務中提取這些先驗知識,這些任務可能并不總是可用的,而且收集起來可能會很昂貴。

3.2 借用其他數(shù)據(jù)集(Borrow From Other Data Sets)

該策略從其他數(shù)據(jù)集中借用樣本,并將其調(diào)整為目標輸出的樣本,以便增強到D^{train}監(jiān)督信息中。

3.2.1 未標記的數(shù)據(jù)集(Unlabeled Data Set)

此策略使用一組未標記的樣本D^{unlabeled}作為先驗知識,其中可能包含與y^{(i)}相同標簽的樣本。關鍵是要找到具有相同標簽的樣本,并添加它們以對D^{train}進行擴充。由于這個未標記的數(shù)據(jù)集通常很大,所以它可以包含大量的樣本變化。將它們添加到D^{train}可以幫助描述更精確的Var[R(h_I)]。該策略用于視頻中識別手勢。從D^{train}中學習到的分類器被用來從一個大而弱監(jiān)督的手勢庫中選擇相同的手勢,該庫包含不同人連續(xù)手勢的大變化,但手勢之間沒有明顯的中斷。然后使用這些選定的樣本構建最終的手勢分類器。標簽傳播用于直接在[27]中標記D^{unlabeled}。
3.2.2 類似的數(shù)據(jù)集(Similar Data Set)
此策略通過聚合來自其他具有多個樣本的類似數(shù)據(jù)集的樣本對來增強D^{train}。類似地,我們的意思是這些數(shù)據(jù)集中的類是相似的,例如一個不同種類的老虎的數(shù)據(jù)集和另一個不同種類的貓的數(shù)據(jù)集?;炯僭O是基本假設o^*適用于所有類,類x之間的相似性可以轉移到類y中。因此,可以將新樣本生成為相似數(shù)據(jù)集類的樣本對的加權平均值,其中權重通常是一些相似度量??紤]到D^{train}的類n,這個相似性是在第n個類和相似數(shù)據(jù)集中的每個類之間測量的。通過這種方式,D^{train}可以使用來自類似數(shù)據(jù)集的聚合樣本進行擴充。相似的多樣本數(shù)據(jù)集是在訓練經(jīng)驗E中有助于學習的先驗知識。這種相似性可以從文本語料庫等其他信息源中提取,使用層次結構[120]。但是,由于這種相似性不是為目標任務設計的,因此可能會產(chǎn)生誤導。此外,直接通過增加聚合樣本增強D^{train}可以有很高的偏差(bias),因為這些樣本不是來自目標FSL類。高等人[2018]設計了一種基于生成對抗網(wǎng)絡(gan)[39]的方法,聚合從多樣本的數(shù)據(jù)集中生成的可辨別(in-discriminable)的合成\hat{x},其中多樣本數(shù)據(jù)集的每個類別的平均值和協(xié)方差都用于聚合,以允許在生成過程中有更多的可變性。多樣本相似數(shù)據(jù)集的類與當前類n之間的相似性僅用x來度量。

3.2.3 Discussion

由于標記不需要人工操作,因此使用D^{unlabeled}通常很便宜。然而,伴隨著這種廉價性,D^{unlabeled}的質(zhì)量通常較低,例如粗糙和缺乏嚴格的數(shù)據(jù)集收集和審查程序,從而導致合成質(zhì)量不確定。此外,從這個大數(shù)據(jù)集中選取有用的樣本也很昂貴。

類似的數(shù)據(jù)集與D^{train}共享一些屬性,并包含足夠的監(jiān)督信息,使其成為一個更具信息性的數(shù)據(jù)源。然而,確定關鍵屬性以尋找相似的數(shù)據(jù)集可以變得更有目標性,但收集相似的數(shù)據(jù)集是很困難的。

3.3 總結

通過增強D^{train},本節(jié)中的方法達到了期望的樣本復雜性S,并獲得了可靠的經(jīng)驗風險最小化h_I。第一種方法通過轉換每個原始樣本(x^{(i)},y^{(i)}) \in D^{train}(通過手工定義或?qū)W習的轉換規(guī)則)進行復制。它在原始樣本的基礎上增加了D^{train},因此構建的新樣本不會離D^{train}太遠。但也正是由于這個原因,考慮到D^{train}的小樣本和一些轉換規(guī)則,可能沒有太多的組合選擇。第二種方法是從其他數(shù)據(jù)集中借用樣本,并對其進行調(diào)整,以模擬D^{train}中的樣本??紤]到要借用的大規(guī)模數(shù)據(jù)集,無論是未標記的還是類似的,都有大量的樣本用于轉換。然而,如何使這些樣本變得像D^{train}中的樣本十分困難。

一般來說,從增強D^{train}的角度解決FSL是很簡單的(straightforward)??紤]到合并了簡化學習的問題的目標,可以對數(shù)據(jù)進行擴充。這種增強程序?qū)θ祟悂碚f通常是合理的。如果指導擴充的先驗知識是理想的,那么它可以生成盡可能多的樣本以達到所需的樣本復雜性,并且可以使用任何常見的機器學習模型和算法。然而,由于p(x,y)未知,一個完美的先驗知識是不可能的。這意味著增強程序不精確。估計值與ground truth之間的差距很大程度上影響了數(shù)據(jù)質(zhì)量,甚至導致概念漂移。

4. 模型(Model)

模型確定假設h(.;\theta)的假設空間H;通過\theta的參數(shù)化來近似從輸入x到輸出y的最優(yōu)假設o^*。

如果用一般的機器學習模型來處理小樣本D^{train},則必須選擇較小的假設空間H。如(4)所示,小樣本H具有較小的樣本復雜性S,因此需要較少的樣本進行訓練[78]。當學習問題很簡單時,例如,特征維度很低,一個小的H確實可以獲得期望的良好學習性能。然而,由于現(xiàn)實世界中的學習問題通常是非常復雜的,并且由于顯著的\varepsilon_{app}( H)(38),不能很好地用小H中的假設h來表示。因此,F(xiàn)SL優(yōu)先選擇大的H,這使得一般的機器學習模型不可行。正如我們將在續(xù)集中看到的那樣,本節(jié)中的方法通過E中的先驗知識補充缺乏的樣本來學習較大的H。具體地說,利用先驗知識通過約束H來影響H的設計選擇。這樣就降低了樣本的復雜性,使經(jīng)驗風險最小化更為可靠,并降低了過度擬合的風險。根據(jù)所使用的先驗知識,屬于這類的方法可進一步分為五種策略,如表3所示。

image.png

4.1 多任務學習(Multitask Learning)

多任務學習[20]自發(fā)地學習多個學習任務,利用任務之間共享的通用信息和每個任務的特定信息。這些任務通常是相關的。例如,考慮文檔分類,任務是一個特定類別的分類,例如cat。它與其他任務有一些相似之處,比如對老虎或狗的分類,這些任務可以被利用。當任務來自不同的領域時,這也被稱為領域適應[38]。多任務學習通常用于存在多個相關任務的應用程序,每個任務都是有限的訓練樣本。因此,它可以用來解決FSL問題。在這里,我們給出了使用多任務學習解決FSL問題的一些實例。有關多任務學習的全面介紹,請參閱[142]和[95]。

形式上,給定一組R個相關的任務T_t,包括小樣本和多樣本的任務,每個任務T_t都以數(shù)據(jù)集D_{T_t}為基礎,其中
D_{T_t}=\{ D_{T_t}^{train},D_{T_t}^{test}\},D_{T_t}^{train}=\{x_{T_t}^{(i)},y_{T_t}^{(i)}\}D_{T_t}^{test}=\{x_{T_t}^{test}\}。在這些任務中,我們把小樣本任務稱為目標任務,而把它們稱為源任務。多任務學習從D_{T_t}^{train}學習,得到每個T_t\theta_{T_t}。由于這些任務是相關的,所以假設它們具有相似或重疊的假設空間H_{T_t}。明確地說,這是通過在這些任務之間共享參數(shù)來實現(xiàn)的。這些共享的參數(shù)可以被看作是一種方法來約束彼此共同學習的任務H_{T_t}。在參數(shù)共享是否被明確地強制執(zhí)行方面,我們將該策略中的方法分為硬參數(shù)共享和軟參數(shù)共享。關于硬參數(shù)和軟參數(shù)共享的插圖如圖6所示。

image.png
4.1.1 硬參數(shù)共享(Hard parameter sharing)

該策略明確地在任務之間共享參數(shù),以促進重疊H_{T_t},并且還可以為每個任務學習一個特定于任務的參數(shù),以說明任務的特殊性。在[141]中,這是通過共享兩個網(wǎng)絡的前幾層來學習源任務和目標任務的一般信息,同時學習不同的最后一層來處理每個任務的不同輸出。它還提出了一種方法,只從源任務中選擇最相關的樣本,以有助于學習。Benaim和Wolf[2018]在域適應(domain adaptation)方面的運作方式相反。它將源任務和目標任務分別嵌入到不同的域中,將它們映射到任務不變的空間中,然后學習共享分類器來對所有任務中的樣本進行分類。最后,Motian等人[2017]考慮單樣本(one-shot)域轉換,即在目標域中根據(jù)小樣本目標任務生成源域樣本。與[141]類似,它首先從源域中的源任務預先訓練一個可變的自動編碼器,并將其用于目標任務。然后,它共享層來捕獲通用信息,即編碼器部分的頂層和解碼器部分的底層,并讓這兩個任務都具有一些特定于任務的層。目標任務只能更新其特定于任務的層,而源任務可以更新共享層和特定層。它避免了使用小樣本直接更新共享層,從而降低了過擬合的風險。共享層只能通過目標任務的信息進行間接調(diào)整,以便進行翻譯。

4.1.2 軟參數(shù)共享(Soft parameter sharing)

此策略不顯式地跨任務共享參數(shù)。相反,每個任務T_t都有自己的假設空間H_{T_t}參數(shù)\theta_{T_t}。它只鼓勵不同任務的參數(shù)相似,從而產(chǎn)生相似的H_{T_t}結果。這可以通過{\theta_{T_t}}'s正則實現(xiàn)。Yan等人[2015]懲罰所有組合中的{\theta_{T_t}}'s的成對差異,迫使所有{\theta_{T_t}}都以同樣的方式學習。如果給出了T_t之間的關系,則該正則化器可以成為{\theta_{T_t}}'s相似度圖上的拉普拉斯圖正則化器,從而指導T_t之間的信息流。除了直接正則化{\theta_{T_t}}'s外,還有一種通過調(diào)整{\theta_{T_t}}'s的通損(through loss)來強制軟參數(shù)共享的方法。因此,經(jīng)過優(yōu)化,學習者{\theta_{T_t}}'s也可以利用彼此的信息。羅等[2017]通過預先訓練的CNN學習源域中的源任務,對目標域中的目標任務初始化CNN。在訓練過程中,它使用一個由多個CNN層中的表示計算出的對抗性損失來強制兩個CNN映射樣本到一個任務不變的空間。它還利用目標任務中未標記的數(shù)據(jù)作為數(shù)據(jù)擴充。

4.1.3 討論

多任務學習通過一組共同學習的任務約束H_{T_t}學習每個任務T_t。通過在任務之間顯式或隱式地共享參數(shù),這些任務一起消除了那些不可行的區(qū)域。硬參數(shù)共享適用于多種類似任務,如不同類別的分類。共享假設空間用于捕獲共性,而每個任務在其上構建特定的模型假設空間。這種分享的方法很容易實施。相反,軟參數(shù)共享只鼓勵類似的假設,這是一種更靈活的方法去約束H_{T_t}。但如何實施相似性約束需要精心設計。

4.2 嵌入學習(Embedding Learning)

嵌入學習[51,107]方法學習將x^{(i)}∈X\subseteq R^d嵌入到較小的嵌入空間z^{(i)}∈Z\subseteq R^m中學習H,在這里可以很容易地識別相似和不相似的對。嵌入函數(shù)主要是通過先驗知識來學習的,還可以用來引入特定于任務的信息D^{train}

嵌入學習方法有以下幾個關鍵組成部分:嵌入樣本預測x^{test} \in D^{test}Z的函數(shù)f(.),嵌入樣本x^{(i)}∈D^{train}Z的函數(shù)g(.),以及Z中的相似度度量s(·,·)。注意,x^{test} \in D^{test}x^{(i)}∈D^{train}f(.)g(.)嵌入不同。這是因為x^{(i)}∈D^{train}可以在不考慮D^{test}的情況下嵌入,而x^{test} \in D^{test}通常需要根據(jù)D^{train}中的信息嵌入,以便調(diào)整比較興趣[13,125]。然后,通過給x^{test}分配Z中最相似的x^{(i)}∈D^{train}的類進行預測。通常使用一組數(shù)據(jù)集{D_c}'s,其中D_c^{train}=\{(x_c^(i),y_c^(i))\}{D_c}^{test} = \{x_c^{test} \}。請注意,{D_c}可以是多樣本或少樣本的數(shù)據(jù)集。

表4詳細介紹了現(xiàn)有的嵌入學習方法,包括f,g和s。嵌入學習策略的說明如圖7所示。接下來,根據(jù)嵌入中嵌入的信息,我們將這些方法分為任務不變(換句話說,通用的)、任務特定和兩者的組合。

4.2.1 特定任務(Task-specific)

特定于任務的嵌入方法學習為D定制的嵌入函數(shù)??紤]到D^{train}小樣本,通過枚舉作為輸入對的D^{train}示例之間的所有成對比較,可以大大降低樣本的復雜性S。然后學習一個模型來驗證輸入對是否相同或不同y。這樣,每個原始樣本都可以包含在多個輸入對中,從而豐富了訓練經(jīng)驗E中的監(jiān)督信息。[2017]構建D^{train}中每個(x^(i),y^(i))的排序表,相同的類排名更高而其他的更低)。一個嵌入學習通過排名損失(ranking loss)在嵌入空間Z中維護這些排名列表。

image.png
image.png
4.2.2 任務不變量(Task-invariant)

任務不變嵌入方法從一組不包含D的大數(shù)據(jù)集{D_c}'s學習嵌入函數(shù)。假設是,如果許多數(shù)據(jù)集很好地被Z上的嵌入H分隔開,那么它就足夠通用,可以在不進行再訓練的情況下在D上很好地工作。因此,所學的嵌入是任務不變的。Fink[2005]提出了FSL的第一種嵌入方法。它從輔助{D_c}的一個內(nèi)核空間學習Z,嵌入D^{test}D^{train}Zx^{test} \in D^{test}對應到D^{train}中最近鄰的類。最近的一個深度模型卷積雙胞胎(siamese)網(wǎng)[56]學習了雙卷積神經(jīng)網(wǎng)絡,將大數(shù)據(jù)集{D_c}'s中樣本對嵌入到一個公共嵌入空間Z。它還使用D^{train}的原始樣本構造輸入對,并將分類任務重新構造為驗證/匹配任務,以驗證輸入對的結果嵌入是否屬于同一類。這個想法已經(jīng)在許多嵌入式學習論文中使用,例如[13,125],以減少樣本的復雜性。

4.2.3 結合任務不變量和特定任務(Combine Task-invariant and Task-specific)

任務特定的嵌入方法只根據(jù)任務的特點學習每個任務的嵌入,而任務不變的嵌入方法不需要重新訓練就可以快速推廣到新任務。一種趨勢是將上述方法中最好的點結合起來:通過包含在D^{train}中特定于任務的信息,學習適應從先驗知識中學習到的通用的任務不變嵌入空間。唐等[2010]首先提出以微集(micro-sets)的名義對FSL任務的分布(distribution)進行優(yōu)化。它通過邏輯投影從這些FSL任務中學習Z。然后對給定的D^{train}x^{test} \in D^{test},用Z上的最近鄰分類器對x^{test} \in D^{test}進行分類。

近年來的研究主要采用元學習的方法,將任務不變的知識與特定于各任務的結合起來。對于這些方法,{D_c}'s是元訓練數(shù)據(jù)集,新任務(new task)是元測試任務之一。我們根據(jù)核心思想進行分組,突出代表性的工作。

(1)Learnet

(1)【13】通過將每個任務的數(shù)據(jù)訓練的特性結合到z來改進卷積連體網(wǎng)絡【56】,它學習元學習者將范例映射到卷積連體網(wǎng)絡中每個層的參數(shù)。然而,元學習者需要大量的參數(shù)來捕獲映射。為了降低計算成本,Bertineto等人[2016]將卷積連網(wǎng)中各層權重矩陣分解,從而減少元學習者的參數(shù)空間。為了進一步減少學習者的參數(shù)個數(shù),趙等。[2018]預先訓練一組大的基礎過濾器,元學習者只需將示例映射到組合權重,以線性組合這些基礎過濾器,以供學習者使用。最近的著作[12]用嶺回歸代替了Learnet的最后一個分類層。元學習者現(xiàn)在學習條件卷積連體網(wǎng)絡和嶺回歸中的超參數(shù)。每一個學習者只需使用他們的嵌入式計算參數(shù)嶺回歸封閉形式的解決方案。注意,learnet執(zhí)行成對匹配,以確定提供的樣本對是否來自同一類,如[56]所示。相比之下,[143]和[12]都直接對樣品進行分類。這是更有效的執(zhí)行預測。但是如果類的數(shù)量發(fā)生變化,模型需要重新訓練。

(2)Matching Nets

將xtest∈dtest賦給z中最相似的x(i)∈dtrain,其中xtest和x(i)由和嵌入不同。元學習者從dt's學習And的參數(shù),學習者是最近鄰分類器。學習后,可以使用學習的元學習器進行新的任務和數(shù)據(jù)集,并直接執(zhí)行最近鄰搜索。特別是,中的信息被所謂的完全條件嵌入(fce)所利用,其中;是強加給CNN的一個LSTM,并注意其中的所有例子;是CNN之上的一個雙向LSTM。然而,使用雙向lstm學習隱含地在示例中強制執(zhí)行一個順序。由于消失梯度問題,相鄰實例之間的影響較大。為了消除不自然的秩序,Altae Tran等人[2017]將lstm中使用的bilstm替換為關注,并進一步迭代優(yōu)化和編碼上下文信息。特別是,它涉及分子結構,因此預先使用GCN而不是CNN來提取樣品特征。[7]中的主動學習變體擴展了匹配網(wǎng)絡[125]和樣本選擇階段,該階段可以標記最有益的未標記樣本,并將其添加到匹配網(wǎng)

(3)Prototypical Networks (ProtoNet)

將xtest分配給z中最相似的類原型,因此只需要在和中的每個類之間進行一次比較。N類的原型被定義為該類的嵌入的平均值,即CN=K1K KK=1,其中XI是TH類的一個例子。這樣就不存在階級失衡問題。然而,它只能捕獲平均值,而方差信息會被丟棄。半監(jiān)督變量[93]學習軟分配相關的未標記樣本以在學習過程中進行增強。Protonet既嵌入了CNN,又使用了相同的CNN,忽略了不同的CNN的特點,而LSTM在匹配網(wǎng)絡中的應用使得很少上課變得困難。注意到,在[128]中提出了匹配網(wǎng)和原網(wǎng)的最佳組合。它使用與匹配網(wǎng)絡中相同的方法,而計算的則會將注意力集中到LSTM中。在最近鄰搜索中,為了降低計算成本,還對和進行了比較。同時考慮任務相關信息,Orsekhin等人[2018]Average’s作為任務嵌入,然后映射到Protonet中使用的CNN的縮放和偏差參數(shù)。*原型網(wǎng)絡

(4)Relative representations

進一步嵌入xtest和從dtrain共同計算的每個cca,然后直接映射到相似得分類分類。這個想法是在專注的反復比較法(ARC)[104]和關系網(wǎng)[110]中獨立開發(fā)的。ARC使用一個RNN來反復比較原型和每個類的不同區(qū)域,并生成相對表示,另外使用bilstm嵌入其他比較的信息作為最終嵌入。關系網(wǎng)first使用cnn嵌入和z,簡單地將它們作為相對表示連接起來,并由另一個cnn輸出相似性得分。相對表示法

(5) Relation graph

(5)取代從樣本中獲得的排名表[117]。這個圖是用和作為節(jié)點的樣本構造的,而它在節(jié)點之間的邊緣是由一個已知的相似函數(shù)決定的。要建立關系圖,必須使用轉導學習,在培訓期間提供的地方。然后利用鄰域信息進行預測。在[99]中,使用GCN學習('s from)與測試示例之間的關系圖,并使用節(jié)點的結果嵌入進行預測。相比之下,Liu等人[2019]meta學習了一個嵌入函數(shù),它將每個函數(shù)映射到z,相應地在那里構建一個關系圖,并通過封閉形式的標簽傳播規(guī)則標記。

(6) SNAIL

設計了一種特殊的嵌入網(wǎng)絡,由交錯的時間卷積層和注意層組成。時間卷積用于從過去的時間步驟中收集信息,注意有選擇地關注與當前輸入相關的特定時間步驟。在每個任務中,網(wǎng)絡都會(按順序進行,并立即進行預測)。然后對網(wǎng)絡參數(shù)進行跨任務優(yōu)化。

4.2.4 討論

任務特定嵌入充分考慮了D的領域知識,但是,由于給定的D^{train}的中幾個樣本有偏差,它們可能不是合適的代表。在D^{train}上建模排名表中有很高的過度擬合風險。那么得到的模型可能不會工作得很好。此外,通過這種學習方式學習到的H不能泛化到新任務,也不容易適應。

學習任務不變嵌入是指在不重新訓練的情況下,對新任務使用預先訓練的一般嵌入。顯然,新的FSL任務的計算成本很低。但是,所學的嵌入函數(shù)不考慮任何特定于任務的知識D。對于一般的共同任務,他們遵守共同的規(guī)則。但由于包含小樣本的D^{train}具有特殊性,直接應用任務不變嵌入函數(shù)可能不太合適。

結合任務不變嵌入方法的效率和任務特定嵌入方法所集中的任務特性,通常采用元學習方法來實現(xiàn)。學習使用元學習可以對通用任務的分布進行建模,并捕獲它們的通用信息。這樣,學習者就可以提供一個良好的H,對不同的任務進行快速的泛化。學習者通常執(zhí)行最近鄰搜索來對x^{test} \in D^{test}分類。該非參數(shù)模型不需要從D^{train}中學習參數(shù),適合于小樣本學習。一個缺點是,元學習方法通常假定任務相似。然而,沒有審查步驟來保證這一點。如何在引入負遷移(negative transfer)的無關的任務中對新的類進行泛化,以及如何避免無關的任務污染元學習者還不確定。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容