【譯】小樣本學(xué)習(xí)綜述(上)

注明:本文是對(duì)一篇整理166篇文獻(xiàn)的綜述翻譯,其中對(duì)應(yīng)文獻(xiàn)地址都已附上為方便點(diǎn)擊查看學(xué)習(xí)。查看有的文獻(xiàn)可能需要科學(xué)上網(wǎng)。原文文末附有。由于篇幅太長(zhǎng)分為上下倆部分。

機(jī)器學(xué)習(xí)在數(shù)據(jù)密集型應(yīng)用程序中非常成功,但是在數(shù)據(jù)集較小時(shí)通常會(huì)受到阻礙。最近,提出了Few-Shot Learning(FSL)來(lái)解決這個(gè)問題。使用先驗(yàn)知識(shí),F(xiàn)SL可以快速推廣到僅包含少數(shù)帶有監(jiān)督信息的樣本的新任務(wù)。在本文中,我們進(jìn)行了徹底的調(diào)查,以全面了解FSL。從FSL的正式定義開始,我們將FSL與幾個(gè)相關(guān)的機(jī)器學(xué)習(xí)問題區(qū)分開來(lái)。然后,我們指出FSL的核心問題是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化器不可靠?;谌绾问褂孟闰?yàn)知識(shí)來(lái)處理此核心問題,我們從三個(gè)角度對(duì)FSL方法進(jìn)行了分類:(i)數(shù)據(jù),它使用先驗(yàn)知識(shí)來(lái)增強(qiáng)監(jiān)督經(jīng)驗(yàn); (ii)模型,該模型使用先驗(yàn)知識(shí)來(lái)減小假設(shè)空間的大??; (iii)算法,該算法使用先驗(yàn)知識(shí)來(lái)改變對(duì)給定假設(shè)空間中最佳假設(shè)的搜索。通過這種分類法,我們將審查和討論每個(gè)類別的利弊。在FSL問題設(shè)置,技術(shù),應(yīng)用和理論方面,也提出了有前途的方向,以為未來(lái)的研究提供見識(shí)。

小樣本學(xué)習(xí)(FSL)綜述.png

1 引言

“機(jī)器可以思考嗎?”這是艾倫·圖靈(Alan Turing)在1950年發(fā)表的開創(chuàng)性論文Computing Machinery and Intelligence中提出的問題。他說(shuō):“可以解釋數(shù)字計(jì)算機(jī)背后的思想,說(shuō)這些計(jì)算機(jī)旨在執(zhí)行任何可能的操作,由人機(jī)完成”。換句話說(shuō),機(jī)器的最終目標(biāo)是要像人類一樣聰明。近年來(lái),由于功能強(qiáng)大的計(jì)算設(shè)備(例如GPU和分布式平臺(tái))的出現(xiàn),大數(shù)據(jù)集(例如具有1000類的ImageNet數(shù)據(jù)imageNet: A large-scale hierarchical image database),高級(jí)模型和算法(例如卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural networks-CNN)ImageNet classification with deep convolutional neural networks)和長(zhǎng)短期記憶 (LSTM)Long short-term memory
),人工智能加快了步伐,使其像人類一樣在許多領(lǐng)域擊敗了人類。僅舉幾例,AlphaGo Mastering the game of Go with deep neural networks and tree search在古代的圍棋比賽中擊敗了人類冠軍;殘差網(wǎng)絡(luò)(residual network-ResNet)High-risk learning:acquiring new word vectors from tiny data在ImageNet上比人類獲得更好的分類性能。人工智能還支持日常生活中許多方面的智能工具的開發(fā),例如語(yǔ)音助手,搜索引擎,自動(dòng)駕駛汽車和工業(yè)機(jī)器人。

盡管火熱,但當(dāng)前的AI技術(shù)無(wú)法從少量樣本中快速推廣。上述成功的AI應(yīng)用依賴于從大規(guī)模數(shù)據(jù)中學(xué)習(xí)。相反,人類可以利用過去的經(jīng)驗(yàn)快速學(xué)習(xí)新任務(wù)。例如,一個(gè)學(xué)習(xí)了加法的孩子可以迅速給出自己的知識(shí)來(lái)學(xué)習(xí)乘法(例如2×3 = 2 + 2 + 2和1×3 = 1 + 1 + 1)。另一個(gè)例子是,給定幾張陌生人的照片,孩子可以輕松地從大量照片中識(shí)別同一個(gè)人。

彌合人工智能與人類之間的鴻溝是一個(gè)重要的方向。機(jī)器學(xué)習(xí)可以解決這個(gè)問題,機(jī)器學(xué)習(xí)涉及如何構(gòu)建隨經(jīng)驗(yàn)而自動(dòng)提高的計(jì)算機(jī)程序[92,94]。為了從監(jiān)督信息的有限樣本中學(xué)習(xí),提出了一種新的機(jī)器學(xué)習(xí)范式,稱為Few-Shot Learning (FSL)[One-Shot Learning of Object
Categories
,Object Classification from a Single Example]。一個(gè)典型的例子是字符生成[Human-level concept learning through probabilistic program induction],在其中給出了一些樣本,要求計(jì)算機(jī)程序解析并生成新的手寫字符。要處理此任務(wù),可以將字符分解為可在各個(gè)字符之間轉(zhuǎn)移的較小部分,然后將這些較小的組件聚合為新字符。這是一種像人類一樣的學(xué)習(xí)方法[Building machines that learn and think like people]。當(dāng)然,F(xiàn)SL還可以推動(dòng)機(jī)器人技術(shù)[Introduction to Robotics: Mechanics and Control],后者開發(fā)出可以復(fù)制人類行為的機(jī)器。例子包括一眼模仿(one-shot imitation)[Towards one shot learning by imitation for humanoid robots],多臂老虎機(jī)問題(multi-armedbandits)[One-shot imitation learning],視覺導(dǎo)航(visualnavigation)[Model-agnostic meta-learning for fast adaptation of deep networks]和連續(xù)控制(continuouscontrol)[Bayesian model-agnostic meta-learning]。

另一個(gè)經(jīng)典的FSL場(chǎng)景是,由于隱私,安全或道德問題,很難或不可能獲取帶有監(jiān)督信息的樣本。一個(gè)典型的例子是藥物發(fā)現(xiàn),它試圖發(fā)現(xiàn)新分子的特性,以便將有用的分子識(shí)別為新藥[Low Data Drug Discovery with One-Shot Learning]。由于可能的毒性,低活性和低溶解度,新分子在臨床候選藥物上沒有很多真實(shí)的生物學(xué)記錄。因此,從少量樣本中有效學(xué)習(xí)就顯得重要了。目標(biāo)任務(wù)沒有很多樣本,類似示例包括FSL轉(zhuǎn)換[Learning to remember rare events]冷啟動(dòng)項(xiàng)目推薦[A meta-learning perspective on cold-start recommendations for items]。通過FSL,可以為這些罕見情況學(xué)習(xí)合適的模型。

FSL還可以幫助減輕收集大規(guī)模監(jiān)督數(shù)據(jù)的負(fù)擔(dān)。例如,盡管ResNet[Deep residual learning for image recognition]在ImageNet上的表現(xiàn)優(yōu)于人類,但每個(gè)類別都需要有足夠的帶標(biāo)簽的圖像,這些圖像可能很難收集。 FSL可以減少數(shù)據(jù)密集型應(yīng)用程序的數(shù)據(jù)收集工作。例如包括圖像分類[Matching networks for one shot learning.],圖像檢索[Few-shot learning through an information retrieval lens],對(duì)象跟蹤[Learning feed-forward one-shot learners],手勢(shì)識(shí)別[Domain-adaptive discriminative one-shot learning of gestures],圖像標(biāo)題,視覺問答[Fast parameter adaptation for few-shot image captioning and visual question answering],視頻事件檢測(cè)[Multi-task transfer methods to improve one-shot learning for multimedia event detection],語(yǔ)言建模[Matching networks for one shot learning]和神經(jīng)體系結(jié)構(gòu)搜索[SMASH: One-shot model architecture search through hypernetworks]。

在AI接近人類的學(xué)術(shù)目標(biāo)以及對(duì)廉價(jià)學(xué)習(xí)的工業(yè)需求的推動(dòng)下,F(xiàn)SL引起了很多關(guān)注,并且現(xiàn)在已成為熱門話題。 已經(jīng)提出了許多相關(guān)的機(jī)器學(xué)習(xí)方法,例如元學(xué)習(xí)(meta-learning)[Model-agnostic meta-learning for fast adaptation of deep networks,Optimization as a model for few-shot learningMeta-learning with memory-augmented neural networks],嵌入學(xué)習(xí)(embedding learning)[Learning feed-forward one-shot learners,Learning to compare: Relation network for few-shot learning,Matching networks for one shot learning]和生成模型( generative modeling )[Towards a neural statistician,One-shot learning of object categories,One-shot learning with a hierarchical nonparametric Bayesian model]。 但是,目前尚無(wú)提供連接這些FSL方法的有組織分類法的工作,沒有解釋為什么某些方法有效而其他方法卻無(wú)效的工作,也沒有討論不同方法的利弊。 因此,本文對(duì)FSL問題進(jìn)行了調(diào)查。 相反,[Small sample learning in big data era]中的調(diào)查僅關(guān)注概念學(xué)習(xí)和小樣本經(jīng)驗(yàn)學(xué)習(xí)。

這項(xiàng)調(diào)查的貢獻(xiàn)可以總結(jié)如下:

?我們給出了關(guān)于FSL的正式定義,該定義自然與[Machine Learning,Foundations of machine learning]中的經(jīng)典機(jī)器學(xué)習(xí)定義相關(guān)。該定義不僅足夠籠統(tǒng)以包括現(xiàn)有的FSL作品??,而且還足夠具體以闡明FSL的目標(biāo)是什么以及我們?nèi)绾谓鉀Q它。該定義有助于在FSL領(lǐng)域設(shè)定未來(lái)的研究目標(biāo)。
?我們通過具體例子列出了FSL的相關(guān)學(xué)習(xí)問題,闡明了它們與FSL的相關(guān)性和差異。這些討論可以幫助更好地區(qū)分和定位FSL在各種學(xué)習(xí)之間的問題。
?我們指出,F(xiàn)SL監(jiān)督學(xué)習(xí)問題的核心問題是不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化器,它是基于機(jī)器學(xué)習(xí)中的錯(cuò)誤分解[The tradeoffs of large scale learning]進(jìn)行分析的。這為以更組織和系統(tǒng)的方式改進(jìn)FSL方法提供了思路。
?我們進(jìn)行了廣泛的文獻(xiàn)綜述,并從數(shù)據(jù),模型和算法的角度將它們組織在統(tǒng)一的分類法中。我們還提供了一些見解的摘要,并就每個(gè)類別的利弊進(jìn)行了討論。這些可以幫助您更好地理解FSL方法。
?我們?cè)趩栴}設(shè)置,技術(shù),應(yīng)用和理論方面為FSL提出了有希望的未來(lái)方向。這些見解基于FSL當(dāng)前開發(fā)的弱點(diǎn),并可能在將來(lái)進(jìn)行改進(jìn)。

1.1 調(diào)查組織

本調(diào)查的其余部分安排如下。第2節(jié)概述了FSL,包括FSL的正式定義,相關(guān)的學(xué)習(xí)問題,核心問題以及現(xiàn)有作品的數(shù)據(jù),模型和算法分類。 第3節(jié)介紹用于擴(kuò)充數(shù)據(jù)以解決FSL問題的方法。 第4節(jié)介紹了減小假設(shè)空間大小以使FSL可行的方法。 第5節(jié)介紹了更改算法搜索策略以處理FSL問題的方法。 在第6節(jié)中,我們?cè)趩栴}設(shè)置,技術(shù),應(yīng)用和理論方面提出了FSL的未來(lái)發(fā)展方向。 最后,調(diào)查在第7節(jié)中結(jié)束

1.2 符號(hào)和術(shù)語(yǔ)

考慮一個(gè)學(xué)習(xí)任務(wù)T,F(xiàn)SL處理數(shù)據(jù)集\scriptstyle D = \{D_{train},D_{test}\},其中包括一個(gè)訓(xùn)練集\scriptstyle D_{train} =\{(x_i,y_i)\}_{i = 1}^I(其中\scriptstyle I不大)和一個(gè)測(cè)試集\scriptstyle D_{test} = \{x^{test} \}。 設(shè)\scriptstyle p(x,y)為輸入x和輸出y的聯(lián)合概率分布,\scriptstyle \hat h是從\scriptstyle x\scriptstyle y的最優(yōu)假設(shè)。 FSL通過擬合\scriptstyle D_{train}并在\scriptstyle D_{test}上進(jìn)行測(cè)試來(lái)學(xué)習(xí)發(fā)現(xiàn)\scriptstyle \hat h。 為了逼近\scriptstyle \hat h,F(xiàn)SL模型確定了假設(shè)\scriptstyle h(\cdot ; \theta)的假設(shè)空間\scriptstyle \mathcal{H},其中\scriptstyle θ表示\scriptstyle h使用的所有參數(shù)。 這里使用參數(shù)\scriptstyle h,因?yàn)榉菂?shù)模型通常需要大量數(shù)據(jù)集,因此不適合FSL。 FSL算法是一種搜索\scriptstyle \mathcal{H}的優(yōu)化策略,以找到參數(shù)化最佳\scriptstyle h^{*} \in \mathcal{H}\scriptstyle θ。FSL性能由預(yù)測(cè)\scriptstyle \hat{y}=h(x ; \theta)上定義的損失函數(shù)\scriptstyle \ell(\hat{y}, y)和觀察到的輸出\scriptstyle y來(lái)衡量。

2 概述

在本節(jié)中,我們首先在2.1節(jié)中提供FSL問題的正式定義,并提供具體示例。 為了區(qū)分FSL問題和相關(guān)的機(jī)器學(xué)習(xí)問題,我們將在2.2節(jié)中討論它們的相關(guān)性和差異。 在第2.3節(jié)中,我們討論了使FSL變得困難的核心問題。 然后,第2.4節(jié)根據(jù)現(xiàn)有作品如何處理核心問題提出了統(tǒng)一的分類法。

2.1 定義

由于FSL是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,因此在給出FSL的定義之前,讓我們回顧一下文獻(xiàn)中機(jī)器學(xué)習(xí)是如何定義的。 定義2.1(MachineLearning [Machine Learning,Foundations of machine learning])。如果某項(xiàng)任務(wù)的性能可以用\scriptstyle P測(cè)得的\scriptstyle T上的\scriptstyle E來(lái)提高,則可以從計(jì)算機(jī)上學(xué)習(xí)有關(guān)任務(wù)\scriptstyle T和性能度量\scriptstyle P的某些類的經(jīng)驗(yàn)\scriptstyle E。
例如,考慮到圖像分類任務(wù)(\scriptstyle T),機(jī)器學(xué)習(xí)程序可以通過訓(xùn)練大量帶標(biāo)簽的圖像(例如ImageNet數(shù)據(jù)集[ImageNet classification with deep convolutional neural networks
])來(lái)通過\scriptstyle E獲得提高\scriptstyle E的分類精度(\scriptstyle P)。另一個(gè)示例是此處的計(jì)算機(jī)程序AlphaGo [Mastering the game ofGo with deep neural networks and tree search],它在人類的大勝率上證明了這一點(diǎn)(經(jīng)過30倍的時(shí)間),專家們就不斷地訓(xùn)練了(\scriptstyle T)(\scriptstyle P)。 就像反復(fù)與自己比賽。 這些總結(jié)在表1中。

image.png

如上述示例中所示,典型的機(jī)器學(xué)習(xí)應(yīng)用程序需要大量帶有監(jiān)督信息的樣本。 但是,如引言中所述,這可能是困難的,甚至是不可能的。 FSL是機(jī)器學(xué)習(xí)的一種特殊情況,在訓(xùn)練集\scriptstyle D_{train}中提供有限的監(jiān)督信息的情況下,其目標(biāo)是獲得良好的學(xué)習(xí)性能,該訓(xùn)練集包括輸入\scriptstyle x_i以及其對(duì)應(yīng)的輸出\scriptstyle y_i的樣本[Pattern Recognition and Machine Learning]

正式地,我們?cè)诙x2.2中定義FSL。Few-Shot Learning (FSL)是一類機(jī)器學(xué)習(xí)問題(由\scriptstyle E,T\scriptstyle P指定),其中\scriptstyle E僅包含有限數(shù)量的樣本,其中包含針對(duì)目標(biāo)\scriptstyle T的監(jiān)督信息。

現(xiàn)有的FSL問題主要是監(jiān)督學(xué)習(xí)問題。具體來(lái)說(shuō),few-shot classification 僅在每個(gè)類的幾個(gè)帶標(biāo)簽的樣本中學(xué)習(xí)分類器。示例應(yīng)用包括圖像分類[Matching networks for one shot learning],短文本的情感分類[Diverse few-shot text classification with multiple metrics]和對(duì)象識(shí)別[One-shot learning of object categories]。形式上,使用1.2節(jié)中的符號(hào),few-shot classification學(xué)習(xí)了一個(gè)分類器\scriptstyle h,它預(yù)測(cè)每個(gè)輸入\scriptstyle x_i的標(biāo)簽\scriptstyle y_i。通常,人們會(huì)考慮使用\scriptstyle N-way-K-shot分類法[Model-agnostic meta-learning for fast adaptation of deep networks,Matching networks for one shot learning],其中\scriptstyle D_{train}包含\scriptstyle I = KN個(gè)樣本,這些示例來(lái)自\scriptstyle N個(gè)分類,每個(gè)分類都有\scriptstyle K個(gè)樣本。Few-shot regression [Model-agnostic meta-learning for fast adaptation of deep networksBayesian model-agnostic meta-learning]在僅從該函數(shù)采樣的幾個(gè)輸入-輸出樣本對(duì)的情況下估計(jì)回歸函數(shù)\scriptstyle h,其中輸出\scriptstyle y_i是因變量\scriptstyle y的觀測(cè)值,而\scriptstyle x_i是記錄觀測(cè)值的輸入自變量\scriptstyle x的值。除了少量樣本的監(jiān)督學(xué)習(xí)之外,F(xiàn)SL的另一個(gè)實(shí)例是few-shot reinforcement learning [Continuous adaptation via metalearning in nonstationary and competitive environmentsOne-shot imitation learning],其目標(biāo)是在僅給出由狀態(tài)-動(dòng)作對(duì)組成的少數(shù)軌跡的情況下找到一種策略。

現(xiàn)在,我們展示FSL的三種典型情況(表2):

?像人類一樣充當(dāng)學(xué)習(xí)的試驗(yàn)床。為了向人類智能邁進(jìn),計(jì)算機(jī)程序能夠解決FSL問題至關(guān)重要。一個(gè)流行的任務(wù)(\scriptstyle T)是僅給出幾個(gè)例子就生成一個(gè)新角色的樣本[Human-level concept learning through probabilistic program induction]。受人類學(xué)習(xí)方式的啟發(fā),計(jì)算機(jī)程序使用E進(jìn)行學(xué)習(xí),\scriptstyle E由既有監(jiān)督信息的給定樣本以及經(jīng)過預(yù)訓(xùn)練的內(nèi)容(如部件和關(guān)系)作為先驗(yàn)知識(shí)組成。通過視覺圖靈測(cè)試(\scriptstyle P)的通過率評(píng)估生成的字符,該測(cè)試可區(qū)分圖像是由人還是由機(jī)器生成。有了這些先驗(yàn)知識(shí),計(jì)算機(jī)程序還可以像人類學(xué)習(xí)分類,解析和生成新的手寫字符
?學(xué)習(xí)稀有的情況。當(dāng)很難或不可能獲得帶有充足的監(jiān)督信息樣本時(shí),F(xiàn)SL可以為稀有情況學(xué)習(xí)模型。例如,考慮一個(gè)藥物發(fā)現(xiàn)任務(wù)(\scriptstyle T),該任務(wù)試圖預(yù)測(cè)一個(gè)新分子是否具有毒性作用[Low data drug discovery with one-shot learning]。通過新分子的有限測(cè)定和許多類似分子的測(cè)定(即先驗(yàn)知識(shí))獲得的\scriptstyle E,正確分配為有毒或無(wú)毒(\scriptstyle P)分子的百分比會(huì)提高。
?減少數(shù)據(jù)收集工作量和計(jì)算成本。 FSL可以幫助減輕收集大量帶有監(jiān)督信息的示例的負(fù)擔(dān)。考慮少量樣本圖像分類任務(wù)(\scriptstyle T)[One-shot learning of object categories]。圖像分類精度(\scriptstyle P)隨目標(biāo)類別T的每個(gè)類別的少量標(biāo)記圖像獲得的E以及從其他類別中提取的先驗(yàn)知識(shí)(例如原始圖像到共同訓(xùn)練)而提高。成功完成此任務(wù)的方法通常具有較高的通用性。因此,它們可以輕松地應(yīng)用于許多樣本的任務(wù)。

image.png

與表1相比,表2在“經(jīng)驗(yàn)\scriptstyle E”下有一個(gè)額外的列,標(biāo)記為由于\scriptstyle E僅包含幾個(gè)與\scriptstyle T直接相關(guān)的受監(jiān)管信息的樣本,這也就很自然,常見的受監(jiān)管學(xué)習(xí)方法常常在FSL問題上失敗,因此,F(xiàn)SL方法通過結(jié)合可用的受監(jiān)管信息使對(duì)目標(biāo)\scriptstyle T的學(xué)習(xí)變得可行在\scriptstyle E中具有一些先驗(yàn)知識(shí),即“學(xué)習(xí)者在查看樣本之前具有的有關(guān)未知功能的任何信息” [Quantifying prior determination knowledge using the PAC learning model]。 FSL方法的一種典型類型是貝葉斯學(xué)習(xí)[One-shot learning of object categories,Human-level concept learning through probabilistic program induction]。它結(jié)合了提供的訓(xùn)練集\scriptstyle D_{train}和一些先驗(yàn)概率分布,這些概率分布在給出\scriptstyle D_{train}之前就可用[Pattern Recognition and Machine Learning]。

備注1.當(dāng)E中只有一個(gè)帶有監(jiān)督信息的樣本時(shí),F(xiàn)SL被稱為單發(fā)學(xué)習(xí)[Learning feed-forward one-shot learnersOne-shot learning of object categories,Matching networks for one shot learning]。當(dāng)E不包含任何帶有目標(biāo)T監(jiān)督信息的樣本時(shí),F(xiàn)SL成為零次學(xué)習(xí)問題(ZSL)[Learning to detect unseen object classes by between-class attribute transfer]。由于目標(biāo)類不包含帶有監(jiān)督信息的示例,因此ZSL要求E包含其他模態(tài)(例如屬性,WordNet和稀有對(duì)象識(shí)別任務(wù)中使用的單詞嵌入)中的信息,以便傳遞一些監(jiān)督信息并使學(xué)習(xí)成為可能。

2.2相關(guān)的學(xué)習(xí)問題

在本節(jié)中,我們討論一些相關(guān)的機(jī)器學(xué)習(xí)問題。 闡明了與FSL的相關(guān)性和差異。

?弱監(jiān)督學(xué)習(xí)[A brief introduction to weakly supervised learning]從僅包含弱監(jiān)督(例如不完整,不精確,不準(zhǔn)確或嘈雜的受監(jiān)督信息)的經(jīng)驗(yàn)\scriptstyle E中學(xué)習(xí)。與FSL最相關(guān)的問題是缺乏監(jiān)督的弱監(jiān)督學(xué)習(xí),其中只有少量樣本具有監(jiān)督信息。根據(jù)是oracle還是人類利用干預(yù),可以進(jìn)一步將其分為以下幾類:

–半監(jiān)督學(xué)習(xí)Semi-supervised learning literature survey],它從E中的少量標(biāo)記樣本和(通常是大量)未標(biāo)記樣本中學(xué)習(xí)。示例應(yīng)用是文本和網(wǎng)頁(yè)分類。陽(yáng)性無(wú)標(biāo)記學(xué)習(xí)[Positive unlabeled learning for data stream classification]是半監(jiān)督學(xué)習(xí)的一種特殊情況,其中僅給出陽(yáng)性和未標(biāo)記的樣本。例如,要推薦社交網(wǎng)絡(luò)中的朋友,我們僅根據(jù)朋友列表了解用戶的當(dāng)前朋友,而他們與其他人的關(guān)系是未知的。
–主動(dòng)學(xué)習(xí)[Active learning literature survey],它選擇信息量豐富的未標(biāo)記數(shù)據(jù),以向oracle查詢輸出\scriptstyle y。通常用于注釋標(biāo)簽價(jià)格昂貴的應(yīng)用,例如行人檢測(cè)。

根據(jù)定義,具有不完全監(jiān)督的弱監(jiān)督學(xué)習(xí)僅包括分類和回歸,而FSL還包括強(qiáng)化學(xué)習(xí)問題。此外,在不完全監(jiān)督的情況下,弱監(jiān)督學(xué)習(xí)主要使用未標(biāo)記的數(shù)據(jù)作為E中的附加信息,而FSL利用了各種先驗(yàn)知識(shí),例如預(yù)訓(xùn)練模型,來(lái)自其他領(lǐng)域或方式的監(jiān)督數(shù)據(jù),并且不限于使用未標(biāo)記的數(shù)據(jù)。因此,只有當(dāng)先驗(yàn)知識(shí)是未標(biāo)記的數(shù)據(jù)并且任務(wù)是分類或回歸時(shí),F(xiàn)SL才成為弱監(jiān)督學(xué)習(xí)問題。

?學(xué)習(xí)失衡[Learning from imbalanced data]從經(jīng)驗(yàn)\scriptstyle E中學(xué)習(xí)y的分布偏斜。當(dāng)很少使用\scriptstyle y的某些值時(shí)(例如在欺詐檢測(cè)和巨災(zāi)預(yù)測(cè)應(yīng)用程序中),就會(huì)發(fā)生這種情況。它會(huì)訓(xùn)練和測(cè)試以在所有可能的\scriptstyle y中進(jìn)行選擇。相比之下,F(xiàn)SL通過一些樣本對(duì)\scriptstyle y進(jìn)行訓(xùn)練和測(cè)試,同時(shí)可能會(huì)將其他\scriptstyle y作為學(xué)習(xí)的先驗(yàn)知識(shí)。

?遷移學(xué)習(xí)[A survey on transfer learning]將知識(shí)從訓(xùn)練數(shù)據(jù)豐富的源域/任務(wù)轉(zhuǎn)移到缺乏訓(xùn)練數(shù)據(jù)的目標(biāo)域/任務(wù)。 它可用于跨域推薦,跨時(shí)間段,空間和移動(dòng)設(shè)備的WiFi本地化等應(yīng)用。 域適應(yīng)[Analysis of representations for domain adaptation]是一種遷移學(xué)習(xí),其中源/目標(biāo)任務(wù)相同,但源/目標(biāo)域不同。 例如,在情感分析中,源域數(shù)據(jù)包含電影的客戶評(píng)論,而目標(biāo)域數(shù)據(jù)包含日用品的客戶評(píng)論。 遷移學(xué)習(xí)方法在FSL [Multi-content GAN for few-shot font style transfer,Feature space transfer for data augmentationLabel efficient learning oftransferable representations acrosss domains and tasks]中得到了廣泛使用,其中先驗(yàn)知識(shí)從源任務(wù)轉(zhuǎn)移到了少樣本任務(wù)。

?元學(xué)習(xí)[Learning to learn using gradient descent]通過提供的數(shù)據(jù)集和元學(xué)習(xí)者跨任務(wù)提取的元知識(shí)來(lái)改進(jìn)新任務(wù)\scriptstyle T\scriptstyle P。 具體地,元學(xué)習(xí)者逐漸學(xué)習(xí)跨任務(wù)的通用信息(元知識(shí)),并且學(xué)習(xí)者使用任務(wù)特定信息將元學(xué)習(xí)者概括為新任務(wù)\scriptstyle T。 它已成功應(yīng)用于學(xué)習(xí)優(yōu)化器[Learning to learn by gradient descent by gradient descent、Learning Gradient Descent: Better Generalization and Longer Horizons],協(xié)作過濾中的冷啟動(dòng)問題[A meta-learning perspective on cold-start recommendations for items]和自然語(yǔ)言指導(dǎo)策略等問題中。 元學(xué)習(xí)方法可用于處理FSL問題。 如第4節(jié)和第5節(jié)所示,元學(xué)習(xí)器被視為指導(dǎo)每個(gè)特定FSL任務(wù)的先驗(yàn)知識(shí)。 附錄A中提供了元學(xué)習(xí)的正式定義及其如何用于FSL問題。

2.3核心問題

在任何機(jī)器學(xué)習(xí)問題中,通常都存在預(yù)測(cè)錯(cuò)誤,并且無(wú)法獲得完美的預(yù)測(cè)。 在本節(jié)中,我們說(shuō)明了有監(jiān)督機(jī)器學(xué)習(xí)中基于錯(cuò)誤分解的FSL的核心問題[The tradeoffs of large scale learningOptimization methods for large-scale machine learning]。 該分析適用于FSL監(jiān)督學(xué)習(xí),包括分類和回歸,還可以為理解FSL強(qiáng)化學(xué)習(xí)提供見解。

2.3.1 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

給定假設(shè)\scriptstyle h,我們希望將其預(yù)期風(fēng)險(xiǎn)\scriptstyle R最小化,\scriptstyle R是相對(duì)于\scriptstyle p(x,y)測(cè)得的損失。 特別,

image.png

由于\scriptstyle p(x,y)是未知的,因此存在經(jīng)驗(yàn)風(fēng)險(xiǎn)(這是\scriptstyle I個(gè)樣本的訓(xùn)練集\scriptstyle D_{train}上樣本損失的平均值)

image.png

通常用作\scriptstyle R(h)的代理,從而使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化[Foundations of Machine Learning,Principles of risk minimization for learning theory](可能有一些調(diào)節(jié)器)。 為了說(shuō)明,令:

? \scriptstyle \hat{h} = \scriptstyle \arg \min_h R(h) 是最小化預(yù)期風(fēng)險(xiǎn)的函數(shù);
? \scriptstyle h^{*}=\arg \min _{h \in \mathcal{H}} R(h) 是在\scriptstyle \mathcal {H}最小化預(yù)期風(fēng)險(xiǎn)的函數(shù);
? \scriptstyle h_{I}=\arg \min _{h \in \mathcal{H}} R_{I}(h) 是在\scriptstyle \mathcal {H}最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)的函數(shù).

由于\scriptstyle \hat{h}是未知的,因此必須將其近似某個(gè)\scriptstyle h \in \mathcal{H}。\scriptstyle h ^?\scriptstyle \mathcal{H}\scriptstyle \hat{h}的最佳近似值,而\scriptstyle h_I是通過經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化獲得的\scriptstyle \mathcal{H}中的最佳假設(shè)。 為簡(jiǎn)單起見,我們假設(shè)\scriptstyle \hat{h},h_ ?\scriptstyle h_I是唯一的。 總誤差可分解為[The tradeoffs of large scale learning,Optimization methods for large-scale machine learning]:

image.png

對(duì)\scriptstyle D_{train}的隨機(jī)選擇的期望。 近似誤差\scriptstyle \mathcal{E}_{\mathrm{app}}(\mathcal{H})衡量\scriptstyle \mathcal{H}中的函數(shù)可以接近最佳假設(shè)\scriptstyle \hat{h}的程度,而估計(jì)誤差\scriptstyle \mathcal{E}_{\mathrm{est}}(\mathcal{H}, I)衡量將經(jīng)驗(yàn)風(fēng)險(xiǎn)\scriptstyle R_I(h)最小化而不是預(yù)期風(fēng)險(xiǎn)在\scriptstyle \mathcal{H}中的\scriptstyle R(h)。
如圖所示,總誤差受\scriptstyle \mathcal{H}(假設(shè)空間)和\scriptstyle I\scriptstyle D_{train}樣本的數(shù)量)。 換句話說(shuō),可以從(i)提供\scriptstyle D_{train}數(shù)據(jù); (ii)確定\scriptstyle \mathcal{H}模型; (iii)搜索適合\scriptstyle D_{train}的最優(yōu)\scriptstyle h_{I} \in \mathcal{H}算法的角度嘗試學(xué)習(xí)減少總誤差

2.3.2 不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化器

通常,可以通過使用更多樣本[The tradeoffs of large scale learning,Optimization methods for large-scale machine learningThe Elements of Statistical Learning:data mining,inference,and prediction]來(lái)減少\scriptstyle \mathcal{E}_{\mathrm{est}}(\mathcal{H}, I)。 因此,當(dāng)有足夠的帶有監(jiān)督信息的訓(xùn)練數(shù)據(jù)時(shí)(即,\scriptstyle I是大的),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化器\scriptstyle h_I可以為\scriptstyle \mathcal{H}中的\scriptstyle h提供最佳的\scriptstyle R(h ^*)近似值\scriptstyle R(h_I)。

然而在FSL中,可用樣本\scriptstyle I的數(shù)量很少。 然后,經(jīng)驗(yàn)風(fēng)險(xiǎn)\scriptstyle R_I(h)與預(yù)期風(fēng)險(xiǎn)\scriptstyle R(h)的近似值相差甚遠(yuǎn),并且由此產(chǎn)生的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化指標(biāo)\scriptstyle h_I過擬合。 的確,這是FSL監(jiān)督學(xué)習(xí)的核心問題,即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不再可靠。 因此,F(xiàn)SL困難得多。 圖1顯示了學(xué)習(xí)量與訓(xùn)練量足夠少的比較。

Fig. 1. Comparison of learning with sufficient and few training samples.

2.4 分類法

為了減輕在FSL監(jiān)督學(xué)習(xí)中具有不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化因素\scriptstyle h_I的問題,必須使用先驗(yàn)知識(shí)。 基于使用先驗(yàn)知識(shí)對(duì)哪個(gè)方面進(jìn)行了增強(qiáng),可以將現(xiàn)有的FSL工作分為以下幾個(gè)方面(圖2)。

Fig. 2. Different perspectives on how FSL methods solve the few-shot problem.

?數(shù)據(jù)。 這些方法使用先驗(yàn)知識(shí)來(lái)增強(qiáng)\scriptstyle D_{train},并將樣本數(shù)量從\scriptstyle I增加到\scriptstyle \tilde{I},其中\scriptstyle \tilde{I} \gg I。然后,可以在擴(kuò)增后的數(shù)據(jù)上使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)模型和算法,并可以得到更準(zhǔn)確的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化因子\scriptstyle h_{\tilde{I}}(圖2(a))。
?模型。 這些方法使用先驗(yàn)知識(shí)來(lái)約束\scriptstyle \mathcal{H}的復(fù)雜度,從而導(dǎo)致更小的假設(shè)空間\scriptstyle \tilde{H}。 如圖2(b)所示,如圖2(b)所示,灰色區(qū)域沒有考慮進(jìn)行優(yōu)化,因?yàn)楦鶕?jù)先驗(yàn)知識(shí),它們不大可能包含最佳\scriptstyle h ^*。 對(duì)于這個(gè)較小的\scriptstyle \tilde{H},\scriptstyle D_{train}足以學(xué)習(xí)可靠的\scriptstyle h_I [43,86,99]。
?算法。 這些方法使用先驗(yàn)知識(shí)來(lái)搜索參數(shù)化\scriptstyle \mathcal{H}中最佳假設(shè)\scriptstyle h ^?\scriptstyle \theta。先驗(yàn)知識(shí)通過提供良好的初始化(圖2(c)中的灰色三角形)或指導(dǎo)搜索步驟(灰色來(lái)改變搜索策略)。 圖2(b)中的虛線)。 對(duì)于后者,結(jié)果搜索步驟受先驗(yàn)知識(shí)和經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化因素的影響。

因此,現(xiàn)有作品可以分類為統(tǒng)一的分類法,如圖3所示。我們將在以下各節(jié)中詳細(xì)介紹每個(gè)類別。

Fig. 3. A taxonomy of FSL methods based on the focus of each method

3 數(shù)據(jù)

本節(jié)中的FSL方法使用先驗(yàn)知識(shí)來(lái)增強(qiáng)數(shù)據(jù)\scriptstyle D_{train},以便豐富\scriptstyle E中的受監(jiān)管信息。使用擴(kuò)充樣本集,數(shù)據(jù)足以獲得可靠的\scriptstyle h_I(圖4)。

通過手工制定的規(guī)則進(jìn)行的數(shù)據(jù)擴(kuò)充通常用作FSL方法中的預(yù)處理。他們可以引入不同種類的不變性以供模型捕獲。例如,在圖像上,可以使用平移[One-shot unsupervised cross domain translation、Human-level concept learning through probabilistic program induction、Meta-learning with memory-augmented neural networks、Attentive recurrent comparators],翻轉(zhuǎn)[Low-shot learning with imprinted weights、Attentive recurrent comparators
],剪切[Attentive recurrent comparators],縮放[Human-level concept learning through probabilistic program inductionFine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data],反射[Towards a neural statistician、CLEAR: Cumulative learning for one-shot one-class image recognition],裁剪[Low-shot learning with imprinted weights, Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data]和旋轉(zhuǎn)[Meta-learning with memory-augmented neural networksMatching networks for one shot learning]。但是,設(shè)計(jì)這些規(guī)則在很大程度上取決于領(lǐng)域知識(shí),并且需要昂貴的人工成本。此外,擴(kuò)充規(guī)則可以特定于數(shù)據(jù)集,從而使其難以應(yīng)用于其他數(shù)據(jù)集。而且,人類不可能列舉出所有可能的不變性。因此,手動(dòng)數(shù)據(jù)擴(kuò)充不能完全解決FSL問題[One-shot unsupervised cross domain translationTowards a neural statistician、CLEAR: Cumulative learning for one-shot one-class image recognition、Human-level concept learning through probabilistic program induction、Meta-learning with memory-augmented neural networks、Attentive recurrent comparators]。

除了這些手工制定的規(guī)則,我們還將在以下更高級(jí)的數(shù)據(jù)擴(kuò)充中進(jìn)行回顧方法。根據(jù)要轉(zhuǎn)換并添加到\scriptstyle D_{train}的樣本,我們將這些方法分類,如表3所示。

Fig. 4. Solving the FSL problem by data augmentation.

image.png

3.1 基于訓(xùn)練數(shù)據(jù)轉(zhuǎn)換樣本

此策略通過將每個(gè)\scriptstyle \left(x_{i}, y_{i}\right) \in D_{\text {train }}轉(zhuǎn)換為多個(gè)具有變化的樣本來(lái)增強(qiáng)\scriptstyle D_{train}。轉(zhuǎn)換過程作為先驗(yàn)知識(shí)包含在經(jīng)驗(yàn)E中,以便生成其他樣本。早期的FSL論文[Learning from one example through shared densities on transforms]通過將每個(gè)樣本與其他樣本反復(fù)對(duì)齊,從相似的類中學(xué)習(xí)了一組幾何變換。將學(xué)習(xí)到的變換應(yīng)用于每個(gè)\scriptstyle (x_i,y_i),以形成一個(gè)大數(shù)據(jù)集,然后可以通過標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)該數(shù)據(jù)集。類似地,從[Delta Encoder: An effective sample synthesis method for few-shot object recognition]中的相似類中學(xué)習(xí)了一組自動(dòng)編碼器,每個(gè)自動(dòng)編碼器代表一個(gè)類內(nèi)可變性。通過將習(xí)得的變化量添加到x_i來(lái)生成新樣本。在[Low-shot visual recognition by shrinking and hallucinating features]中,通過假設(shè)所有類別在樣本之間共享一些可變換的可變性,可以學(xué)習(xí)單個(gè)變換函數(shù),將從其他類別學(xué)習(xí)到的樣本對(duì)之間的差異轉(zhuǎn)移到\scriptstyle (x_i,y_i)。在[One-shot learning of scene locations via feature trajectory transfer]中,不是枚舉成對(duì)的變量,而是使用從大量場(chǎng)景圖像中獲悉的一組獨(dú)立的屬性強(qiáng)度回歸將每個(gè)\scriptstyle x_i轉(zhuǎn)換為幾個(gè)樣本,并將原始\scriptstyle x_i的標(biāo)簽分配給這些新樣本。在[One-shot learning of scene locations via feature trajectory transfer]的基礎(chǔ)上進(jìn)行了改進(jìn),在[ Feature space transfer for data augmentation]中,連續(xù)屬性子空間用于向\scriptstyle x添加屬性變化。

3.2 基于弱標(biāo)注或無(wú)標(biāo)注數(shù)據(jù)轉(zhuǎn)換樣本

此策略通過從標(biāo)記弱或未標(biāo)記的大數(shù)據(jù)集中選擇帶有目標(biāo)標(biāo)記的樣本來(lái)增強(qiáng)\scriptstyle D_{train}。例如,在用監(jiān)視攝像機(jī)拍攝的照片中,有人,汽車和道路,但沒有一個(gè)被標(biāo)記。另一個(gè)示例是一段較長(zhǎng)的演示視頻。它包含說(shuō)話者的一系列手勢(shì),但是沒有一個(gè)被明確注釋。由于此類數(shù)據(jù)集包含樣本的較大變化,因此將其增加到\scriptstyle D_{train}有助于描述更清晰的\scriptstyle p(x,y)。此外,由于不需要人工來(lái)標(biāo)記,因此收集這樣的數(shù)據(jù)集更加容易。但是,盡管收集成本很低,但主要問題是如何選擇帶有目標(biāo)標(biāo)簽的樣本以增加到\scriptstyle D_{train}。在[Domain-adaptive discriminative one-shot learning of gestures]中,為\scriptstyle D_{train}中的每個(gè)目標(biāo)標(biāo)簽學(xué)習(xí)了一個(gè)示例SVM,然后將其用于從弱標(biāo)簽數(shù)據(jù)集中預(yù)測(cè)樣本的標(biāo)簽。然后將具有目標(biāo)標(biāo)簽的樣品添加到\scriptstyle D_{train}中。在[Low-shot learning with large-scale diffusion]中,標(biāo)簽傳播直接用于標(biāo)記未標(biāo)記的數(shù)據(jù)集,而不是學(xué)習(xí)分類器。在[Exploit the unknown gradually: One-shot video-based person re-identification by stepwise learning]中,采用漸進(jìn)策略來(lái)選擇內(nèi)容豐富的未標(biāo)記樣品。然后為選定的樣本分配偽標(biāo)簽,并用于更新CNN

3.3 基于類似數(shù)據(jù)集轉(zhuǎn)換樣本

此策略通過聚合和改編來(lái)自相似但較大的數(shù)據(jù)集中的輸入輸出對(duì)來(lái)增強(qiáng)\scriptstyle D_{train}。聚集權(quán)重通?;跇颖局g的某種相似性度量。在[Improving one-shot learning through fusing side information]中,它從輔助文本語(yǔ)料庫(kù)中提取聚合權(quán)重。由于這些樣本可能不是來(lái)自目標(biāo)FSL類,因此直接將匯總樣本增加到\scriptstyle D_{train}可能會(huì)產(chǎn)生誤導(dǎo)。因此,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network -GAN)[Generative adversarial nets]旨在從許多樣本的數(shù)據(jù)集中生成難以區(qū)分的合成聚合的\scriptstyle \tilde{x}[Low-shot learning via covariance-preserving adversarial augmentation networks]。它有兩個(gè)
生成器,一個(gè)將少數(shù)類別的樣本映射到大規(guī)模類別,另一種將大型類別的樣本映射到少數(shù)類別(以彌補(bǔ)GAN訓(xùn)練中樣本的不足)。

3.4 討論和總結(jié)

使用哪種擴(kuò)充策略的選擇取決于應(yīng)用程序。有時(shí),對(duì)于目標(biāo)任務(wù)(或類),存在大量弱監(jiān)督或未標(biāo)記的樣本,但由于收集注釋數(shù)據(jù)和/或計(jì)算成本高昂(這對(duì)應(yīng)于在第2.1節(jié))。在這種情況下,可以通過轉(zhuǎn)換標(biāo)記較弱或未標(biāo)記的數(shù)據(jù)集中的樣本來(lái)執(zhí)行增強(qiáng)。當(dāng)難以收集大規(guī)模的未標(biāo)記數(shù)據(jù)集,但是少量類別具有某些相似類時(shí),可以從這些相似類中轉(zhuǎn)換樣本。如果只有一些學(xué)習(xí)的轉(zhuǎn)換器而不是原始樣本可用,則可以通過轉(zhuǎn)換\scriptstyle D_{train}中的原始樣本來(lái)進(jìn)行擴(kuò)充。

通常,通過增加\scriptstyle D_{train}解決FSL問題非常簡(jiǎn)單明了。通過利用目標(biāo)任務(wù)的先驗(yàn)信息來(lái)擴(kuò)充數(shù)據(jù)。另一方面,通過數(shù)據(jù)擴(kuò)充來(lái)解決FSL問題的弱點(diǎn)在于,擴(kuò)充策略通常是針對(duì)每個(gè)數(shù)據(jù)集量身定制的,并且不能輕易地用于其他數(shù)據(jù)集(尤其是來(lái)自其他域的數(shù)據(jù)集)。最近,提出了自動(dòng)學(xué)習(xí)用于深度網(wǎng)絡(luò)訓(xùn)練的增強(qiáng)策略的AutoAugment [AutoAugment:Learning Augmentation Strategies from Data]來(lái)解決這個(gè)問題。除此之外,現(xiàn)有的方法主要是針對(duì)圖像設(shè)計(jì)的,因?yàn)樯傻膱D像可以很容易地被人目視評(píng)估。相反,文本和音頻涉及語(yǔ)法和結(jié)構(gòu),并且較難生成。在[EDA: Easy data augmentation techniques for boosting performance on text classification tasks]中報(bào)告了最近對(duì)文本使用數(shù)據(jù)增強(qiáng)的嘗試。

文獻(xiàn)原文:
Generalizing from a Few Examples: A Survey on Few-Shot
Learning

Github地址

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容