【心理學(xué)與AI】iCaRL: Incremental Classifier and Representation Learning

增量分類器和表示學(xué)習(xí)

Sylvestre-Alvise Rebuffi,Alexander Kolesnikov, Georg Sperl, Christoph H. Lampert,2001.


類增量學(xué)習(xí):

概念:一個(gè)可視化的對象分類系統(tǒng)應(yīng)該能夠逐步地學(xué)習(xí)新的類,當(dāng)它們的訓(xùn)練數(shù)據(jù)變得可用時(shí),我們將這種場景稱為類增量學(xué)習(xí)。

條件:在形式上,我們要求算法具有以下三個(gè)屬性:

i)它應(yīng)該是可訓(xùn)練的,一個(gè)數(shù)據(jù)流中不同類的例子在不同的時(shí)間發(fā)生,

ii)它應(yīng)該隨時(shí)為到目前為止觀察到的類提供一個(gè)有競爭力的多類分類器,

iii)它的計(jì)算需求和內(nèi)存占用應(yīng)該保持有限,或者至少非常緩慢地增長,相對于目前看到的類的數(shù)量而言。

前兩個(gè)標(biāo)準(zhǔn)表達(dá)了類增量學(xué)習(xí)的本質(zhì)。第三個(gè)標(biāo)準(zhǔn)防止了一些無關(guān)緊要的算法。

圖1:類增量學(xué)習(xí):算法從連續(xù)的數(shù)據(jù)流中不斷地學(xué)習(xí)新的類。在任何時(shí)候,學(xué)習(xí)者都可以對目前觀察到的所有類別進(jìn)行多類分類。

作者就增量學(xué)習(xí)系統(tǒng)的開發(fā)問題,提出了一種新的策略:iCaRL(增量分類器和表示學(xué)習(xí))。

它是一種實(shí)用的同時(shí)學(xué)習(xí)分類器的策略和在類增量設(shè)置中的特征表示,允許以一種class-incremental(分類增量)的方式進(jìn)行學(xué)習(xí):只有少量類的培訓(xùn)數(shù)據(jù)必須同時(shí)出現(xiàn),并且可以逐步添加新類。

iCaRL的3個(gè)組成部分:

i)根據(jù)最接近樣本均值(nearest-mean-of-exemplars)規(guī)則進(jìn)行分類,

ii)基于放牧(herding)的優(yōu)先樣本選擇(prioritized exemplar selection),

iii)運(yùn)用知識提煉和原型排練(knowledge distillation and prototype rehearsal)進(jìn)行學(xué)習(xí)。


iCaRL的主要組件:

\bullet Class-Incremental分類器學(xué)習(xí)?

iCaRL從類增量形式的數(shù)據(jù)流中同時(shí)學(xué)習(xí)分類器和特征表示,即樣本集X^1 ,X^2...,其中X^y=  \left\{ x_{1}^y,...,x_{n_{y} }^y \right\} ,y\in N。

分類:iCaRL依賴集合P1,...,Pt。從數(shù)據(jù)流中動(dòng)態(tài)選擇的示例性圖像。確保圖像的總數(shù)不超過一個(gè)固定參數(shù)K。算法1描述了用于將圖像分類到目前觀察到的類集合的樣本分類器的平均值。

訓(xùn)練:iCaRL使用增量學(xué)習(xí)策略一次處理成批的課程。每當(dāng)新類的數(shù)據(jù)可用時(shí),iCaRL就調(diào)用更新例程(算法2)。

體系結(jié)構(gòu):在底層,iCaRL利用了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)。我們將該網(wǎng)絡(luò)解釋為一個(gè)可訓(xùn)練的特征提取器

接著是一個(gè)單一的分類層,其sigmoid輸出節(jié)點(diǎn)與目前觀察到的類相同。

資源使用:理論上iCaRL可以運(yùn)行無限長的時(shí)間。在其運(yùn)行期間的任何時(shí)候,其存儲器需求將是特征提取參數(shù)的大小、K個(gè)示例性圖像的存儲以及觀察到的類的盡可能多的權(quán)重向量。

\bullet 最接近平均值示例分類

iCaRL采用近似平均樣本分類策略。為了預(yù)測新圖像x的標(biāo)簽y*,它計(jì)算到目前為止觀察到的每個(gè)類的原型向量\mu _{1} ,...,\mu _{t} ,其中μ_{y}=\frac{1}{|P_{y}| }  \Sigma _{p\in P_{y} }\varphi (p) 是y類所有樣本的平均特征向量。它還計(jì)算應(yīng)分類的圖像的特征向量,并為類標(biāo)簽分配最相似的原型:

背景:最接近平均值示例分類規(guī)則克服了增量學(xué)習(xí)設(shè)置的兩個(gè)主要問題。最近鄰范例均值規(guī)則(上式)并沒有解耦權(quán)向量,不會出現(xiàn)災(zāi)難性遺忘。每當(dāng)特征表示發(fā)生變化時(shí),類原型就會自動(dòng)變化,這使得分類器對特征表示的變化具有很強(qiáng)的魯棒性。

\bullet 表示學(xué)習(xí)

每當(dāng)iCaRL獲得數(shù)據(jù)時(shí),X^s,...,X^t ,表示新課程,s,…,t,它更新了它的特征提取例程和范例集。

算法3列出了逐步改進(jìn)特征表示的步驟。

首先,iCaRL構(gòu)造了一個(gè)擴(kuò)充的訓(xùn)練集,由當(dāng)前可用的訓(xùn)練示例和存儲的范例組成。

接下來,針對每個(gè)示例計(jì)算當(dāng)前網(wǎng)絡(luò),并存儲所有以前類的結(jié)果網(wǎng)絡(luò)輸出(不是針對新類,因?yàn)榫W(wǎng)絡(luò)還沒有針對這些類進(jìn)行過培訓(xùn))。

最后,通過最小化損失函數(shù)來更新網(wǎng)絡(luò)參數(shù),對于每個(gè)新圖像,該函數(shù)鼓勵(lì)網(wǎng)絡(luò)為新類輸出正確的類指示器(分類損失),對于舊類輸出正確的類指示器(分類損失),以重現(xiàn)上一步中存儲的分?jǐn)?shù)(蒸餾損失)。

背景:表示學(xué)習(xí)步驟類似于普通的網(wǎng)絡(luò)優(yōu)化:從先前學(xué)習(xí)的網(wǎng)絡(luò)權(quán)重開始,它最小化了訓(xùn)練集上的損失函數(shù)。有兩個(gè)簡單微調(diào)的修改,旨在防止或至少減輕災(zāi)難性遺忘——擴(kuò)充訓(xùn)練集、擴(kuò)充損失函數(shù)。

\bullet 范例管理

每當(dāng)iCaRL遇到新的類時(shí),它都會調(diào)整它的范例集。當(dāng)t類已經(jīng)被觀察到并且K是可存儲的范例的總數(shù)時(shí),iCaRL將對每個(gè)類使用m = K/t范例(直到舍入為止)。這樣就確保了K個(gè)范例的可用內(nèi)存預(yù)算總是被充分利用,但是從來沒有超出。

有兩個(gè)例程負(fù)責(zé)范例管理:一個(gè)是為新類選擇范例,另一個(gè)是減少以前類的范例集的大小。

算法4描述了范例選擇步驟。

選擇原型P1,……,Pm并迭代存儲,直到滿足目標(biāo)編號m。在迭代的每一步中,都會向范例集中添加一個(gè)當(dāng)前訓(xùn)練集的范例,也就是使所有范例中的平均特征向量最接近所有訓(xùn)練范例中的平均特征向量的范例。

算法5描述了刪除示例過程。

為了將范例的數(shù)量從任意的m'減少到m,一個(gè)人可以丟棄范例Pm+1,…,Pm',只保留范例P1,...,Pm。

背景:范例管理例程的設(shè)計(jì)有兩個(gè)目的:最初的范例集應(yīng)該很好地接近類的均值向量,并且應(yīng)該能夠在算法運(yùn)行期間的任何時(shí)間刪除范例而不違反這個(gè)屬性。

采用data-independent刪除策略,以確保滿足后一個(gè)屬性。


實(shí)驗(yàn)

作者提出了一個(gè)評估增量學(xué)習(xí)方法的協(xié)議,并將iCaRL的分類精度與其他方法進(jìn)行了比較。隨后報(bào)告了進(jìn)一步的實(shí)驗(yàn),通過分離單個(gè)成分的影響,揭示了iCaRL的工作機(jī)制。

\bullet 基準(zhǔn)協(xié)議

評估步驟:對于給定的多類分類數(shù)據(jù)集,類按固定的隨機(jī)順序排列。然后,根據(jù)可用的訓(xùn)練數(shù)據(jù),以類遞增的方式對每個(gè)方法進(jìn)行訓(xùn)練。在每批類之后,只考慮那些已經(jīng)訓(xùn)練過的類,對數(shù)據(jù)集的測試部分?jǐn)?shù)據(jù)評估得到的分類器。如果一個(gè)數(shù)字是可取的,報(bào)告這些精度的平均值,稱為平均增量精度。

實(shí)驗(yàn)中的兩個(gè)實(shí)例

1) iCIFAR-100基準(zhǔn):使用CIFAR-100數(shù)據(jù),每次訓(xùn)練2、5、10、20或50個(gè)類,批量訓(xùn)練所有100個(gè)類。評估度量是測試集上的標(biāo)準(zhǔn)多類精度。由于數(shù)據(jù)集是可管理的,作者使用不同的類順序運(yùn)行這個(gè)基準(zhǔn)10次,并報(bào)告結(jié)果的平均值和標(biāo)準(zhǔn)偏差。

2) ilLSVRC基準(zhǔn):在兩種情況下使用ImageNet ILSVRC 2012數(shù)據(jù)集:僅使用一個(gè)100個(gè)類的子集,以10個(gè)批處理(ilLSVRC-small)或使用全部1000個(gè)類,以100個(gè)批處理(ilLSVRC-full)。評估度量是數(shù)據(jù)集val部分的前5位精度。

\bullet 結(jié)果

主要實(shí)驗(yàn)研究了不同方法在類增量條件下的精度。除iCaRL外還實(shí)現(xiàn)并測試了三種可選的類增量方法。

LwF.MC:試圖通過使用學(xué)習(xí)過程中的蒸餾損失來防止災(zāi)難性遺忘,就像iCaRL所做的那樣,但它沒有使用示例集。對于分類,它使用網(wǎng)絡(luò)輸出值本身。這本質(zhì)上是一種無遺忘學(xué)習(xí)方法,但應(yīng)用于多類分類中。

fixed re pr.:固定表示學(xué)習(xí)了一個(gè)多類分類網(wǎng)絡(luò),但以一種防止災(zāi)難性遺忘的方式。它在處理完第一批類后凍結(jié)特征表示,在處理完相應(yīng)類后凍結(jié)分類層的權(quán)重。對于后續(xù)的批處理類,只訓(xùn)練新類的權(quán)重向量。

finetuning:精細(xì)調(diào)整學(xué)習(xí)一個(gè)普通的多類網(wǎng)絡(luò),而不采取任何措施來防止災(zāi)難性遺忘。它也可以被解釋為通過微調(diào)先前學(xué)習(xí)的多類分類網(wǎng)絡(luò)來為新的傳入類學(xué)習(xí)多類分類器。

圖2顯示了實(shí)驗(yàn)結(jié)果。

圖2:iCIFAR-100和ilLSVRC上的類遞增訓(xùn)練的實(shí)驗(yàn)結(jié)果:報(bào)告的是在一定時(shí)間點(diǎn)內(nèi)觀察到的所有類的多類精度。在這種情況下,iCaRL的性能明顯優(yōu)于其他方法。在第一批訓(xùn)練后修復(fù)數(shù)據(jù)(fixed repr)表示比基于提取的LwF.MC表現(xiàn)更差。除了ilLSVRC-full。在不防止災(zāi)難性遺忘的情況下對網(wǎng)絡(luò)進(jìn)行細(xì)化(Finetuning),會得到最差的結(jié)果。相比之下,同一網(wǎng)絡(luò)在所有可用數(shù)據(jù)的訓(xùn)練下,多類準(zhǔn)確率達(dá)到68.6%。

結(jié)果顯示,iCaRL的性能明顯優(yōu)于其他方法,而且設(shè)置的增量越大性能越好(即可以同時(shí)處理的類越少)。

在其他方法中,基于蒸餾的網(wǎng)絡(luò)訓(xùn)練(LwF.MC)總是次之,除了ilLSVRC-full之外,其中最好在第一批100個(gè)類之后修復(fù)表示。

Finetuning總是得到最差的結(jié)果,這證實(shí)了災(zāi)難性遺忘確實(shí)是課堂增量學(xué)習(xí)的一個(gè)主要問題。

圖3進(jìn)一步分析了不同方法的行為。

圖3:iCIFAR-100上不同方法的混淆矩陣(條目被log(1+z)轉(zhuǎn)換以獲得更好的可見性)。iCaRL的預(yù)測幾乎均勻地分布在所有的類中,而LwF.MC的預(yù)測幾乎均勻地分布在所有的類中,傾向于更頻繁地預(yù)測最近批次的類。固定表示的分類器對第一批的類有偏倚,而finetuning訓(xùn)練的網(wǎng)絡(luò)只預(yù)測最后一批的類標(biāo)簽。

結(jié)果顯示,iCaRL的混淆矩陣在所有類中看起來都是同構(gòu)的,表明iCaRL對它在學(xué)習(xí)過程中遇到的早期或晚期的類沒有固有的偏見。特別是,它不會遭受災(zāi)難性的遺忘。

而其他類的混淆矩陣顯示出不均勻的模式。

\bullet 微分分析

為了進(jìn)一步了解iCaRL的工作機(jī)制,在iCIFAR-100上進(jìn)行了額外的實(shí)驗(yàn),在實(shí)驗(yàn)中分離了這些方法的各個(gè)方面。

首先,分析了為什么iCaRL在基于普通細(xì)化的訓(xùn)練基礎(chǔ)上有所改進(jìn)。

它在三個(gè)方面有所不同:通過使用樣本均值分類規(guī)則,通過在表示學(xué)習(xí)中使用樣本,以及通過使用蒸餾損失。

創(chuàng)建了三個(gè)混合設(shè)置:

第一個(gè)(hybrid 1)以與iCaRL相同的方式學(xué)習(xí)表示。但是直接使用網(wǎng)絡(luò)的輸出進(jìn)行分類,而不是樣本均值分類器。

第二個(gè)(hybrid 2)使用樣本進(jìn)行分類,但沒有使用訓(xùn)練過程中的蒸餾損失。

第三種方法(hybrid 3)既不使用蒸餾損失,也不使用樣本進(jìn)行分類,而是在表示學(xué)習(xí)過程中使用樣本。

作為比較,還包括Lw.FMC。再一次,它使用了蒸餾,但是沒有任何范例。

表1a將結(jié)果總結(jié)為增量訓(xùn)練所有步驟的分類準(zhǔn)確率的平均值。

結(jié)果顯示,混合設(shè)置大多在iCaRL和LwF.MC之間取得了效果。這表明,事實(shí)上iCaRL的所有新組件都對其良好性能作出了重大貢獻(xiàn)。

\bullet 第二組實(shí)驗(yàn)

第二組實(shí)驗(yàn)中,研究了使用樣本均值作為分類原型,而不是使用最接近類均值(NCM)規(guī)則,在多大程度上損失了準(zhǔn)確性。

后者使用未修改的iCaRL來學(xué)習(xí)表示,但是使用NCM對圖像進(jìn)行分類。在NCM中,使用當(dāng)前的特征提取器在每次表示更新后重新計(jì)算類均值。

表1b的結(jié)果顯示iCaRL和NCM之間只有微小的差異。確定iCaRL可靠地識別代表性范例。

圖4展示了不同內(nèi)存預(yù)算的影響,將iCaRL與表la的hybrid dl分類器和表1b的NCM分類器進(jìn)行了比較。

結(jié)果表明iCaRL的表示學(xué)習(xí)步驟確實(shí)受益于更多的原型。有了足夠多的原型(這里至少有1000個(gè)),iCaRL的樣本均值分類器的性能與NCM分類器相似,而根據(jù)網(wǎng)絡(luò)輸出進(jìn)行篩選是沒有競爭力的。


結(jié)論

本文介紹了一種同時(shí)學(xué)習(xí)分類器和特征表示的類增量學(xué)習(xí)策略iCaRL。

iCaRL的三個(gè)主要組成部分是:

1)一個(gè)對數(shù)據(jù)表示的變化具有魯棒性的近似平均樣本分類器,同時(shí)每個(gè)類只需要存儲少量副本,

2)一個(gè)基于herdingstep的優(yōu)先樣本選擇,

3)一個(gè)表示學(xué)習(xí)步驟,使用范例與蒸餾相結(jié)合,以避免災(zāi)難性遺忘。

在CIFAR-100和ImageNet ILSVRC 2012上的實(shí)驗(yàn)表明,iCaRL能夠在其他方法很快失敗的情況下,在很長一段時(shí)間內(nèi)增量學(xué)習(xí)。

iCaRL強(qiáng)大的分類效果的主要原因是它使用了示例圖像。

盡管取得了可喜的結(jié)果,但類別遞增分類還遠(yuǎn)遠(yuǎn)沒有解決。特別是,iCaRL的性能仍然低于系統(tǒng)在批處理設(shè)置中(即同時(shí)提供所有類的所有訓(xùn)練示例)所實(shí)現(xiàn)的性能。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容