Adaptive Cross-Modal Few-shot Learning論文閱讀

論文

資料1

基于度量的元學(xué)習(xí)(metric-based meta-learning)如今已成為少樣本學(xué)習(xí)研究過程中被廣泛應(yīng)用的一個(gè)范式。這篇文章提出利用交叉模態(tài)信息(cross-modal information)來進(jìn)一步加強(qiáng)現(xiàn)有的度量元學(xué)習(xí)分類算法。

在本文中,交叉模態(tài)是指視覺和語言的信息;結(jié)構(gòu)定義上來說視覺信息和語義信息有截然不同的特征空間,然而在識(shí)別任務(wù)上二者往往能夠相互輔助,某些情況下視覺信息比起語義文字信息更加直觀,也更加豐富,利于分類識(shí)別,而另一些情況下則恰恰相反,比如可獲得的視覺信息受限,那么語義表達(dá)自然是能夠提供強(qiáng)大的先驗(yàn)知識(shí)和背景補(bǔ)充來幫助學(xué)習(xí)提升。

參考少樣本學(xué)習(xí)時(shí)可能會(huì)遇到的困難樣本如下圖:左邊示例的每對(duì)圖片在視覺信息上非常類似,然而他們實(shí)際上歸屬語義相差很大的不同類別,右邊示例的每對(duì)圖片視覺信息差異較大,然而所屬的語義類別都是同一個(gè)。這兩組例子很好證明了當(dāng)視覺信息或語義信息之一缺失的情況下,少樣本分類學(xué)習(xí)由于樣本數(shù)目的匱乏,提供到的信息很可能是有噪聲同時(shí)偏局部的,很難區(qū)分類似的困難樣本。

image

根據(jù)如上的場(chǎng)景假設(shè),文章提出一個(gè)自適應(yīng)交叉混合的機(jī)制(Adaptive Modality Mixture Mechanism,AM3):針對(duì)將要被學(xué)習(xí)的圖像類別,自適應(yīng)地結(jié)合它存在于視覺和語義上的信息,從而大幅提升少樣本場(chǎng)景下的分類任務(wù)性能。具體來說,自適應(yīng)的 AM3 方法并沒有直接將兩個(gè)信息模塊對(duì)齊起來然后提供輔助,也沒有通過遷移學(xué)習(xí)轉(zhuǎn)化語義信息作為視覺特征輔助(類似視覺問答 VQA 任務(wù)那樣),而是提出更優(yōu)的方式為,在少樣本學(xué)習(xí)的測(cè)試階段獨(dú)立地處理兩個(gè)知識(shí)模塊,同時(shí)根據(jù)不同場(chǎng)景區(qū)分適應(yīng)性地利用兩個(gè)模塊信息。

比如根據(jù)圖像所屬的種類,讓 AM3 能夠采用一種自適應(yīng)的凸結(jié)合(adaptive convex combination)方式糅合兩個(gè)表征空間并且調(diào)整模型關(guān)注側(cè)重點(diǎn),從而完成更精確的少樣本分類任務(wù)。對(duì)于困難樣本,在上圖左邊不同類別視覺相似度高的情況下,AM3 側(cè)重語義信息(Semantic modality)從而獲得泛化的背景知識(shí)來區(qū)分不同類別;而上圖右邊同類別圖片視覺差距大的情況下,AM3 模型側(cè)重于視覺信息(Visual modality)豐富的局部特征從而更好捕捉同類圖片存在的共性。

在對(duì)整個(gè)算法有初步印象之后,我們結(jié)合 AM3 模型示意圖來觀察更多細(xì)節(jié):

image

首先少樣本分類采用的學(xué)習(xí)方式仍然是 K-way N-shot 的節(jié)點(diǎn)學(xué)習(xí)(episodic training)過程,一方面是來自 N 個(gè)類別的 K 張訓(xùn)練圖片 S 用作支撐集(Support Set),另一方面是來自同樣 N 個(gè)類別的測(cè)試圖片作為查詢集 Q(Query Set),并根據(jù)分類問題損失定義得到如下參數(shù)化的方程為優(yōu)化目標(biāo):

image

在基礎(chǔ)模型網(wǎng)絡(luò)方面,AM3 采用了一個(gè)比較簡(jiǎn)潔的 Prototypical Network 作為例子,但也可以延伸到其他網(wǎng)絡(luò)使用:利用支撐集為每個(gè)類別計(jì)算一個(gè)類似于聚類一樣的中心聚點(diǎn)(centroids),之后對(duì)應(yīng)的查詢集樣本只需與每個(gè)中心點(diǎn)計(jì)算距離就可以得到所屬類別。對(duì)于每一個(gè)節(jié)點(diǎn) e(episode)都可以根據(jù)平均每個(gè)類別所屬支撐樣本的嵌入特征得到嵌入原型 Pc(embedding prototype)以及分布的函數(shù) p:

image
image

在 AM3 模型里,為了如之前說到的更靈活地捕捉語義空間的信息,文章在 Prototypical Network 的基礎(chǔ)上進(jìn)一步增加了一個(gè)預(yù)訓(xùn)練過的詞嵌入模型 W(word embedding),包含了所有類別的標(biāo)簽詞向量,同時(shí)修改了原 Prototypical Network 的類別表征,改為同時(shí)考慮視覺表達(dá)與語義標(biāo)簽表達(dá)的結(jié)合。而新模型 AM3 的嵌入原型 P』c 同學(xué)習(xí)函數(shù),用類似正則項(xiàng)的更新方式得到為:

其中,\lamda是自適應(yīng)系數(shù),定義為下式,其中 h 作為自適應(yīng)混合函數(shù)(adaptive mixing network),令兩個(gè)模態(tài)混合起來如 Fig 2(a) 所示

image

上式 p(y=c|q,S,?)是作為該節(jié)點(diǎn)在 N 個(gè)類別上由模型學(xué)習(xí)到的分布,整體來說是根據(jù)查詢樣本 q 的嵌入表達(dá)到嵌入原型直接的距離 d,最終做了一個(gè) softmax 操作得到的。距離 d 在文章中簡(jiǎn)單地采用了歐氏距離,模型通過梯度下降算法(SGD)最小化學(xué)習(xí)目標(biāo)損失 L(?)的同時(shí),也不停地更新迭代相關(guān)參數(shù)集合。

基于并不復(fù)雜的模型,文章在少樣本數(shù)據(jù)集 miniImageNet,tieredImageNet 以及零樣本學(xué)習(xí)數(shù)據(jù)集上都驗(yàn)證了自己的方法,均取得了非常好的成績(jī)

image
image

總的來看 AM3 這個(gè)工作也提出了一個(gè)非常有意思的少樣本學(xué)習(xí)切入點(diǎn),即多個(gè)空間的信息互相補(bǔ)足與制約,AM3 網(wǎng)絡(luò)優(yōu)越性體現(xiàn)在結(jié)構(gòu)的簡(jiǎn)潔和理論的完整性,目前該工作的代碼也已經(jīng)開源,感興趣的讀者可以進(jìn)一步探索:除了 Prototypical Network 以外,更復(fù)雜的網(wǎng)絡(luò)以及包含更多的模態(tài)信息。

Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdf

Code: https://github.com/ElementAI/am3

資料2

1、introduction
這篇文章提出了一種將語義與視覺知識(shí)相結(jié)合的自適應(yīng)的cross-modal。視覺和語義特征空間根據(jù)定義具有不同的結(jié)構(gòu)。對(duì)于某些概念,視覺特征可能比文本特征更豐富,更具辨別力。但當(dāng)視覺信息在圖像分類中受到限制時(shí),語義表示(從無監(jiān)督的文本語料庫(kù)中學(xué)習(xí))可以提供強(qiáng)大的先驗(yàn)知識(shí)和上下文以幫助學(xué)習(xí)。此文就是基于此開展研究的,提出了Adaptive Modality Mixture Mechanism(AM3),an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元學(xué)習(xí)方法上形成的,通過比較在已學(xué)習(xí)的度量空間中的距離來實(shí)現(xiàn)分類。文章在原型網(wǎng)絡(luò)Prototypical Networks for Few-shot Learning的思想基礎(chǔ)上,加入了文本信息(即語義表達(dá))。

2、algorithm

在AM3中,文章增加了基于度量的FSL方法,以結(jié)合由詞嵌入模型W學(xué)習(xí)的語言結(jié)構(gòu)(pre-trained on unsupervised large text corpora),在所有類別中包含了label embeddings。由于考慮到了label embeddings,AM3對(duì)每個(gè)類修改了原型表達(dá)(prototype representation)。有上圖(左)就可以看出AM3將視覺和語義特征表達(dá)的凸組合形成最終的類原型(category prototype),參數(shù)化表示為:

其中:

對(duì)于每一個(gè)episode(片段)e,類c的嵌入原型(即support set的均值,這里與原型網(wǎng)絡(luò)設(shè)計(jì)一致)。

few-shot learning分類的訓(xùn)練是通過在給定的support set來最小化在query set中樣本的預(yù)測(cè)損失。

訓(xùn)練時(shí)和原始的原型網(wǎng)絡(luò)相似,但是這里距離度量改變了,AM3加入了語義信息,此時(shí)d為query point與cross-modal 原型的距離。上圖(右)現(xiàn)實(shí)了AM3的work過程;假設(shè)query 樣本q是屬于類別i的,但是在視覺信息上與q最相近的是(a),(b)顯示了每個(gè)類的語義原型;在加入了語義嵌入時(shí),AM3修改了原型的位置(c);通過更新,離q最近的原型為類i。

算法流程為:

3、experiments
文章分別在miniImageNet、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上進(jìn)行實(shí)驗(yàn),結(jié)果表明AM3性能表現(xiàn)最好,模型簡(jiǎn)單且易擴(kuò)展。實(shí)驗(yàn)中發(fā)現(xiàn)在ZSL領(lǐng)域中的方法擴(kuò)展到基于度量的方法(FSL)性能都提升了。其余詳細(xì)的內(nèi)容見原文。

總結(jié):

看完整片文章,AM3的亮點(diǎn)就是在原型網(wǎng)絡(luò)的基礎(chǔ)上將語義信息與視覺信息相結(jié)合,形成一種自適應(yīng)的模型,即當(dāng)樣本較少時(shí),此時(shí)較小,文本信息占主要地位,當(dāng)較大時(shí),視覺信息占主要地位。
————————————————
版權(quán)聲明:本文為CSDN博主「warm_in_spring」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/warm_in_spring/article/details/98520385

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. 論文摘要 傳統(tǒng)的零樣本學(xué)習(xí)(ZSL)方法通常學(xué)習(xí)嵌入,例如視覺語義映射,以間接的方式處理看不見的視覺樣本。本...
    續(xù)袁閱讀 1,397評(píng)論 0 0
  • 1. 論文相關(guān) CVPR2018 2.摘要 最先進(jìn)的深度學(xué)習(xí)算法通常需要大量數(shù)據(jù)用于模型訓(xùn)練。缺乏可能嚴(yán)重惡化性能...
    續(xù)袁閱讀 545評(píng)論 0 1
  • 2019-05-02 哈爾濱第380期利他二組簡(jiǎn)書作者 姓名:周翔 揚(yáng)州市方圓建筑工程有限公司 【日精進(jìn)打卡第35...
    香蕉香蕉_2917閱讀 336評(píng)論 0 0
  • 看著玻璃上模糊的自己 記起你也忘記了的事情 山丘里如水一般的日子 情緒很少 只有哭和笑 心里面沒有強(qiáng)烈的喧鬧 陪著...
    人與詩(shī)閱讀 216評(píng)論 0 2
  • 【朋朋日歷】 2018年 12月13日 星期四 第50周 狗年 冬月初七 戊戌年 甲子月 己卯日 ********...
    劉書朋閱讀 112評(píng)論 0 1

友情鏈接更多精彩內(nèi)容