論文

資料1

基于度量的元學(xué)習(xí)（metric-based meta-learning）如今已成為少樣本學(xué)習(xí)研究過程中被廣泛應(yīng)用的一個(gè)范式。這篇文章提出利用交叉模態(tài)信息（cross-modal information）來進(jìn)一步加強(qiáng)現(xiàn)有的度量元學(xué)習(xí)分類算法。

在本文中，交叉模態(tài)是指視覺和語言的信息；結(jié)構(gòu)定義上來說視覺信息和語義信息有截然不同的特征空間，然而在識(shí)別任務(wù)上二者往往能夠相互輔助，某些情況下視覺信息比起語義文字信息更加直觀，也更加豐富，利于分類識(shí)別，而另一些情況下則恰恰相反，比如可獲得的視覺信息受限，那么語義表達(dá)自然是能夠提供強(qiáng)大的先驗(yàn)知識(shí)和背景補(bǔ)充來幫助學(xué)習(xí)提升。

參考少樣本學(xué)習(xí)時(shí)可能會(huì)遇到的困難樣本如下圖：左邊示例的每對(duì)圖片在視覺信息上非常類似，然而他們實(shí)際上歸屬語義相差很大的不同類別，右邊示例的每對(duì)圖片視覺信息差異較大，然而所屬的語義類別都是同一個(gè)。這兩組例子很好證明了當(dāng)視覺信息或語義信息之一缺失的情況下，少樣本分類學(xué)習(xí)由于樣本數(shù)目的匱乏，提供到的信息很可能是有噪聲同時(shí)偏局部的，很難區(qū)分類似的困難樣本。

image

根據(jù)如上的場(chǎng)景假設(shè)，文章提出一個(gè)自適應(yīng)交叉混合的機(jī)制（Adaptive Modality Mixture Mechanism，AM3）：針對(duì)將要被學(xué)習(xí)的圖像類別，自適應(yīng)地結(jié)合它存在于視覺和語義上的信息，從而大幅提升少樣本場(chǎng)景下的分類任務(wù)性能。具體來說，自適應(yīng)的 AM3 方法并沒有直接將兩個(gè)信息模塊對(duì)齊起來然后提供輔助，也沒有通過遷移學(xué)習(xí)轉(zhuǎn)化語義信息作為視覺特征輔助（類似視覺問答 VQA 任務(wù)那樣），而是提出更優(yōu)的方式為，在少樣本學(xué)習(xí)的測(cè)試階段獨(dú)立地處理兩個(gè)知識(shí)模塊，同時(shí)根據(jù)不同場(chǎng)景區(qū)分適應(yīng)性地利用兩個(gè)模塊信息。

比如根據(jù)圖像所屬的種類，讓 AM3 能夠采用一種自適應(yīng)的凸結(jié)合（adaptive convex combination）方式糅合兩個(gè)表征空間并且調(diào)整模型關(guān)注側(cè)重點(diǎn)，從而完成更精確的少樣本分類任務(wù)。對(duì)于困難樣本，在上圖左邊不同類別視覺相似度高的情況下，AM3 側(cè)重語義信息（Semantic modality）從而獲得泛化的背景知識(shí)來區(qū)分不同類別；而上圖右邊同類別圖片視覺差距大的情況下，AM3 模型側(cè)重于視覺信息（Visual modality）豐富的局部特征從而更好捕捉同類圖片存在的共性。

在對(duì)整個(gè)算法有初步印象之后，我們結(jié)合 AM3 模型示意圖來觀察更多細(xì)節(jié)：

image

首先少樣本分類采用的學(xué)習(xí)方式仍然是 K-way N-shot 的節(jié)點(diǎn)學(xué)習(xí)（episodic training）過程，一方面是來自 N 個(gè)類別的 K 張訓(xùn)練圖片 S 用作支撐集（Support Set），另一方面是來自同樣 N 個(gè)類別的測(cè)試圖片作為查詢集 Q（Query Set），并根據(jù)分類問題損失定義得到如下參數(shù)化的方程為優(yōu)化目標(biāo)：

image

在基礎(chǔ)模型網(wǎng)絡(luò)方面，AM3 采用了一個(gè)比較簡(jiǎn)潔的 Prototypical Network 作為例子，但也可以延伸到其他網(wǎng)絡(luò)使用：利用支撐集為每個(gè)類別計(jì)算一個(gè)類似于聚類一樣的中心聚點(diǎn)（centroids），之后對(duì)應(yīng)的查詢集樣本只需與每個(gè)中心點(diǎn)計(jì)算距離就可以得到所屬類別。對(duì)于每一個(gè)節(jié)點(diǎn) e（episode）都可以根據(jù)平均每個(gè)類別所屬支撐樣本的嵌入特征得到嵌入原型 Pc（embedding prototype）以及分布的函數(shù) p：

image

在 AM3 模型里，為了如之前說到的更靈活地捕捉語義空間的信息，文章在 Prototypical Network 的基礎(chǔ)上進(jìn)一步增加了一個(gè)預(yù)訓(xùn)練過的詞嵌入模型 W（word embedding），包含了所有類別的標(biāo)簽詞向量，同時(shí)修改了原 Prototypical Network 的類別表征，改為同時(shí)考慮視覺表達(dá)與語義標(biāo)簽表達(dá)的結(jié)合。而新模型 AM3 的嵌入原型 P』c 同學(xué)習(xí)函數(shù)，用類似正則項(xiàng)的更新方式得到為：

其中， $\lamda$ 是自適應(yīng)系數(shù)，定義為下式，其中 h 作為自適應(yīng)混合函數(shù)（adaptive mixing network），令兩個(gè)模態(tài)混合起來如 Fig 2(a) 所示

image

上式 p（y=c|q,S,?）是作為該節(jié)點(diǎn)在 N 個(gè)類別上由模型學(xué)習(xí)到的分布，整體來說是根據(jù)查詢樣本 q 的嵌入表達(dá)到嵌入原型直接的距離 d，最終做了一個(gè) softmax 操作得到的。距離 d 在文章中簡(jiǎn)單地采用了歐氏距離，模型通過梯度下降算法（SGD）最小化學(xué)習(xí)目標(biāo)損失 L（?）的同時(shí)，也不停地更新迭代相關(guān)參數(shù)集合。

基于并不復(fù)雜的模型，文章在少樣本數(shù)據(jù)集 miniImageNet，tieredImageNet 以及零樣本學(xué)習(xí)數(shù)據(jù)集上都驗(yàn)證了自己的方法，均取得了非常好的成績(jī)

image

總的來看 AM3 這個(gè)工作也提出了一個(gè)非常有意思的少樣本學(xué)習(xí)切入點(diǎn)，即多個(gè)空間的信息互相補(bǔ)足與制約，AM3 網(wǎng)絡(luò)優(yōu)越性體現(xiàn)在結(jié)構(gòu)的簡(jiǎn)潔和理論的完整性，目前該工作的代碼也已經(jīng)開源，感興趣的讀者可以進(jìn)一步探索：除了 Prototypical Network 以外，更復(fù)雜的網(wǎng)絡(luò)以及包含更多的模態(tài)信息。

Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdf

Code: https://github.com/ElementAI/am3

資料2

1、introduction
這篇文章提出了一種將語義與視覺知識(shí)相結(jié)合的自適應(yīng)的cross-modal。視覺和語義特征空間根據(jù)定義具有不同的結(jié)構(gòu)。對(duì)于某些概念，視覺特征可能比文本特征更豐富，更具辨別力。但當(dāng)視覺信息在圖像分類中受到限制時(shí)，語義表示（從無監(jiān)督的文本語料庫(kù)中學(xué)習(xí)）可以提供強(qiáng)大的先驗(yàn)知識(shí)和上下文以幫助學(xué)習(xí)。此文就是基于此開展研究的，提出了Adaptive Modality Mixture Mechanism（AM3），an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元學(xué)習(xí)方法上形成的，通過比較在已學(xué)習(xí)的度量空間中的距離來實(shí)現(xiàn)分類。文章在原型網(wǎng)絡(luò)Prototypical Networks for Few-shot Learning的思想基礎(chǔ)上，加入了文本信息（即語義表達(dá)）。

2、algorithm

在AM3中，文章增加了基于度量的FSL方法，以結(jié)合由詞嵌入模型W學(xué)習(xí)的語言結(jié)構(gòu)（pre-trained on unsupervised large text corpora)，在所有類別中包含了label embeddings。由于考慮到了label embeddings，AM3對(duì)每個(gè)類修改了原型表達(dá)（prototype representation）。有上圖（左）就可以看出AM3將視覺和語義特征表達(dá)的凸組合形成最終的類原型（category prototype），參數(shù)化表示為：

其中：

對(duì)于每一個(gè)episode（片段）e，類c的嵌入原型（即support set的均值，這里與原型網(wǎng)絡(luò)設(shè)計(jì)一致）。

few-shot learning分類的訓(xùn)練是通過在給定的support set來最小化在query set中樣本的預(yù)測(cè)損失。

訓(xùn)練時(shí)和原始的原型網(wǎng)絡(luò)相似，但是這里距離度量改變了，AM3加入了語義信息，此時(shí)d為query point與cross-modal 原型的距離。上圖（右）現(xiàn)實(shí)了AM3的work過程；假設(shè)query 樣本q是屬于類別i的，但是在視覺信息上與q最相近的是（a），（b）顯示了每個(gè)類的語義原型；在加入了語義嵌入時(shí)，AM3修改了原型的位置（c）；通過更新，離q最近的原型為類i。

算法流程為：

3、experiments
文章分別在miniImageNet、tieredImageNet（few-shot learning）和CUB-200（zero-shot learning）上進(jìn)行實(shí)驗(yàn)，結(jié)果表明AM3性能表現(xiàn)最好，模型簡(jiǎn)單且易擴(kuò)展。實(shí)驗(yàn)中發(fā)現(xiàn)在ZSL領(lǐng)域中的方法擴(kuò)展到基于度量的方法（FSL)性能都提升了。其余詳細(xì)的內(nèi)容見原文。

總結(jié)：

看完整片文章，AM3的亮點(diǎn)就是在原型網(wǎng)絡(luò)的基礎(chǔ)上將語義信息與視覺信息相結(jié)合，形成一種自適應(yīng)的模型，即當(dāng)樣本較少時(shí)，此時(shí)較小，文本信息占主要地位，當(dāng)較大時(shí)，視覺信息占主要地位。
————————————————
版權(quán)聲明：本文為CSDN博主「warm_in_spring」的原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/warm_in_spring/article/details/98520385

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Adaptive Cross-Modal Few-shot Learning論文閱讀

Adaptive Cross-Modal Few-shot Learning論文閱讀

論文

資料1

資料2

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Adaptive Cross-Modal Few-shot Learning論文閱讀

論文

資料1

資料2

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av