Cross-modal Hallucination for Few-shot Fine-grained Recognition

最先進的深度學(xué)習(xí)算法需要大量的數(shù)據(jù)用于模型訓(xùn)練，缺乏會導(dǎo)致性能惡化，尤其是在不同類別之間具有細粒度的邊界的時候。

Introduction

方法背后的直覺是生成額外訓(xùn)練的樣本，這些樣本適用于文本描述，有助于在低數(shù)據(jù)場景中學(xué)習(xí)分類模型。

貢獻有：

根據(jù)細粒度視覺識別任務(wù)提出多模態(tài)Few-shot學(xué)習(xí)的基準，該任務(wù)在訓(xùn)練階段是多模態(tài)的，測試時是單模態(tài)的(圖像)。
開發(fā)了類別判斷的文本條件生成對抗網(wǎng)絡(luò)(tcGAN)，通過在細粒度文本描述的條件下隱藏額外的圖像來促進Few-shot學(xué)習(xí)。

idea

從數(shù)據(jù)集中學(xué)習(xí)分類器，每個類別的幾個樣本通過以文本描述為條件的幻覺數(shù)據(jù)進行擴展。

Multimodal Few-shot Learning Benchmark

目標是建立多模態(tài)Few-shot細粒度識別的基準模仿實踐中出現(xiàn)的情況。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 啟發(fā)，提出Few-shot學(xué)習(xí)基準并將其擴展為使用多模態(tài)訓(xùn)練數(shù)據(jù)。建立由多個階段組成的Few-shot學(xué)習(xí)框架。第一階段在大型訓(xùn)練集上進行學(xué)習(xí)得到一些有意義的表示，下一階段在少量樣本上進行微調(diào)。

Method

[圖片上傳失敗...(image-6401df-1547150302469)]

總體框架分為兩個階段，

表示學(xué)習(xí)，訓(xùn)練text-conditional GAN給定文本描述生成hallucinate圖像。
微調(diào)階段，通過樣本選擇策略從生成的圖像中選擇最具有辨別力的部分。

Discriminative Text-Conditional GAN

遵循元學(xué)習(xí)框架，在 $\mathcal { C } _{ \text { base } }$ (非小樣本基礎(chǔ)類數(shù)據(jù))上大量數(shù)據(jù)中學(xué)習(xí)生成模型。然后在 $\mathcal{C}_{novel}$ (新的細粒度類)上學(xué)習(xí)與之相關(guān)的分類器。構(gòu)造一個text-conditional GAN用于學(xué)習(xí)從文本到圖像的映射。這樣生成器G被訓(xùn)練，從而生成不能被判別器判斷出真假的圖像。

tcGAN的目標函數(shù)：

$\begin{aligned} \mathcal { L } _ { t c G A N } ( G , D ) = \mathbb { E } _ { I , T } & [ \log D ( I , T ) ] \\ & + \mathbb { E } _ { I , z } [ \log D ( I , G ( T , z ) ) ] \end{aligned}$

其中的 $z$ 是隨機噪聲向量， $T$ 和 $I$ 是觀察文本和圖像的embeddings。

單獨優(yōu)化 $\mathcal { L } _ { t c G A N }$ 缺少類間的區(qū)分度，向 $\mathcal { L } _ { t c G A N }$ 中增加一個class-discriminative項 $\mathcal { L } _ { \text { class } }$ ，被定義為：