Cross-modal Hallucination for Few-shot Fine-grained Recognition
最先進的深度學(xué)習(xí)算法需要大量的數(shù)據(jù)用于模型訓(xùn)練,缺乏會導(dǎo)致性能惡化,尤其是在不同類別之間具有細粒度的邊界的時候。
Introduction
方法背后的直覺是生成額外訓(xùn)練的樣本,這些樣本適用于文本描述,有助于在低數(shù)據(jù)場景中學(xué)習(xí)分類模型。
貢獻有:
- 根據(jù)細粒度視覺識別任務(wù)提出多模態(tài)Few-shot學(xué)習(xí)的基準,該任務(wù)在訓(xùn)練階段是多模態(tài)的,測試時是單模態(tài)的(圖像)。
- 開發(fā)了類別判斷的文本條件生成對抗網(wǎng)絡(luò)(tcGAN),通過在細粒度文本描述的條件下隱藏額外的圖像來促進Few-shot學(xué)習(xí)。

從數(shù)據(jù)集中學(xué)習(xí)分類器,每個類別的幾個樣本通過以文本描述為條件的幻覺數(shù)據(jù)進行擴展。
Multimodal Few-shot Learning Benchmark
目標是建立多模態(tài)Few-shot細粒度識別的基準模仿實踐中出現(xiàn)的情況。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 啟發(fā),提出Few-shot學(xué)習(xí)基準并將其擴展為使用多模態(tài)訓(xùn)練數(shù)據(jù)。建立由多個階段組成的Few-shot學(xué)習(xí)框架。第一階段在大型訓(xùn)練集上進行學(xué)習(xí)得到一些有意義的表示,下一階段在少量樣本上進行微調(diào)。
Method
[圖片上傳失敗...(image-6401df-1547150302469)]
總體框架分為兩個階段,
- 表示學(xué)習(xí),訓(xùn)練text-conditional GAN給定文本描述生成hallucinate圖像。
- 微調(diào)階段,通過樣本選擇策略從生成的圖像中選擇最具有辨別力的部分。
Discriminative Text-Conditional GAN
遵循元學(xué)習(xí)框架,在(非小樣本基礎(chǔ)類數(shù)據(jù))上大量數(shù)據(jù)中學(xué)習(xí)生成模型。然后在
(新的細粒度類)上學(xué)習(xí)與之相關(guān)的分類器。構(gòu)造一個text-conditional GAN用于學(xué)習(xí)從文本到圖像的映射。這樣生成器G被訓(xùn)練,從而生成不能被判別器判斷出真假的圖像。
tcGAN的目標函數(shù):
其中的是隨機噪聲向量,
和
是觀察文本和圖像的embeddings。
單獨優(yōu)化缺少類間的區(qū)分度,向
中增加一個class-discriminative項
,被定義為:
是類標簽。另外,令:
引出兩個損失項:
通過優(yōu)化得到和
。
Self-paced Sample Selection
通過訓(xùn)練能夠生成足夠多的樣本,我們需要從生成的樣本庫中挑選足夠的樣本,以便于細粒度Few-shot能夠構(gòu)建更好的分類器。選擇生成器和鑒別器最有信心的樣本。就是使用鑒別器
計算的分數(shù)并對分數(shù)進行排序,得到最好的樣本(如上圖所示)。