Cross-modal Hallucination for Few-shot Fine-grained Recognition

Cross-modal Hallucination for Few-shot Fine-grained Recognition

最先進的深度學(xué)習(xí)算法需要大量的數(shù)據(jù)用于模型訓(xùn)練,缺乏會導(dǎo)致性能惡化,尤其是在不同類別之間具有細粒度的邊界的時候。

Introduction

方法背后的直覺是生成額外訓(xùn)練的樣本,這些樣本適用于文本描述,有助于在低數(shù)據(jù)場景中學(xué)習(xí)分類模型。

貢獻有:

  1. 根據(jù)細粒度視覺識別任務(wù)提出多模態(tài)Few-shot學(xué)習(xí)的基準,該任務(wù)在訓(xùn)練階段是多模態(tài)的,測試時是單模態(tài)的(圖像)。
  2. 開發(fā)了類別判斷的文本條件生成對抗網(wǎng)絡(luò)(tcGAN),通過在細粒度文本描述的條件下隱藏額外的圖像來促進Few-shot學(xué)習(xí)。
idea

從數(shù)據(jù)集中學(xué)習(xí)分類器,每個類別的幾個樣本通過以文本描述為條件的幻覺數(shù)據(jù)進行擴展。

Multimodal Few-shot Learning Benchmark

目標是建立多模態(tài)Few-shot細粒度識別的基準模仿實踐中出現(xiàn)的情況。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 啟發(fā),提出Few-shot學(xué)習(xí)基準并將其擴展為使用多模態(tài)訓(xùn)練數(shù)據(jù)。建立由多個階段組成的Few-shot學(xué)習(xí)框架。第一階段在大型訓(xùn)練集上進行學(xué)習(xí)得到一些有意義的表示,下一階段在少量樣本上進行微調(diào)。

Method

[圖片上傳失敗...(image-6401df-1547150302469)]

總體框架分為兩個階段,

  1. 表示學(xué)習(xí),訓(xùn)練text-conditional GAN給定文本描述生成hallucinate圖像。
  2. 微調(diào)階段,通過樣本選擇策略從生成的圖像中選擇最具有辨別力的部分。

Discriminative Text-Conditional GAN

遵循元學(xué)習(xí)框架,在\mathcal { C } _{ \text { base } }(非小樣本基礎(chǔ)類數(shù)據(jù))上大量數(shù)據(jù)中學(xué)習(xí)生成模型。然后在\mathcal{C}_{novel}(新的細粒度類)上學(xué)習(xí)與之相關(guān)的分類器。構(gòu)造一個text-conditional GAN用于學(xué)習(xí)從文本到圖像的映射。這樣生成器G被訓(xùn)練,從而生成不能被判別器判斷出真假的圖像。

tcGAN的目標函數(shù):

\begin{aligned} \mathcal { L } _ { t c G A N } ( G , D ) = \mathbb { E } _ { I , T } & [ \log D ( I , T ) ] \\ & + \mathbb { E } _ { I , z } [ \log D ( I , G ( T , z ) ) ] \end{aligned}

其中的z是隨機噪聲向量,TI是觀察文本和圖像的embeddings。

單獨優(yōu)化\mathcal { L } _ { t c G A N }缺少類間的區(qū)分度,向\mathcal { L } _ { t c G A N }中增加一個class-discriminative項\mathcal { L } _ { \text { class } },被定義為:

\mathcal { L } _ { \text {class} } ( D ) = \mathbb { E } [ P ( C = c | I ) ]

c是類標簽。另外,令:

\mathcal { L } _ { c l a s s } ( D ) = \mathcal { L } _ { c l a s s } ( G )

引出兩個損失項:

\mathcal { L } ( D ) = \mathcal { L } _ { t c G A N } ( G , D ) + \mathcal { L } _ { \text {class} } ( D )

\mathcal { L } ( G ) = \mathcal { L } _ { t c G A N } ( G ) - \mathcal { L } _ { c l a s s } ( G )

通過優(yōu)化得到D^*G^*。

Self-paced Sample Selection

通過訓(xùn)練G*能夠生成足夠多的樣本,我們需要從生成的樣本庫中挑選足夠的樣本,以便于細粒度Few-shot能夠構(gòu)建更好的分類器。選擇生成器和鑒別器最有信心的樣本。就是使用鑒別器D計算的分數(shù)并對分數(shù)進行排序,得到最好的樣本(如上圖所示)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 題目 Inferring Semantic Layout for Hierarchical Text-to-Ima...
    曉智AI閱讀 855評論 0 0
  • 轉(zhuǎn)載請注明作者:夢里茶 目錄 機器學(xué)習(xí)與跨媒體智能傳統(tǒng)方法與深度學(xué)習(xí)圖像分割小數(shù)據(jù)集下的深度學(xué)習(xí)語音前沿技術(shù)生成模...
    夢里茶閱讀 1,994評論 0 3
  • 前段時間,做了一次神棍,賣弄了一把。 八字五行,往上說是占星術(shù),往下說是算命術(shù),有些迷信的意思,以至于姜直接喊我神...
    聽禪落雪閱讀 756評論 2 3
  • 這個學(xué)期快要結(jié)束了下面就來談一談我收獲了什么? 在學(xué)習(xí)方面,學(xué)到了很多知識,學(xué)到了好的學(xué)習(xí)方法。知...
    劉子城閱讀 813評論 0 0
  • 如果我說“狗”、“海龜”、“7月下跌的股票價格”、“那座印第安建筑風(fēng)格的石灰石正面”,你可能會猜測我在試圖把不同的...
    胡義華閱讀 354評論 0 1

友情鏈接更多精彩內(nèi)容