整體框架
本文主要有三個貢獻點:
- 通過視角感知(viewpoint-aware)的注意力模型,獲取多個視角的注意力映射(attention map)
- 通過GANs機制,通過單視角特征和注意力映射生成多視角特征
- 設計一種度量方式,拉近同id的圖片之間的空間距離,推遠不同id的圖片之間的空間距離
整體框架圖如下所示:

本文簡要介紹注意力模型(attention model) 和 多視角生成網絡(multi-view generative network)
Viewpoint-aware attention model Mechanism
本文采用注意力模型,將網絡模型的注意力集中到圖片所含視角和目標視角的“交集”。

Attention map(即一個用來指示注意力區(qū)域的mask)由一個上下文向量(context text)產生的,而這個上下文向量在一組標簽的弱監(jiān)督下訓練而來,標簽共有三個維度,分別表示前、側、后三個方位。
論文中將輸入圖像劃分成N個區(qū)域,\{u_1, u_2, \dots, u_N\},其中u_i是256維的向量。
在step t,可以用如下公式得到針對某特定區(qū)域的上下文向量

Attention函數(shù)的具體公式如下所示。三個參數(shù)分別是上一個step的上下文向量、輸入圖像、和五個中央視點向量(central viewpoint features)中代表所需方向的一個。
注意力權重(attention weights)\{a_n^t\}_{n=1}^N通過下方第二個公式得到

上下文向量的初始化方式如下:

attention model最終目的是生成其它視角下的feature。輸入圖片自帶視角的特征由分類網絡F的Conv4特征提取,剩下的幾個視角則由attention map \{a_v\}_{v=1}^V做mask運算而來。
疑點:具體實現(xiàn)中,是如何將256維的 c^t和3維的標簽關聯(lián)起來計算loss的?通過將c^t連接一個輸出為3維的全連接層來預測概率?
Adversarial Multi-view Feature Learning
文中從GANs的思路中受到啟發(fā),用生成/對抗的方式將單視角的特征轉化為多視角特征。
文中采用了兩個生成器,G_f的輸入是單視角圖像的注意力特征(attention feature), 而G_r的輸入是和G_f同一ID的、不同視角的真實圖片的特征。
生成器G_f的目標不是令判別器的輸出最大化,而是令單視角數(shù)據(jù)在判別器D第四層的特征具有和多視角數(shù)據(jù)的同一層特征具有相同的統(tǒng)計分布。(這一點從下圖中的loss計算公式中可以看出)
Rather than maximizing the out- put of the discriminator for generated data, the objective of feature matching is employed to optimize Gf to match the statistics of features in an intermediate layer of D.
loss公式如下所示:

疑點:文中似乎沒交代,D的判別概率是從哪來的。是2048維向量后面連了一個全連接層?L_{Advers}第一行中,D的輸出可是被送入了log函數(shù)。
Optimization
這一段主要講訓練步驟
- 用分類網絡F提取車輛特征
- 用K近鄰將車輛特征按照視角聚成五類,訓練注意力模型。
- G_r和D聯(lián)合訓練(注:G_r和G_f必須分開訓練,否則會因為特征分布差異過大而難以收斂)
- G_f和D聯(lián)合訓練
- 引用L_{Reid}聯(lián)合訓練整個網絡,F和G_r除外。
當前只看到了方法部分,正準備看實驗部分。之前沒有接觸過attention機制,對自己文中的中文翻譯感到惶惶不安,所以該附英文原詞的都附上了,希望不會帶來閱讀障礙。
感想
第一次寫技術博客,寫于第二次讀這篇論文的過程中。動筆寫一寫,發(fā)現(xiàn)了自己很多的弱點,比如對英文專業(yè)名詞中文翻譯的準確度還不夠;平時讀論文總是習慣性地淺嘗輒止,也導致對算法的語言表達能力不足。