論文學習:Viewpoint-aware Attentive Multi-view Inference for Vehicle Re-identification

整體框架

本文主要有三個貢獻點:

  1. 通過視角感知(viewpoint-aware)的注意力模型,獲取多個視角的注意力映射(attention map)
  2. 通過GANs機制,通過單視角特征和注意力映射生成多視角特征
  3. 設計一種度量方式,拉近同id的圖片之間的空間距離,推遠不同id的圖片之間的空間距離

整體框架圖如下所示:


整體框架

本文簡要介紹注意力模型(attention model) 和 多視角生成網絡(multi-view generative network)

Viewpoint-aware attention model Mechanism

本文采用注意力模型,將網絡模型的注意力集中到圖片所含視角和目標視角的“交集”。


注意力模型

Attention map(即一個用來指示注意力區(qū)域的mask)由一個上下文向量(context text)產生的,而這個上下文向量在一組標簽的弱監(jiān)督下訓練而來,標簽共有三個維度,分別表示前、側、后三個方位。

論文中將輸入圖像劃分成N個區(qū)域,\{u_1, u_2, \dots, u_N\},其中u_i是256維的向量。

在step t,可以用如下公式得到針對某特定區(qū)域的上下文向量


上下文向量

Attention函數(shù)的具體公式如下所示。三個參數(shù)分別是上一個step的上下文向量、輸入圖像、和五個中央視點向量(central viewpoint features)中代表所需方向的一個。
注意力權重(attention weights)\{a_n^t\}_{n=1}^N通過下方第二個公式得到

attention函數(shù)

上下文向量的初始化方式如下:


初始化

attention model最終目的是生成其它視角下的feature。輸入圖片自帶視角的特征由分類網絡FConv4特征提取,剩下的幾個視角則由attention map \{a_v\}_{v=1}^V做mask運算而來。

疑點:具體實現(xiàn)中,是如何將256維的 c^t和3維的標簽關聯(lián)起來計算loss的?通過將c^t連接一個輸出為3維的全連接層來預測概率?

Adversarial Multi-view Feature Learning

文中從GANs的思路中受到啟發(fā),用生成/對抗的方式將單視角的特征轉化為多視角特征。

  • 文中采用了兩個生成器,G_f的輸入是單視角圖像的注意力特征(attention feature), 而G_r的輸入是和G_f同一ID的、不同視角的真實圖片的特征。

  • 生成器G_f的目標不是令判別器的輸出最大化,而是令單視角數(shù)據(jù)在判別器D第四層的特征具有和多視角數(shù)據(jù)的同一層特征具有相同的統(tǒng)計分布。(這一點從下圖中的loss計算公式中可以看出)

Rather than maximizing the out- put of the discriminator for generated data, the objective of feature matching is employed to optimize Gf to match the statistics of features in an intermediate layer of D.

loss公式如下所示:


屏幕快照 2018-06-30 下午10.04.00.png

疑點:文中似乎沒交代,D的判別概率是從哪來的。是2048維向量后面連了一個全連接層?L_{Advers}第一行中,D的輸出可是被送入了log函數(shù)。

Optimization

這一段主要講訓練步驟

  1. 用分類網絡F提取車輛特征
  2. 用K近鄰將車輛特征按照視角聚成五類,訓練注意力模型。
  3. G_rD聯(lián)合訓練(注:G_rG_f必須分開訓練,否則會因為特征分布差異過大而難以收斂)
  4. G_fD聯(lián)合訓練
  5. 引用L_{Reid}聯(lián)合訓練整個網絡,FG_r除外。

當前只看到了方法部分,正準備看實驗部分。之前沒有接觸過attention機制,對自己文中的中文翻譯感到惶惶不安,所以該附英文原詞的都附上了,希望不會帶來閱讀障礙。

感想

第一次寫技術博客,寫于第二次讀這篇論文的過程中。動筆寫一寫,發(fā)現(xiàn)了自己很多的弱點,比如對英文專業(yè)名詞中文翻譯的準確度還不夠;平時讀論文總是習慣性地淺嘗輒止,也導致對算法的語言表達能力不足。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容