前幾天英偉達(dá)開源了DG-Net的源碼。讓我們來回顧一下這篇CVPR19 Oral的論文。
論文是英偉達(dá)(NVIDIA), 悉尼科技大學(xué)(UTS), 澳大利亞國立大學(xué)(ANU)的研究人員 在CVPR19上口頭報告的文章《 Joint Discriminative and Generative Learning for Person Re-identification》。 深度學(xué)習(xí)模型訓(xùn)練時往往需要大量的標(biāo)注數(shù)據(jù),但收集和標(biāo)注大量的數(shù)據(jù)往往比較困難。作者在行人重識別這個任務(wù)上探索了 利用生成數(shù)據(jù)來輔助訓(xùn)練的方法。通過生成高質(zhì)量的行人圖像,將其與行人重識別模型融合,同時提升行人生成的質(zhì)量和行人重識別的精度。
論文鏈接:https://arxiv.org/abs/1904.07223
B 站視頻:?https://www.bilibili.com/video/av51439240/
騰訊視頻:?https://v.qq.com/x/page/t0867x53ady.html
代碼:https://github.com/NVlabs/DG-Net

Why: (之前論文的痛點有哪些?)
生成高質(zhì)量的行人圖像有一定難度。之前一些工作生成的行人圖像質(zhì)量相對低(如上圖)。主要體現(xiàn)在兩個方面:1.生成的真實度:行人不夠真實, 圖像模糊, 背景不真實; 2. 需要額外的標(biāo)注來輔助生成:需要額外的人體骨架或者屬性標(biāo)注。
若使用這些低質(zhì)量的行人生成圖像來訓(xùn)練行人重識別模型,會引入與原始數(shù)據(jù)集之間的差異(bias)。故之前的工作,要么僅僅把所有生成的行人圖像看成outlier來正則網(wǎng)絡(luò); 要么額外- 訓(xùn)練一個生成圖像的模型,和原始模型做融合; 要么就是完全不用生成的圖像去訓(xùn)練。
同時,由于數(shù)據(jù)集的標(biāo)注難度,行人重識別的訓(xùn)練集(如Market和DukeMTMC-reID)數(shù)據(jù)量一般在2W左右,遠(yuǎn)小于ImageNet等數(shù)據(jù)集,容易過擬合的問題也一直沒有很好解決。
What: (這篇論文提出了什么,解決了什么問題)
不需要額外標(biāo)注(如姿態(tài)pose,屬性attribute,關(guān)鍵點keypoints等),就能生成高質(zhì)量行人圖像。通過交換提取出的特征,來實現(xiàn)兩張行人圖像的外表互換。這些外表都是訓(xùn)練集中真實存在的變化,而不是隨機(jī)噪聲。

不需要部件匹配來提升行人重識別的結(jié)果。僅僅是讓模型看更多訓(xùn)練樣本就可以提升模型的效果。給定N張圖像,我們首先生成了NxN的訓(xùn)練圖像,用這些圖像來訓(xùn)練行人重識別模型。(下圖第一行和第一列為真實圖像輸入,其余都為生成圖像)
訓(xùn)練中存在一個循環(huán): 生成圖像喂給行人重識別模型來學(xué)習(xí)好的行人特征,而行人重識別模型提取出來的特征也會再喂給生成模型來提升生成圖像的質(zhì)量。
How:(這篇文章是怎么達(dá)到這個目標(biāo))
特征的定義:
在本文中,我們首先定義了兩種特征。一種為外表特征,一種為結(jié)構(gòu)特征。外表特征與行人的ID相關(guān),結(jié)構(gòu)特征與low-level的視覺特征相關(guān)。

生成的部分:
同ID重構(gòu):相同人不同照片的appearance code應(yīng)該是相同的。如下圖,
我們可以有一個自我重構(gòu)的loss(上方,類似auto-encoder),還可以用同ID的postive sample來構(gòu)建生成圖像。這里我們用了pixel-level的L1 Loss。

不同ID生成:
這是最關(guān)鍵的部分。給定兩張輸入圖像,我們可以交換他們的appearance 和 structure code來生成有意思的兩個輸出,如下圖。對應(yīng)的損失有: 維持真實性的GAN Loss, 生成圖像還能重構(gòu)出對應(yīng)的a/s的特征重構(gòu)損失。
我們的網(wǎng)絡(luò)中沒有隨機(jī)的部分,所以生成圖像的變化都是來自訓(xùn)練集本身。故更接近原始的訓(xùn)練集。

reID的部分:
對于真實圖像,我們?nèi)耘f使用分類的cross entropy loss。
對于生成圖像,我們使用了兩個loss,一個為L_{prime},通過訓(xùn)好的baseline模型當(dāng)老師,來提供生成圖像的soft label,最小化預(yù)測結(jié)果和老師模型的KL距離。另一個loss,來挖掘一些圖像變了appearance后,仍保留的細(xì)節(jié)信息,為L_{fine}。(具體細(xì)節(jié)可以見論文。)

Results:
定性指標(biāo):
外表互換,我們在三個數(shù)據(jù)集上測試了結(jié)果,可以看到對于遮擋/大的光照變化,我們的方法都相對魯棒。

外表插值。網(wǎng)絡(luò)是不是記住了生成圖像的樣子。故我們做了一個逐漸改變appearance的實驗,可以看到外表是逐漸并且smooth地改變的。

失敗的案例。不常見的圖案如logo無法還原。

定量指標(biāo):
生成圖像的真實度(FID)和多樣性(SSIM)比較。FID越小越好,SSIM越大越好。

在多個數(shù)據(jù)集上的reID結(jié)果 (Market-1501, DukeMTMC-reID, MSMT17, CUHK03-NP)。
附:視頻Demo
B 站視頻備份:?https://www.bilibili.com/video/av51439240/
騰訊視頻備份:?https://v.qq.com/x/page/t0867x53ady.html
最后,感謝大家看完。因為我們也處在初步嘗試和探索階段,所以不可避免地會對一些問題思考不夠全面。如果大家發(fā)現(xiàn)有不清楚的地方,歡迎提出寶貴意見并與我們一起討論,謝謝!
參考文獻(xiàn)
[1] Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. ICCV, 2017.
[2] Y. Huang, J. Xu, Q. Wu, Z. Zheng, Z. Zhang, and J. Zhang. Multi-pseudo regularized label for generated samples in person reidentification. TIP, 2018.
[3] X. Qian, Y. Fu, T. Xiang, W. Wang, J. Qiu, Y. Wu, Y.-G. Jiang, and X. Xue. Pose-normalized image generation for person reidentification. ECCV, 2018.
[4] Y. Ge, Z. Li, H. Zhao, G. Yin, X. Wang, and H. Li. Fd-gan: Pose-guided feature distilling gan for robust person re-identification. In NIPS, 2018.
作者簡介
本文的第一作者鄭哲東是悉尼科技大學(xué)計算機(jī)科學(xué)學(xué)院的博士生,預(yù)計2021年 6 月畢業(yè)。該論文是其在英偉達(dá)實習(xí)期間的成果。
鄭哲東目前已經(jīng)發(fā)表8篇論文。其中一篇為ICCV17 spotlight,被引用超過了300次。首次提出了利用GAN生成的圖像輔助行人重識別的特征學(xué)習(xí)。一篇TOMM期刊論文被Web of Science選為2018年高被引論文,被引用超過200次。同時,他還為社區(qū)貢獻(xiàn)了行人重識別問題的基準(zhǔn)代碼,在Github上star超過了1000次,被廣泛采用。
另外,論文的其他作者包括英偉達(dá)研究院的視頻領(lǐng)域?qū)<?- 楊曉東、人臉領(lǐng)域?qū)<矣碇Γ⊿phere Face,LargeMargin作者)、行人重識別專家鄭良博士,鄭哲東的導(dǎo)師楊易教授(今年有三篇 CVPR oral 中稿)、和英偉達(dá)研究院的VP Jan Kautz等。
鄭哲東個人網(wǎng)站:http://zdzheng.xyz/