Paper Reading | From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation

原文鏈接:https://openaccess.thecvf.com/content/CVPR2021/html/Li_From_Synthetic_to_Real_Unsupervised_Domain_Adaptation_for_Animal_Pose_CVPR_2021_paper.html

這篇paper來自CVPR2021,針對動物的姿態(tài)估計來做跨域的遷移學習。
(PS:文章不是直譯,部分地方加入筆者自己的理解,有錯誤煩請指出共同學習~)

1 Introduction

動物姿態(tài)估計是近年來越來越受到關注的一個重要領域。(感覺蠻新穎的,之前看到過的工作都是人體的姿態(tài)估計) 這項任務的主要挑戰(zhàn)是缺乏標記數(shù)據(jù),個人認為這也是遷移學習要解決的一個主要問題?,F(xiàn)有的工作的基本方法都是利用源域數(shù)據(jù)來生成一個pseudo label(偽標簽)來解決這個問題。但是問題在于,即便使用了consistency check策略或者基于confidence值的過濾方法,這個pseudo label也很有可能是noisy的,會對后面的任務產(chǎn)生影響。所以文章提出一種多尺度的域自適應模塊(MDAM),以減少合成數(shù)據(jù)和真實數(shù)據(jù)之間的域的差距,基于這個pipeline,文章的貢獻我認為主要在于對這個pseudo label的更新,文章稱之為在線粗到細的標簽更新策略(online coarse-to-fine label updating strategy)。具體來講,在coarse更新循環(huán)中引入自蒸餾(self-distillation)模塊,在fine更新循環(huán)中引入mean-teacher模塊,生成新的偽標簽,逐步取代舊的偽標簽。就是逐步的更新這個pseudo label,使整個方法的效果更好。文章在TigDog和VisDA2019數(shù)據(jù)集上評估了方法,并有大幅度改進。文章還通過對unseen的領域和動物類別進行泛化性測試,證明了我們的模型的泛化能力。

我們根據(jù)深度網(wǎng)絡的記憶效應(memorization effect)[3,42]設計了偽標簽更新策略,即深度網(wǎng)絡在早期從干凈的樣本學習,然后最終記憶(即overfit)嘈雜的樣本。(這里不知道是不是過擬合的相同說法?感覺文章的偽標簽更新能夠提升效果也是在一定程度上在解決網(wǎng)絡過擬合的問題。)為了避免記憶效應,我們在自蒸餾模塊和mean-teacher訓練還處于初級階段時,更多地依賴于初始的偽標簽。當自蒸餾模塊和mean-teacher獲得了足夠的能力來生成更可靠的偽標簽時,我們的粗到細的偽標簽更新策略逐漸取代了有噪聲的初始標簽。

可以通過這種更新策略,解決圖中馬的后蹄預測不準的情況。

2 相關工作

Human Pose Estimation

不展開了,這篇文章的任務也是類似的,只不過人變成動物了。

Animal Pose Estimation

和人體數(shù)據(jù)的不同之處就是數(shù)據(jù)的欠缺。Mu等人[23]使用從CAD模型生成的合成動物數(shù)據(jù)來訓練他們的模型,然后用于為未標記的真實動物圖像生成偽標簽。隨后,基于三個一致性檢驗標準,逐步將生成的偽標簽納入訓練中。Cao等人[6]提出了一種跨域自適應方案來學習人類和動物圖像之間的共享特征空間,這樣他們的網(wǎng)絡就可以從現(xiàn)有的人類姿態(tài)數(shù)據(jù)集中學習。他們還根據(jù)置信度分數(shù)在訓練中選擇偽標簽?!靖杏X這篇也是結合這兩篇文章來做改進】

此外,還有一些作品主要關注三維動物的姿勢和形狀估計[48、47、46、5、18、4、48]通過玩具動物掃描學習建立一個統(tǒng)計三維形狀模型SMAL,為了恢復更詳細的動物的三維形狀,[47]從Smal中規(guī)范了網(wǎng)格的變形,以約束最終的形狀。[46]在一個數(shù)字生成的數(shù)據(jù)集上訓練一個神經(jīng)網(wǎng)絡,以預測Smal模型的三維姿態(tài)、形狀和紋理。

Unsupervised Domain Adaptation

無監(jiān)督域適應的目標是從標記源域?qū)W習在未標記目標域上表現(xiàn)良好的模型。一種主流的方法是基于對抗學習[11,16,33,36],其中特征提取器試圖學習域不變的特征,以fool domain識別器。與對抗性學習的alignment可以促進標簽從源域轉移到目標領域。除了特征級對齊,其他工作還嘗試減少輸入[16]或輸出級別[32,40]的域位移(domain shift)。在這項工作中,我們將一個域分類器應用到多個尺度的特征映射中,這樣全局特征和局部特征都可以對齊。

Learning from Noisy Data

從噪聲標簽中學習是一個重要的研究課題,特別是對深度學習來說。這是因為深度學習算法嚴重依賴于收集成本昂貴的大規(guī)模標記訓練數(shù)據(jù)。
方法:

  • 為了減少噪聲標簽的負面影響,一些方法集中通過設計魯棒損失[12,34,44]或用transition matrix[27,13,37]校正損失來訓練噪聲魯棒模型。
  • 基于樣本選擇的方法[22,17,14,41]嘗試在每次迭代中選擇可能干凈的樣本進行訓練。最具代表性的方法之一是Co-Teaching聯(lián)合教學[14,41],它在開始時對所有樣本進行訓練,并逐漸丟棄具有較大損失值的樣本。

這種基于深度網(wǎng)絡的記憶效應[3,42],也采用了其他作品[17,30]來選擇更可靠的標簽。給定有噪聲的偽標簽,我們也進行了類似于聯(lián)合教學的樣本選擇。此外,我們利用自蒸餾模塊和教師網(wǎng)絡的知識逐步更新偽標簽。

3 Method

我們提出了一種無監(jiān)督的域自適應方法的動物姿態(tài)估計。標記源域S由合成動物圖像Is和CAD模型生成的相應姿態(tài)標簽YS組成,未標記目標域T由無姿態(tài)標簽的野生動物圖像組成。其目標是學習一個能夠很好地適應未標記目標域的姿態(tài)估計模型。

Pipeline

3.1. Multi-scale Domain Adaptation Module

MDAM模塊由兩部分組成,一個是姿態(tài)估計,一個是域分類器D。

  • 姿態(tài)估計:


Animal pose estimation loss in the source domain:


在關節(jié)點級別上計算源域上heatmap的loss

在目標域上,使用偽標簽Ht計算loss:


目標域上的loss計算,由于缺少標簽,所以使用偽標簽。

這些偽標簽?HT及其相應的置信分數(shù)CT是由我們的姿態(tài)估計模塊根據(jù)[23]的訓練過程在源域數(shù)據(jù)上預訓練后生成的。

又設計了一個交叉熵損失,用于計算分類效果:


image.png

對抗學習就是特征提取器試圖通過最大化Ld來欺騙域分類器。


image.png

...

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容