論文閱讀"PiCO: contrastive label disambiguation for partial label learning"

Wang H, Xiao R, Li Y, et al. PiCO: Contrastive Label Disambiguation for Partial Label Learning[J]. arXiv preprint arXiv:2201.08984, 2022.

摘要翻譯

在這項工作中,作者通過在一個連貫的框架中解決PLL中的兩個關鍵研究挑戰(zhàn)——表示學習和標簽消歧——來彌補這一差距。具體來說,所提出的框架PiCO由一個對比學習模塊和一個新的基于類簇原型的標簽消歧算法組成。PiCO為來自相同類簇的樣本示例生成緊密對齊的表示,并便于標簽消除歧義。

任務背景介紹
任務數(shù)據(jù)說明

該論文主要研究的是partial label learning(PLL)問題。該問題可以定義為如下:首先給定\mathscr{X}為輸入空間, \mathscr{Y}為輸出標簽空間??紤]如下的訓練數(shù)據(jù)集\mathscr{D}=\{(x_i,Y_i)\}_{i=1}^n,每一個元組由一張圖片x_i \in \mathscr{X}和一個候選的標簽集合Y_i \in \mathscr{Y}組成。依照監(jiān)督學習任務的設定來講,PLL的目標是通過關聯(lián)樣本來學習一個可以預測正確標簽的映射函數(shù)。二者之間的不同點是,PLL的建立可以容忍標簽空間的不確定性。PLL任務的基礎假設是輸入樣本x_i所對應的真實標簽y_i是隱藏在其候選標簽集合Y_i中的,但在學習過程中該標簽不可見。正是因為這個原因,相較于監(jiān)督學習任務中給定正確標簽而言,PLL在學習中容易受到固有歧義的影響。

可以看出,PLL任務中最關鍵的問題在于如何從給定的候選標簽集合中識別出真實標簽。在訓練中,為每個輸入圖片x_i分配一個標準化向量s_i \in [0,1]^C作為偽目標,向量中的每個元素表示每個標簽可能是真實標簽的概率。為Y_i中每個標簽分配的概率之和為1。該s_i將會在訓練的過程中進行更新。理想情況下,s_i 應該在訓練過程中將更大的概率放在(未知的)真實標簽 y_i 上。在訓練中,以s_i為目標,用交叉熵損失來訓練分類器f

由此,每個樣本的損失由以下形式給出:
其中,j代表著標簽的下標。s_{i,j}為輸入x_i的第j個標簽。這里的映射學習f是網(wǎng)絡經(jīng)由softmax的輸出,并將f^j作為它的第j個entry。

模型淺析

對于PLL任務,主要包含表示和標簽學習兩個關鍵問題,當然這兩個問題是可以進行同時優(yōu)化的。

  • 表示學習
    標簽空間中的不確定性使得學習有效表示遇到了障礙。在PiCO模型中,作者在等式中的分類損失(1)中結合了一個對比學習的損失項,促進了在嵌入空間中的聚類效果。作者指出,將對比學習運用到PLL中,最大的挑戰(zhàn)在于正例樣本集合的構建。
    (1)訓練目標。關于對比損失項,作者采用的是MoCo和SupCon中標準的對比損失。對于給定的樣本(x,Y),首先通過隨機的數(shù)據(jù)增強函數(shù)Aug(x)產(chǎn)生了兩個視圖--query視圖和key視圖。然后兩張圖片分別被喂入query網(wǎng)絡g(\cdot)和key網(wǎng)絡g'(\cdot),返回一對由L_2標準化的嵌入表示q=g(Aug_q(x))k=g'(Aug_k(x))。與Moco中設置一致,key網(wǎng)絡由query動量更新。此外,作者還維護了一個存儲最新key嵌入k的隊列,并且按照時間序列更新該隊列。至此,作者給出了可以用于對比學習的embedding池:

    因此,給定一個樣本x,該樣本的對比損失可以由其query嵌入和對比嵌入池中的其他部分定義:
    其中,P(x)為正例集合,A(x)=A 除去{q}之外的元素形成的集合。
    (2)正例集合的選取。作者建議使用分類器的預測標簽\tilde{y}=argmax_{j \in Y}f^j(Aug_q(x))。并且將預測的標簽嚴格限制在候選標簽集合Y中。因此正例滿足
    \tilde{y}'是訓練樣本k'對應的預測標簽。為了提高計算效率,作者還維護了一個標簽隊列來存儲過去的預測值。換句話說,作者將x的正例集合定義為那些攜帶相同的近似標簽預測\tilde{y}的樣本。
    至此就可以聯(lián)合訓練分類器和對比學習的網(wǎng)絡。總體的損失函數(shù)如下:

    在這種結構下,模型可以通過CL學習高質量表示的目標依賴于準確的分類器預測的正例集合選擇,這使得在存在標簽歧義的情況下,問題仍然沒有得到解決。

  • 基于原型的標簽消歧技術
    為了更好的解決樣本表示依賴于正例選擇的問題,作者以一種協(xié)同算法的形式引入了基于原型的標簽消歧策略。作者提出了原型嵌入(prototype embedding)向量\mu_c,該向量和每個類簇c \in \{1,2,3,..,C\}對應。利用聚類的思想,關于偽標簽的分配,一個簡單的版本是找到當前嵌入向量的最近的原型嵌入。此外,作者還通過使用移動平均樣式公式來軟化這個硬標簽分配版本。在這種前提下,可以直觀的假設原型的應用通過對比項在嵌入空間中建立了和聚類之間的關聯(lián)性。
    (1)偽標簽的更新。首先作者使用均勻分布初始化偽標簽:

    之后通過平均移動的機制來對其進行迭代更新
    其中,\phi \in (0,1),\mu_j是第j的類簇對應的原型嵌入。使用移動平均策略,可以平穩(wěn)地將偽目標更新到正確的目標,同時確保穩(wěn)定的訓練動態(tài)。
    (2)原型的更新。
    更新原型嵌入的最典型的方法是在訓練的每次迭代中計算它。然而,這將產(chǎn)生巨大的計算代價,進而導致難以忍受的訓練延遲。因此,作者提出同樣以移動平均的方式更新class-conditional原型向量:
    其中,類簇c的動量原型嵌入\mu_c由預測類簇符合c的歸一化query嵌入q的移動平均值定義。\gamma是用于平衡的超參數(shù)。

  • 協(xié)同解釋
    首先,由于對比項有利地表現(xiàn)出嵌入空間中的聚類效應,標簽消歧模塊通過設置更精確的原型進一步利用。其次,一組優(yōu)化的標簽消歧結果可能反過來回報正例集合的構造,這是對比學習階段的關鍵部分。


PLL任務感覺讓人很容易接受。并且在模型的構造上,雖然沒有很明顯的使用聚類的方法,但是利用對比學習捕獲聚類友好的嵌入空間表示,并且在偽標簽的更新中使用了計算當前樣本嵌入q和類簇原型嵌入表示\mu_j之間的相似性來更新偽標簽,無疑中也使用了聚類中計算樣本表示和類簇中心表示的思想。巧妙的通過這種聯(lián)系,建立起樣本和標簽之間的關聯(lián)性,為PLL任務提供了很好的思路。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容