Pseudo-Label偽標(biāo)簽

1. Semi-Supervised Learning

Semi-Supervised Learning(半監(jiān)督學(xué)習(xí))是監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的一種結(jié)合方法。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù),以及同時(shí)使用標(biāo)記數(shù)據(jù),來(lái)進(jìn)行模式識(shí)別工作。

2. Pseudo-Label

產(chǎn)生偽標(biāo)簽的步驟非常簡(jiǎn)單,可以用如下步驟概括:
Step1: 給定帶標(biāo)簽數(shù)據(jù)和不帶標(biāo)簽的數(shù)據(jù)
Step2: 使用帶標(biāo)簽數(shù)據(jù)訓(xùn)練模型
Step3: 使用訓(xùn)練好的模型預(yù)測(cè)沒有標(biāo)簽的數(shù)據(jù),得到Pseudo-label(偽標(biāo)簽)
Step4:從不帶標(biāo)簽的數(shù)據(jù)中拿出一部分?jǐn)?shù)據(jù)加入到帶標(biāo)簽數(shù)據(jù)集中。重復(fù)Step2

3. Entropy-based Regularization

對(duì)于分類模型,我們當(dāng)然期望輸出的某一個(gè)類別擁有很大的置信度,其它的類別置信度很小,這樣表明該模型對(duì)預(yù)測(cè)結(jié)果很有信心。


在數(shù)學(xué)中,我們可以用熵來(lái)度量該模型對(duì)輸出結(jié)果有沒有信心。有關(guān)熵的介紹可以參考之前的一篇博客:什么是熵,如何計(jì)算?。
y^{u}的熵:E(y^{u})=-\sum_{m=1}^{5}y_{m}^{u}\ln y_{m}^{u}
y^{u}的預(yù)測(cè)結(jié)果是[1,0,0,0,0],則E(y^{u})=0;
y^{u}的預(yù)測(cè)結(jié)果是[0.2,0.2,0.2,0.2,0.2],則$E(y^{u})=\ln 5。
可以看到,當(dāng)模型對(duì)某一預(yù)測(cè)結(jié)果置信度越高,熵越小。對(duì)于預(yù)測(cè)模型,我們自然希望它的熵越小越好。

所以,我們可以在損失函數(shù)上加上熵正則項(xiàng):


4. Why could Pseudo-Label work?

那么偽標(biāo)簽為何能夠用于半監(jiān)督模型呢,論文 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks給出了兩點(diǎn)解釋:

  1. 半監(jiān)督學(xué)習(xí)的目的是為了使用無(wú)標(biāo)簽數(shù)據(jù)增強(qiáng)模型的泛化性。而cluster assumption表明,決策邊界位于低密度區(qū)域(low-density regions)能夠提高模型的泛化性。而高密度區(qū)域的結(jié)果應(yīng)該具有相似的輸出結(jié)果。而偽標(biāo)簽就是取最高概率的作為偽標(biāo)簽;
  2. 熵正則通過最小化未標(biāo)記數(shù)據(jù)的類概率的條件熵,促進(jìn)了類之間的低密度分離,而無(wú)需對(duì)密度進(jìn)行任何建模,通過熵正則化與偽標(biāo)簽具有相同的作用效果,都是希望利用未標(biāo)簽數(shù)據(jù)的分布的重疊程度的信息。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容