1. Semi-Supervised Learning
Semi-Supervised Learning(半監(jiān)督學(xué)習(xí))是監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的一種結(jié)合方法。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù),以及同時(shí)使用標(biāo)記數(shù)據(jù),來(lái)進(jìn)行模式識(shí)別工作。
2. Pseudo-Label
產(chǎn)生偽標(biāo)簽的步驟非常簡(jiǎn)單,可以用如下步驟概括:
Step1: 給定帶標(biāo)簽數(shù)據(jù)和不帶標(biāo)簽的數(shù)據(jù)
Step2: 使用帶標(biāo)簽數(shù)據(jù)訓(xùn)練模型
Step3: 使用訓(xùn)練好的模型預(yù)測(cè)沒有標(biāo)簽的數(shù)據(jù),得到Pseudo-label(偽標(biāo)簽)
Step4:從不帶標(biāo)簽的數(shù)據(jù)中拿出一部分?jǐn)?shù)據(jù)加入到帶標(biāo)簽數(shù)據(jù)集中。重復(fù)Step2
3. Entropy-based Regularization
對(duì)于分類模型,我們當(dāng)然期望輸出的某一個(gè)類別擁有很大的置信度,其它的類別置信度很小,這樣表明該模型對(duì)預(yù)測(cè)結(jié)果很有信心。

在數(shù)學(xué)中,我們可以用熵來(lái)度量該模型對(duì)輸出結(jié)果有沒有信心。有關(guān)熵的介紹可以參考之前的一篇博客:什么是熵,如何計(jì)算?。
若
若
可以看到,當(dāng)模型對(duì)某一預(yù)測(cè)結(jié)果置信度越高,熵越小。對(duì)于預(yù)測(cè)模型,我們自然希望它的熵越小越好。
所以,我們可以在損失函數(shù)上加上熵正則項(xiàng):

4. Why could Pseudo-Label work?
那么偽標(biāo)簽為何能夠用于半監(jiān)督模型呢,論文 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks給出了兩點(diǎn)解釋:
- 半監(jiān)督學(xué)習(xí)的目的是為了使用無(wú)標(biāo)簽數(shù)據(jù)增強(qiáng)模型的泛化性。而cluster assumption表明,決策邊界位于低密度區(qū)域(low-density regions)能夠提高模型的泛化性。而高密度區(qū)域的結(jié)果應(yīng)該具有相似的輸出結(jié)果。而偽標(biāo)簽就是取最高概率的作為偽標(biāo)簽;
- 熵正則通過最小化未標(biāo)記數(shù)據(jù)的類概率的條件熵,促進(jìn)了類之間的低密度分離,而無(wú)需對(duì)密度進(jìn)行任何建模,通過熵正則化與偽標(biāo)簽具有相同的作用效果,都是希望利用未標(biāo)簽數(shù)據(jù)的分布的重疊程度的信息。