Hinton的Distillation研究了如何利用一個(gè)復(fù)雜網(wǎng)絡(luò)來(lái)訓(xùn)練簡(jiǎn)單網(wǎng)絡(luò),但是訓(xùn)練出來(lái)的簡(jiǎn)單網(wǎng)絡(luò)性能只能逼近復(fù)雜網(wǎng)絡(luò)。而這篇文章則提出了一個(gè)相反的思路:利用簡(jiǎn)單網(wǎng)絡(luò)來(lái)幫助訓(xùn)練簡(jiǎn)單網(wǎng)絡(luò),從而提升網(wǎng)絡(luò)的性能。
Dark knowledge for complex model training
軟標(biāo)簽有兩個(gè)優(yōu)勢(shì):
- 為模型訓(xùn)練提供了更多的有效信息,而不僅僅是絕對(duì)的硬標(biāo)簽。
- 軟標(biāo)簽?zāi):祟?lèi)之間的決策邊界,提供了更為平滑的訓(xùn)練,使得訓(xùn)練更加可靠。也就是說(shuō),如果能夠很好地學(xué)習(xí)teacher模型的話(huà),那么訓(xùn)練的方差將為0,這使得訓(xùn)練更加有效可靠。
Regularization view
同時(shí)利用硬標(biāo)簽和軟標(biāo)簽進(jìn)行預(yù)測(cè),可以看成是一種正則化的方法。

Pre-training view
除了上面的正則化方法,我們可以先采用軟標(biāo)簽對(duì)模型進(jìn)行訓(xùn)練,然后再利用硬標(biāo)簽進(jìn)行微調(diào)。由于軟標(biāo)簽?zāi)軌蛱峁┛煽康挠?xùn)練,所以用來(lái)作為初始化。然而,軟標(biāo)簽所提供的信息并沒(méi)有足夠的區(qū)分度,也就是噪聲很大,所以采用硬標(biāo)簽進(jìn)行微調(diào)更為有效。
這種預(yù)訓(xùn)練方法有三個(gè)優(yōu)勢(shì):
- 是完全的監(jiān)督學(xué)習(xí),更加任務(wù)導(dǎo)向。
- 這種方法將整個(gè)復(fù)雜網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,而不需要一層層的進(jìn)行,更加快速有效。
- 可以用于預(yù)訓(xùn)練任何復(fù)雜網(wǎng)絡(luò),即使是一個(gè)像RNN這樣的網(wǎng)絡(luò)。
EXPERIMENTS
從實(shí)驗(yàn)結(jié)果中可以看到,采用預(yù)訓(xùn)練的方法得到的模型更加魯棒。
