姓名:張萌? ? ? ? ? 學(xué)號(hào)17021211113
轉(zhuǎn)自:
http://mp.weixin.qq.com/s/VSQEFD2fQVrjlJ-LNn0CGg
【嵌牛導(dǎo)讀】:有老師指導(dǎo)就能更好地學(xué)習(xí)嗎?對(duì)于深度神經(jīng)網(wǎng)絡(luò)是否也是如此?近日,谷歌和斯坦福大學(xué)的研究者在其論文中提出了一種用 MentorNet 監(jiān)督 StudentNet 進(jìn)行訓(xùn)練的新技術(shù)。這項(xiàng)研究的第一作者是谷歌云機(jī)器學(xué)習(xí)的研究科學(xué)家蔣路(Lu Jiang),另外李佳和李飛飛也參與了該研究。
【嵌牛鼻子】:深度神經(jīng)網(wǎng)絡(luò)
【嵌牛提問(wèn)】:如何讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲?
【嵌牛正文】:在目標(biāo)識(shí)別 [19, 15, 39] 和檢測(cè) [14] 等多種視覺(jué)任務(wù)上,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很大的成功。當(dāng)前最佳的深度網(wǎng)絡(luò)有數(shù)百層,而可訓(xùn)練的模型參數(shù)的數(shù)量更是遠(yuǎn)遠(yuǎn)超過(guò)了它們訓(xùn)練所用的樣本的數(shù)量。最近一項(xiàng)研究發(fā)現(xiàn)即使是在有損的標(biāo)簽上(其中部分或所有真實(shí)標(biāo)簽被隨機(jī)標(biāo)簽替換),深度網(wǎng)絡(luò)也能記憶整個(gè)數(shù)據(jù) [45]。正則化(regularization)是一種用于克服過(guò)擬合的有效方法。張弛原等人 [45] 通過(guò)實(shí)驗(yàn)表明:當(dāng)在有損的標(biāo)簽上訓(xùn)練時(shí),權(quán)重衰減、數(shù)據(jù)增強(qiáng) [20] 和 dropout [36] 等常用于神經(jīng)網(wǎng)絡(luò)的正則化算法(即模型正則化器(model regularizer))在提升深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的生成表現(xiàn)上的效果不佳;我們的研究也證實(shí)了這個(gè)觀察結(jié)果。深度 CNN 通常是在大規(guī)模數(shù)據(jù)上訓(xùn)練的,在這些數(shù)據(jù)上的標(biāo)注通常有很多噪聲 [1,11]。過(guò)擬合訓(xùn)練數(shù)據(jù)中的噪聲常常會(huì)讓模型的表現(xiàn)變得很差。

圖 1:已有的正則化方法和我們的正則化方法的圖示。每個(gè)點(diǎn)表示一個(gè)訓(xùn)練樣本,點(diǎn)的大小表示樣本權(quán)重。曲線表示學(xué)習(xí)到的模型。權(quán)重衰減等已有的正則化方法對(duì)深度 CNN 而言效果不佳。數(shù)據(jù)正則化是通過(guò)學(xué)習(xí)為樣本分配合適的權(quán)重來(lái)解決深度 CNN 的過(guò)擬合問(wèn)題。
由于模型參數(shù)數(shù)量龐大,所以正則化非常深度的 CNN 頗具挑戰(zhàn)性。為了解決這一難題,我們提出了一種在數(shù)據(jù)維(data dimension)中正則化深度 CNN 的全新技術(shù),我們稱之為數(shù)據(jù)正則化(data regularization)。我們的目標(biāo)是通過(guò)正則化在有損標(biāo)簽上訓(xùn)練的 CNN 來(lái)提升其在清潔測(cè)試數(shù)據(jù)上的泛化表現(xiàn)??梢员豢醋魇巧疃?CNN 的網(wǎng)絡(luò)有 Resnet [15] 和 Inception-resnet [39],它們有幾百層,而且參數(shù)的數(shù)量比訓(xùn)練樣本的數(shù)量多幾個(gè)數(shù)量級(jí)。具體來(lái)說(shuō),我們提出為用于訓(xùn)練該分類網(wǎng)絡(luò)(即 StudentNet)的每個(gè)樣本學(xué)習(xí)隨時(shí)間變化的權(quán)重。我們引入了一種 MentorNet 來(lái)監(jiān)督該 StudentNet 的訓(xùn)練。如圖 1 所示,在訓(xùn)練過(guò)程中,MentorNet 學(xué)習(xí)為每個(gè)訓(xùn)練樣本分配一個(gè)權(quán)重。通過(guò)學(xué)習(xí)不均衡的權(quán)重,MentorNet 鼓勵(lì)某些樣本學(xué)得更早,并且得到更多注意,由此對(duì)學(xué)習(xí)工作進(jìn)行優(yōu)先級(jí)排列。對(duì)于 MentorNet 訓(xùn)練,我們首先預(yù)訓(xùn)練一個(gè) MentorNet 來(lái)近似得到有標(biāo)簽數(shù)據(jù)中特定的一些預(yù)定義權(quán)重。然后我們?cè)诰哂星鍧崢?biāo)簽的第三個(gè)數(shù)據(jù)集上對(duì)它進(jìn)行微調(diào)。在測(cè)試的時(shí)候,StudentNet 獨(dú)自進(jìn)行預(yù)測(cè),不會(huì)使用 MentorNet。
我們的方法受到了課程學(xué)習(xí)(curriculum learning)[4] 的啟發(fā)。MentorNet 學(xué)習(xí)給訓(xùn)練樣本加權(quán),從而得到一個(gè)課程(curriculum),該課程決定了學(xué)習(xí)每個(gè)樣本的時(shí)間和注意程度。課程學(xué)習(xí)已經(jīng)在各種計(jì)算機(jī)視覺(jué)問(wèn)題 [38, 26, 7, 16, 25, 44]、臉部檢測(cè) [26]、目標(biāo)檢測(cè) [7]、視頻檢測(cè) [16] 中被用來(lái)尋找更好的極小值了。我們的模型通過(guò)神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程,從而推進(jìn)了課程學(xué)習(xí)方法。我們提出的模型讓我們可以通過(guò)一個(gè)共同框架來(lái)理解和進(jìn)一步分析已有的加權(quán)方案,比如自步式加權(quán)(self-paced weighting)[21]、hard negative mining [31] 和 focal loss [27],更重要的是讓我們可以通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些方案。此外,我們討論了一種使用深度 CNN 在大規(guī)模數(shù)據(jù)上用于優(yōu)化 MentorNet 的算法。我們從理論上證明了它的收斂性并且通過(guò)實(shí)驗(yàn)在大規(guī)模 ImageNet 數(shù)據(jù)上評(píng)估了該算法的表現(xiàn)。
我們?cè)?CIFAR-10、CIFAR-100、ImageNet 和 YFCC100M 這四個(gè)基準(zhǔn)上驗(yàn)證了 MentorNet。全方位的實(shí)驗(yàn)表明 MentorNet 可以提升在受控和真實(shí)有噪聲標(biāo)簽上訓(xùn)練的深度 CNN 的表現(xiàn),并且表現(xiàn)也優(yōu)于之前最佳的弱監(jiān)督學(xué)習(xí)方法。總而言之,本論文有三大貢獻(xiàn):
我們發(fā)現(xiàn)通過(guò)學(xué)習(xí)另一個(gè)網(wǎng)絡(luò)來(lái)加權(quán)訓(xùn)練樣本,在有損標(biāo)簽上訓(xùn)練的深度 CNN 可以獲得提升。
我們提出了一種使用在大數(shù)據(jù)上的深度 CNN 來(lái)優(yōu)化 MentorNet 的算法,并且在標(biāo)準(zhǔn)的輕微假設(shè)下證明了其收斂性。
我們?cè)诰哂惺芸氐暮驼鎸?shí)的有噪聲標(biāo)簽的 4 個(gè)數(shù)據(jù)集上實(shí)證驗(yàn)證了我們提出的模型。
算法
事實(shí)證明,相關(guān)研究中所使用的其它最小化方法難以應(yīng)付大規(guī)模訓(xùn)練,這主要是由于兩大重要原因。首先,在固定隱變量 v 時(shí)最小化網(wǎng)絡(luò)參數(shù) w 的子程序中,隨機(jī)梯度下降通常需要很多步驟才能實(shí)現(xiàn)收斂。這意味著這一單個(gè)子步驟可能需要消耗很長(zhǎng)的時(shí)間。但是,這樣的計(jì)算往往很浪費(fèi),尤其是在訓(xùn)練的初始部分;因?yàn)楫?dāng) v 離最優(yōu)點(diǎn)還很遠(yuǎn)時(shí),找到對(duì)應(yīng)于這個(gè) v 的準(zhǔn)確的最優(yōu) w 并沒(méi)有多大用處。其次,更重要的是,固定 w 而最小化 v 的子程序往往不切實(shí)際,因?yàn)楣潭ǖ南蛄?v 甚至可能都無(wú)法放入內(nèi)存。比如,在 5000 個(gè)類別上訓(xùn)練 1000 萬(wàn)個(gè)樣本,光是存儲(chǔ)其權(quán)重矩陣就需要消耗 2TB。在有大規(guī)模訓(xùn)練數(shù)據(jù)時(shí)訓(xùn)練數(shù)據(jù)正則化目標(biāo)需要一些算法層面的思考。

算法 1

圖 2:我們提出的 MentorNet 架構(gòu)。輸入特征是樣本損失、標(biāo)簽和訓(xùn)練 epoch。輸出是 mini-batch 中每個(gè)樣本的權(quán)重。emb、fc 和 prob sampling 分別表示嵌入、全連接和概率采樣層。和分別表示在 epoch t 處的樣本損失和損失移動(dòng)平均(loss moving average)。

表 1:學(xué)習(xí)預(yù)定義的加權(quán)方案的 MSE 比較。

圖 3:MentorNet 架構(gòu)的收斂比較。

圖 4:經(jīng)典正則化算法和我們的正則化算法在 CIFAR-10 和 CIFAR-100 上的結(jié)果比較。圖上說(shuō)明了數(shù)據(jù)集和 StudentNet。x 軸和 y 軸分別表示噪聲比例和在清潔的測(cè)試數(shù)據(jù)上的分類準(zhǔn)確度。
論文:MentorNet:在有損的標(biāo)簽上正則化非常深度的神經(jīng)網(wǎng)絡(luò)(MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels)

論文鏈接:https://arxiv.org/abs/1712.05055
摘要:最近的研究發(fā)現(xiàn)即使當(dāng)標(biāo)簽完全隨機(jī)時(shí),深度網(wǎng)絡(luò)也能記憶整個(gè)數(shù)據(jù)。因?yàn)樯疃饶P褪窃跇?biāo)簽往往有噪聲的大數(shù)據(jù)上訓(xùn)練的,過(guò)擬合噪聲可能會(huì)導(dǎo)致模型表現(xiàn)不佳。為了克服過(guò)擬合有損訓(xùn)練數(shù)據(jù)的問(wèn)題,我們提出了一種在數(shù)據(jù)維中正則化深度網(wǎng)絡(luò)的全新技術(shù)。這種方法是學(xué)習(xí)一個(gè)名叫 MentorNet 的神經(jīng)網(wǎng)絡(luò)來(lái)監(jiān)督基礎(chǔ)網(wǎng)絡(luò) StudentNet 的訓(xùn)練。我們的工作受到了課程學(xué)習(xí)的啟發(fā)并且通過(guò)神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程而推進(jìn)了這一理論。我們?cè)趲讉€(gè)基準(zhǔn)上演示了 MentorNet 的效果。全方位的實(shí)驗(yàn)表明其能夠顯著提升有損訓(xùn)練數(shù)據(jù)上當(dāng)前最佳深度網(wǎng)絡(luò)的泛化表現(xiàn)。