李飛飛等人提出MentorNet:讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲

姓名:張萌? ? ? ? ? 學(xué)號(hào)17021211113

轉(zhuǎn)自:

http://mp.weixin.qq.com/s/VSQEFD2fQVrjlJ-LNn0CGg

【嵌牛導(dǎo)讀】:有老師指導(dǎo)就能更好地學(xué)習(xí)嗎?對(duì)于深度神經(jīng)網(wǎng)絡(luò)是否也是如此?近日,谷歌和斯坦福大學(xué)的研究者在其論文中提出了一種用 MentorNet 監(jiān)督 StudentNet 進(jìn)行訓(xùn)練的新技術(shù)。這項(xiàng)研究的第一作者是谷歌云機(jī)器學(xué)習(xí)的研究科學(xué)家蔣路(Lu Jiang),另外李佳和李飛飛也參與了該研究。

【嵌牛鼻子】:深度神經(jīng)網(wǎng)絡(luò)

【嵌牛提問(wèn)】:如何讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲?

【嵌牛正文】:在目標(biāo)識(shí)別 [19, 15, 39] 和檢測(cè) [14] 等多種視覺(jué)任務(wù)上,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很大的成功。當(dāng)前最佳的深度網(wǎng)絡(luò)有數(shù)百層,而可訓(xùn)練的模型參數(shù)的數(shù)量更是遠(yuǎn)遠(yuǎn)超過(guò)了它們訓(xùn)練所用的樣本的數(shù)量。最近一項(xiàng)研究發(fā)現(xiàn)即使是在有損的標(biāo)簽上(其中部分或所有真實(shí)標(biāo)簽被隨機(jī)標(biāo)簽替換),深度網(wǎng)絡(luò)也能記憶整個(gè)數(shù)據(jù) [45]。正則化(regularization)是一種用于克服過(guò)擬合的有效方法。張弛原等人 [45] 通過(guò)實(shí)驗(yàn)表明:當(dāng)在有損的標(biāo)簽上訓(xùn)練時(shí),權(quán)重衰減、數(shù)據(jù)增強(qiáng) [20] 和 dropout [36] 等常用于神經(jīng)網(wǎng)絡(luò)的正則化算法(即模型正則化器(model regularizer))在提升深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的生成表現(xiàn)上的效果不佳;我們的研究也證實(shí)了這個(gè)觀察結(jié)果。深度 CNN 通常是在大規(guī)模數(shù)據(jù)上訓(xùn)練的,在這些數(shù)據(jù)上的標(biāo)注通常有很多噪聲 [1,11]。過(guò)擬合訓(xùn)練數(shù)據(jù)中的噪聲常常會(huì)讓模型的表現(xiàn)變得很差。

圖片發(fā)自簡(jiǎn)書(shū)App

圖 1:已有的正則化方法和我們的正則化方法的圖示。每個(gè)點(diǎn)表示一個(gè)訓(xùn)練樣本,點(diǎn)的大小表示樣本權(quán)重。曲線表示學(xué)習(xí)到的模型。權(quán)重衰減等已有的正則化方法對(duì)深度 CNN 而言效果不佳。數(shù)據(jù)正則化是通過(guò)學(xué)習(xí)為樣本分配合適的權(quán)重來(lái)解決深度 CNN 的過(guò)擬合問(wèn)題。

由于模型參數(shù)數(shù)量龐大,所以正則化非常深度的 CNN 頗具挑戰(zhàn)性。為了解決這一難題,我們提出了一種在數(shù)據(jù)維(data dimension)中正則化深度 CNN 的全新技術(shù),我們稱之為數(shù)據(jù)正則化(data regularization)。我們的目標(biāo)是通過(guò)正則化在有損標(biāo)簽上訓(xùn)練的 CNN 來(lái)提升其在清潔測(cè)試數(shù)據(jù)上的泛化表現(xiàn)??梢员豢醋魇巧疃?CNN 的網(wǎng)絡(luò)有 Resnet [15] 和 Inception-resnet [39],它們有幾百層,而且參數(shù)的數(shù)量比訓(xùn)練樣本的數(shù)量多幾個(gè)數(shù)量級(jí)。具體來(lái)說(shuō),我們提出為用于訓(xùn)練該分類網(wǎng)絡(luò)(即 StudentNet)的每個(gè)樣本學(xué)習(xí)隨時(shí)間變化的權(quán)重。我們引入了一種 MentorNet 來(lái)監(jiān)督該 StudentNet 的訓(xùn)練。如圖 1 所示,在訓(xùn)練過(guò)程中,MentorNet 學(xué)習(xí)為每個(gè)訓(xùn)練樣本分配一個(gè)權(quán)重。通過(guò)學(xué)習(xí)不均衡的權(quán)重,MentorNet 鼓勵(lì)某些樣本學(xué)得更早,并且得到更多注意,由此對(duì)學(xué)習(xí)工作進(jìn)行優(yōu)先級(jí)排列。對(duì)于 MentorNet 訓(xùn)練,我們首先預(yù)訓(xùn)練一個(gè) MentorNet 來(lái)近似得到有標(biāo)簽數(shù)據(jù)中特定的一些預(yù)定義權(quán)重。然后我們?cè)诰哂星鍧崢?biāo)簽的第三個(gè)數(shù)據(jù)集上對(duì)它進(jìn)行微調(diào)。在測(cè)試的時(shí)候,StudentNet 獨(dú)自進(jìn)行預(yù)測(cè),不會(huì)使用 MentorNet。

我們的方法受到了課程學(xué)習(xí)(curriculum learning)[4] 的啟發(fā)。MentorNet 學(xué)習(xí)給訓(xùn)練樣本加權(quán),從而得到一個(gè)課程(curriculum),該課程決定了學(xué)習(xí)每個(gè)樣本的時(shí)間和注意程度。課程學(xué)習(xí)已經(jīng)在各種計(jì)算機(jī)視覺(jué)問(wèn)題 [38, 26, 7, 16, 25, 44]、臉部檢測(cè) [26]、目標(biāo)檢測(cè) [7]、視頻檢測(cè) [16] 中被用來(lái)尋找更好的極小值了。我們的模型通過(guò)神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程,從而推進(jìn)了課程學(xué)習(xí)方法。我們提出的模型讓我們可以通過(guò)一個(gè)共同框架來(lái)理解和進(jìn)一步分析已有的加權(quán)方案,比如自步式加權(quán)(self-paced weighting)[21]、hard negative mining [31] 和 focal loss [27],更重要的是讓我們可以通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些方案。此外,我們討論了一種使用深度 CNN 在大規(guī)模數(shù)據(jù)上用于優(yōu)化 MentorNet 的算法。我們從理論上證明了它的收斂性并且通過(guò)實(shí)驗(yàn)在大規(guī)模 ImageNet 數(shù)據(jù)上評(píng)估了該算法的表現(xiàn)。

我們?cè)?CIFAR-10、CIFAR-100、ImageNet 和 YFCC100M 這四個(gè)基準(zhǔn)上驗(yàn)證了 MentorNet。全方位的實(shí)驗(yàn)表明 MentorNet 可以提升在受控和真實(shí)有噪聲標(biāo)簽上訓(xùn)練的深度 CNN 的表現(xiàn),并且表現(xiàn)也優(yōu)于之前最佳的弱監(jiān)督學(xué)習(xí)方法。總而言之,本論文有三大貢獻(xiàn):

我們發(fā)現(xiàn)通過(guò)學(xué)習(xí)另一個(gè)網(wǎng)絡(luò)來(lái)加權(quán)訓(xùn)練樣本,在有損標(biāo)簽上訓(xùn)練的深度 CNN 可以獲得提升。

我們提出了一種使用在大數(shù)據(jù)上的深度 CNN 來(lái)優(yōu)化 MentorNet 的算法,并且在標(biāo)準(zhǔn)的輕微假設(shè)下證明了其收斂性。

我們?cè)诰哂惺芸氐暮驼鎸?shí)的有噪聲標(biāo)簽的 4 個(gè)數(shù)據(jù)集上實(shí)證驗(yàn)證了我們提出的模型。

算法

事實(shí)證明,相關(guān)研究中所使用的其它最小化方法難以應(yīng)付大規(guī)模訓(xùn)練,這主要是由于兩大重要原因。首先,在固定隱變量 v 時(shí)最小化網(wǎng)絡(luò)參數(shù) w 的子程序中,隨機(jī)梯度下降通常需要很多步驟才能實(shí)現(xiàn)收斂。這意味著這一單個(gè)子步驟可能需要消耗很長(zhǎng)的時(shí)間。但是,這樣的計(jì)算往往很浪費(fèi),尤其是在訓(xùn)練的初始部分;因?yàn)楫?dāng) v 離最優(yōu)點(diǎn)還很遠(yuǎn)時(shí),找到對(duì)應(yīng)于這個(gè) v 的準(zhǔn)確的最優(yōu) w 并沒(méi)有多大用處。其次,更重要的是,固定 w 而最小化 v 的子程序往往不切實(shí)際,因?yàn)楣潭ǖ南蛄?v 甚至可能都無(wú)法放入內(nèi)存。比如,在 5000 個(gè)類別上訓(xùn)練 1000 萬(wàn)個(gè)樣本,光是存儲(chǔ)其權(quán)重矩陣就需要消耗 2TB。在有大規(guī)模訓(xùn)練數(shù)據(jù)時(shí)訓(xùn)練數(shù)據(jù)正則化目標(biāo)需要一些算法層面的思考。

圖片發(fā)自簡(jiǎn)書(shū)App

算法 1

圖片發(fā)自簡(jiǎn)書(shū)App

圖 2:我們提出的 MentorNet 架構(gòu)。輸入特征是樣本損失、標(biāo)簽和訓(xùn)練 epoch。輸出是 mini-batch 中每個(gè)樣本的權(quán)重。emb、fc 和 prob sampling 分別表示嵌入、全連接和概率采樣層。和分別表示在 epoch t 處的樣本損失和損失移動(dòng)平均(loss moving average)。

圖片發(fā)自簡(jiǎn)書(shū)App

表 1:學(xué)習(xí)預(yù)定義的加權(quán)方案的 MSE 比較。

圖片發(fā)自簡(jiǎn)書(shū)App

圖 3:MentorNet 架構(gòu)的收斂比較。

圖片發(fā)自簡(jiǎn)書(shū)App

圖 4:經(jīng)典正則化算法和我們的正則化算法在 CIFAR-10 和 CIFAR-100 上的結(jié)果比較。圖上說(shuō)明了數(shù)據(jù)集和 StudentNet。x 軸和 y 軸分別表示噪聲比例和在清潔的測(cè)試數(shù)據(jù)上的分類準(zhǔn)確度。

論文:MentorNet:在有損的標(biāo)簽上正則化非常深度的神經(jīng)網(wǎng)絡(luò)(MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels)

圖片發(fā)自簡(jiǎn)書(shū)App

論文鏈接:https://arxiv.org/abs/1712.05055

摘要:最近的研究發(fā)現(xiàn)即使當(dāng)標(biāo)簽完全隨機(jī)時(shí),深度網(wǎng)絡(luò)也能記憶整個(gè)數(shù)據(jù)。因?yàn)樯疃饶P褪窃跇?biāo)簽往往有噪聲的大數(shù)據(jù)上訓(xùn)練的,過(guò)擬合噪聲可能會(huì)導(dǎo)致模型表現(xiàn)不佳。為了克服過(guò)擬合有損訓(xùn)練數(shù)據(jù)的問(wèn)題,我們提出了一種在數(shù)據(jù)維中正則化深度網(wǎng)絡(luò)的全新技術(shù)。這種方法是學(xué)習(xí)一個(gè)名叫 MentorNet 的神經(jīng)網(wǎng)絡(luò)來(lái)監(jiān)督基礎(chǔ)網(wǎng)絡(luò) StudentNet 的訓(xùn)練。我們的工作受到了課程學(xué)習(xí)的啟發(fā)并且通過(guò)神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程而推進(jìn)了這一理論。我們?cè)趲讉€(gè)基準(zhǔn)上演示了 MentorNet 的效果。全方位的實(shí)驗(yàn)表明其能夠顯著提升有損訓(xùn)練數(shù)據(jù)上當(dāng)前最佳深度網(wǎng)絡(luò)的泛化表現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 早晨,陽(yáng)光中下著暴雨 注定開(kāi)始了我痛苦的一天 拿著一本的成績(jī) 被一所不好的大學(xué)(學(xué)院調(diào)擋) 我無(wú)奈 放棄,我的心里...
    寒嘯同學(xué)在努力閱讀 331評(píng)論 0 1
  • 用了一段時(shí)間 Python,今天又開(kāi)始切換至 Xcode + Swift,真的是感覺(jué)到:沒(méi)有比較,就沒(méi)有傷害。 一...
    ITJason閱讀 941評(píng)論 0 0
  • 我希望我們身邊的人都是值得信任的,哪怕只是萍水相逢 我不希望自己因?yàn)楣ぷ鞫淖冏约旱膽?yīng)有的準(zhǔn)則,拋棄最初的信念和理...
    吉木1958閱讀 351評(píng)論 0 1
  • 遠(yuǎn)遠(yuǎn)望去,一座拱形的石橋,那是煙雨中的月亮。 去年春天的周末,我沿著青石小路,踏上這座月亮橋,我看見(jiàn)有一個(gè)村子半臥...
    周老師語(yǔ)文工作室閱讀 442評(píng)論 3 3
  • 簡(jiǎn)介與目錄 1、 加西亞和松本源約定了待會(huì)還在這個(gè)小樹(shù)林匯合,一個(gè)人拄拐杖向公園北門(mén)走去。 太不可思議了,...
    小水人閱讀 484評(píng)論 0 2

友情鏈接更多精彩內(nèi)容