三区国产在线视频,大香蕉欧美精品国产

姓名：張萌? ? ? ? ? 學(xué)號(hào)17021211113

轉(zhuǎn)自:

http://mp.weixin.qq.com/s/VSQEFD2fQVrjlJ-LNn0CGg

【嵌牛導(dǎo)讀】：有老師指導(dǎo)就能更好地學(xué)習(xí)嗎？對(duì)于深度神經(jīng)網(wǎng)絡(luò)是否也是如此？近日，谷歌和斯坦福大學(xué)的研究者在其論文中提出了一種用 MentorNet 監(jiān)督 StudentNet 進(jìn)行訓(xùn)練的新技術(shù)。這項(xiàng)研究的第一作者是谷歌云機(jī)器學(xué)習(xí)的研究科學(xué)家蔣路（Lu Jiang），另外李佳和李飛飛也參與了該研究。

【嵌牛鼻子】：深度神經(jīng)網(wǎng)絡(luò)

【嵌牛提問(wèn)】：如何讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲？

【嵌牛正文】：在目標(biāo)識(shí)別 [19, 15, 39] 和檢測(cè) [14] 等多種視覺(jué)任務(wù)上，深度神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很大的成功。當(dāng)前最佳的深度網(wǎng)絡(luò)有數(shù)百層，而可訓(xùn)練的模型參數(shù)的數(shù)量更是遠(yuǎn)遠(yuǎn)超過(guò)了它們訓(xùn)練所用的樣本的數(shù)量。最近一項(xiàng)研究發(fā)現(xiàn)即使是在有損的標(biāo)簽上（其中部分或所有真實(shí)標(biāo)簽被隨機(jī)標(biāo)簽替換），深度網(wǎng)絡(luò)也能記憶整個(gè)數(shù)據(jù) [45]。正則化（regularization）是一種用于克服過(guò)擬合的有效方法。張弛原等人 [45] 通過(guò)實(shí)驗(yàn)表明：當(dāng)在有損的標(biāo)簽上訓(xùn)練時(shí)，權(quán)重衰減、數(shù)據(jù)增強(qiáng) [20] 和 dropout [36] 等常用于神經(jīng)網(wǎng)絡(luò)的正則化算法（即模型正則化器（model regularizer））在提升深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）的生成表現(xiàn)上的效果不佳；我們的研究也證實(shí)了這個(gè)觀察結(jié)果。深度 CNN 通常是在大規(guī)模數(shù)據(jù)上訓(xùn)練的，在這些數(shù)據(jù)上的標(biāo)注通常有很多噪聲 [1,11]。過(guò)擬合訓(xùn)練數(shù)據(jù)中的噪聲常常會(huì)讓模型的表現(xiàn)變得很差。

圖片發(fā)自簡(jiǎn)書(shū)App

圖 1：已有的正則化方法和我們的正則化方法的圖示。每個(gè)點(diǎn)表示一個(gè)訓(xùn)練樣本，點(diǎn)的大小表示樣本權(quán)重。曲線表示學(xué)習(xí)到的模型。權(quán)重衰減等已有的正則化方法對(duì)深度 CNN 而言效果不佳。數(shù)據(jù)正則化是通過(guò)學(xué)習(xí)為樣本分配合適的權(quán)重來(lái)解決深度 CNN 的過(guò)擬合問(wèn)題。

由于模型參數(shù)數(shù)量龐大，所以正則化非常深度的 CNN 頗具挑戰(zhàn)性。為了解決這一難題，我們提出了一種在數(shù)據(jù)維（data dimension）中正則化深度 CNN 的全新技術(shù)，我們稱之為數(shù)據(jù)正則化（data regularization）。我們的目標(biāo)是通過(guò)正則化在有損標(biāo)簽上訓(xùn)練的 CNN 來(lái)提升其在清潔測(cè)試數(shù)據(jù)上的泛化表現(xiàn)?？梢员豢醋魇巧疃?CNN 的網(wǎng)絡(luò)有 Resnet [15] 和 Inception-resnet [39]，它們有幾百層，而且參數(shù)的數(shù)量比訓(xùn)練樣本的數(shù)量多幾個(gè)數(shù)量級(jí)。具體來(lái)說(shuō)，我們提出為用于訓(xùn)練該分類網(wǎng)絡(luò)（即 StudentNet）的每個(gè)樣本學(xué)習(xí)隨時(shí)間變化的權(quán)重。我們引入了一種 MentorNet 來(lái)監(jiān)督該 StudentNet 的訓(xùn)練。如圖 1 所示，在訓(xùn)練過(guò)程中，MentorNet 學(xué)習(xí)為每個(gè)訓(xùn)練樣本分配一個(gè)權(quán)重。通過(guò)學(xué)習(xí)不均衡的權(quán)重，MentorNet 鼓勵(lì)某些樣本學(xué)得更早，并且得到更多注意，由此對(duì)學(xué)習(xí)工作進(jìn)行優(yōu)先級(jí)排列。對(duì)于 MentorNet 訓(xùn)練，我們首先預(yù)訓(xùn)練一個(gè) MentorNet 來(lái)近似得到有標(biāo)簽數(shù)據(jù)中特定的一些預(yù)定義權(quán)重。然后我們?cè)诰哂星鍧崢?biāo)簽的第三個(gè)數(shù)據(jù)集上對(duì)它進(jìn)行微調(diào)。在測(cè)試的時(shí)候，StudentNet 獨(dú)自進(jìn)行預(yù)測(cè)，不會(huì)使用 MentorNet。

我們的方法受到了課程學(xué)習(xí)（curriculum learning）[4] 的啟發(fā)。MentorNet 學(xué)習(xí)給訓(xùn)練樣本加權(quán)，從而得到一個(gè)課程（curriculum），該課程決定了學(xué)習(xí)每個(gè)樣本的時(shí)間和注意程度。課程學(xué)習(xí)已經(jīng)在各種計(jì)算機(jī)視覺(jué)問(wèn)題 [38, 26, 7, 16, 25, 44]、臉部檢測(cè) [26]、目標(biāo)檢測(cè) [7]、視頻檢測(cè) [16] 中被用來(lái)尋找更好的極小值了。我們的模型通過(guò)神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程，從而推進(jìn)了課程學(xué)習(xí)方法。我們提出的模型讓我們可以通過(guò)一個(gè)共同框架來(lái)理解和進(jìn)一步分析已有的加權(quán)方案，比如自步式加權(quán)（self-paced weighting）[21]、hard negative mining [31] 和 focal loss [27]，更重要的是讓我們可以通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些方案。此外，我們討論了一種使用深度 CNN 在大規(guī)模數(shù)據(jù)上用于優(yōu)化 MentorNet 的算法。我們從理論上證明了它的收斂性并且通過(guò)實(shí)驗(yàn)在大規(guī)模 ImageNet 數(shù)據(jù)上評(píng)估了該算法的表現(xiàn)。

我們?cè)?CIFAR-10、CIFAR-100、ImageNet 和 YFCC100M 這四個(gè)基準(zhǔn)上驗(yàn)證了 MentorNet。全方位的實(shí)驗(yàn)表明 MentorNet 可以提升在受控和真實(shí)有噪聲標(biāo)簽上訓(xùn)練的深度 CNN 的表現(xiàn)，并且表現(xiàn)也優(yōu)于之前最佳的弱監(jiān)督學(xué)習(xí)方法。總而言之，本論文有三大貢獻(xiàn)：

我們發(fā)現(xiàn)通過(guò)學(xué)習(xí)另一個(gè)網(wǎng)絡(luò)來(lái)加權(quán)訓(xùn)練樣本，在有損標(biāo)簽上訓(xùn)練的深度 CNN 可以獲得提升。

我們提出了一種使用在大數(shù)據(jù)上的深度 CNN 來(lái)優(yōu)化 MentorNet 的算法，并且在標(biāo)準(zhǔn)的輕微假設(shè)下證明了其收斂性。

我們?cè)诰哂惺芸氐暮驼鎸?shí)的有噪聲標(biāo)簽的 4 個(gè)數(shù)據(jù)集上實(shí)證驗(yàn)證了我們提出的模型。

算法

事實(shí)證明，相關(guān)研究中所使用的其它最小化方法難以應(yīng)付大規(guī)模訓(xùn)練，這主要是由于兩大重要原因。首先，在固定隱變量 v 時(shí)最小化網(wǎng)絡(luò)參數(shù) w 的子程序中，隨機(jī)梯度下降通常需要很多步驟才能實(shí)現(xiàn)收斂。這意味著這一單個(gè)子步驟可能需要消耗很長(zhǎng)的時(shí)間。但是，這樣的計(jì)算往往很浪費(fèi)，尤其是在訓(xùn)練的初始部分；因?yàn)楫?dāng) v 離最優(yōu)點(diǎn)還很遠(yuǎn)時(shí)，找到對(duì)應(yīng)于這個(gè) v 的準(zhǔn)確的最優(yōu) w 并沒(méi)有多大用處。其次，更重要的是，固定 w 而最小化 v 的子程序往往不切實(shí)際，因?yàn)楣潭ǖ南蛄?v 甚至可能都無(wú)法放入內(nèi)存。比如，在 5000 個(gè)類別上訓(xùn)練 1000 萬(wàn)個(gè)樣本，光是存儲(chǔ)其權(quán)重矩陣就需要消耗 2TB。在有大規(guī)模訓(xùn)練數(shù)據(jù)時(shí)訓(xùn)練數(shù)據(jù)正則化目標(biāo)需要一些算法層面的思考。

圖片發(fā)自簡(jiǎn)書(shū)App

算法 1

圖片發(fā)自簡(jiǎn)書(shū)App

圖 2：我們提出的 MentorNet 架構(gòu)。輸入特征是樣本損失、標(biāo)簽和訓(xùn)練 epoch。輸出是 mini-batch 中每個(gè)樣本的權(quán)重。emb、fc 和 prob sampling 分別表示嵌入、全連接和概率采樣層。和分別表示在 epoch t 處的樣本損失和損失移動(dòng)平均（loss moving average）。

圖片發(fā)自簡(jiǎn)書(shū)App

表 1：學(xué)習(xí)預(yù)定義的加權(quán)方案的 MSE 比較。

圖片發(fā)自簡(jiǎn)書(shū)App

圖 3：MentorNet 架構(gòu)的收斂比較。

圖片發(fā)自簡(jiǎn)書(shū)App

圖 4：經(jīng)典正則化算法和我們的正則化算法在 CIFAR-10 和 CIFAR-100 上的結(jié)果比較。圖上說(shuō)明了數(shù)據(jù)集和 StudentNet。x 軸和 y 軸分別表示噪聲比例和在清潔的測(cè)試數(shù)據(jù)上的分類準(zhǔn)確度。

論文：MentorNet：在有損的標(biāo)簽上正則化非常深度的神經(jīng)網(wǎng)絡(luò)（MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels）

圖片發(fā)自簡(jiǎn)書(shū)App

論文鏈接：https://arxiv.org/abs/1712.05055

摘要：最近的研究發(fā)現(xiàn)即使當(dāng)標(biāo)簽完全隨機(jī)時(shí)，深度網(wǎng)絡(luò)也能記憶整個(gè)數(shù)據(jù)。因?yàn)樯疃饶Ｐ褪窃跇?biāo)簽往往有噪聲的大數(shù)據(jù)上訓(xùn)練的，過(guò)擬合噪聲可能會(huì)導(dǎo)致模型表現(xiàn)不佳。為了克服過(guò)擬合有損訓(xùn)練數(shù)據(jù)的問(wèn)題，我們提出了一種在數(shù)據(jù)維中正則化深度網(wǎng)絡(luò)的全新技術(shù)。這種方法是學(xué)習(xí)一個(gè)名叫 MentorNet 的神經(jīng)網(wǎng)絡(luò)來(lái)監(jiān)督基礎(chǔ)網(wǎng)絡(luò) StudentNet 的訓(xùn)練。我們的工作受到了課程學(xué)習(xí)的啟發(fā)并且通過(guò)神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程而推進(jìn)了這一理論。我們?cè)趲讉€(gè)基準(zhǔn)上演示了 MentorNet 的效果。全方位的實(shí)驗(yàn)表明其能夠顯著提升有損訓(xùn)練數(shù)據(jù)上當(dāng)前最佳深度網(wǎng)絡(luò)的泛化表現(xiàn)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

李飛飛等人提出MentorNet：讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲

李飛飛等人提出MentorNet：讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

李飛飛等人提出MentorNet：讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av