Abstract: Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction. These methods have dramatically improved the state-of-the-art in speech recognition, visual object recognition, object detection and many other domains such as drug discovery and genomics. Deep learning discovers intricate structure in large data sets by using the backpropagation algorithm to indicate how a machine should change its internal parameters that are used to compute the representation in each layer from the representation in the previous layer. Deep convolutional nets have brought about breakthroughs in processing images, video, speech and audio, whereas recurrent nets have shone light on sequential data such as text and speech.
原文鏈接
2015年深度學(xué)習(xí)的三個(gè)大佬給出的深度學(xué)習(xí)的一篇綜述文章,主要著力介紹了監(jiān)督學(xué)習(xí),反向傳播用于訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò),用深度卷積神經(jīng)網(wǎng)絡(luò)理解圖片,分布式表示(distributed representations)和語言處理,循環(huán)神經(jīng)網(wǎng)絡(luò),和深度學(xué)習(xí)的未來。
深度學(xué)習(xí)的方法有著多層次特征的特征學(xué)習(xí)方法。
神經(jīng)網(wǎng)絡(luò)第一層學(xué)習(xí)的一般是一些在圖片的特定方向和位置上某些邊的出現(xiàn)和不出現(xiàn);第二層是發(fā)現(xiàn)邊的特殊的排列而構(gòu)成的圖案(motifs或者稱為紋理);第三層可能將這些圖案組成大的組合,這些組合對(duì)應(yīng)的是熟悉的對(duì)象的部分(familiar object);之后的層可以通過組合這些部分,來檢測對(duì)象。
機(jī)器學(xué)習(xí)的常見形式就是監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)的關(guān)鍵優(yōu)勢(shì)在于,通用的學(xué)習(xí)程序,自動(dòng)的學(xué)習(xí)好的特征。好的特征,是指易于分類,而又對(duì)不相關(guān)的部分不變的特征。擁有5到20層深度的多層非線性層,一個(gè)系統(tǒng)能夠?qū)崿F(xiàn)相當(dāng)錯(cuò)綜復(fù)雜的函數(shù),并且對(duì)小微的細(xì)節(jié)敏感,而對(duì)很多不相關(guān)的變量不敏感。
文章重點(diǎn)介紹了反向傳播的算法計(jì)算過程,反向傳播算法對(duì)于深度學(xué)習(xí)的重要性,不言而喻。

反向傳播網(wǎng)絡(luò)再次受到關(guān)注是2006年,以重構(gòu)圖片為目標(biāo)來訓(xùn)練的無監(jiān)督學(xué)習(xí)過程。這樣利用了大量無標(biāo)簽的數(shù)據(jù)同時(shí),合理的初始化了深度網(wǎng)絡(luò)的數(shù)值。對(duì)于小數(shù)據(jù)集來說,這種無監(jiān)督的預(yù)訓(xùn)練過程能防止過擬合,并且在標(biāo)簽樣本很少的情況下能更好的泛化。
卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)的原因:1.在像圖片之類的數(shù)組數(shù)據(jù)中,局部的數(shù)值組經(jīng)常是高度相關(guān)的,形成了有特點(diǎn)而易于檢測到的局部圖案;2.對(duì)于圖片或者其他信號(hào)的局部統(tǒng)計(jì)信息是對(duì)于位置不變的。
卷積層的職責(zé)在于發(fā)現(xiàn)前一層的特征的局部聯(lián)系;池化層的指責(zé)是將語義相似的特征合并成一個(gè)。
AlexNet使得計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)重新接受卷積神經(jīng)網(wǎng)絡(luò),它的成功主要有:高效的使用GPU,ReLU,新的正則化技術(shù)dropout,通過變化已有的圖片來創(chuàng)造更多訓(xùn)練數(shù)據(jù)集的技術(shù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)本來設(shè)計(jì)目的就是學(xué)習(xí)長期的依賴性,但是理論和經(jīng)驗(yàn)的證據(jù)表明它很難儲(chǔ)存很長時(shí)間的信息,這樣就有了LSTM。
對(duì)于深度學(xué)習(xí)未來的展望:無監(jiān)督學(xué)習(xí)的重要性,長遠(yuǎn)來看,雖然監(jiān)督學(xué)習(xí)在現(xiàn)在取得了大量成功,但是無監(jiān)督學(xué)習(xí)才是未來,畢竟無監(jiān)督學(xué)習(xí)更符合動(dòng)物學(xué)習(xí)的過程,給的例子是,我們是通過觀察來發(fā)現(xiàn)世界的結(jié)構(gòu),而不是通過被告知所有對(duì)象的名字(我這里覺得,這個(gè)例子更接近zero-shot or few shot learning);人類視覺是一個(gè)主動(dòng)的過程,是在一個(gè)連續(xù)采樣的過程,因此應(yīng)該期待卷積神經(jīng)網(wǎng)絡(luò),與循環(huán)神經(jīng)網(wǎng)絡(luò)集合,并采用強(qiáng)化學(xué)習(xí)(reinforcement learning);自然語言理解部分,使用RNNs來理解句子和整個(gè)文檔,當(dāng)它們學(xué)習(xí)一次關(guān)注一部分的選擇性注意力的策略的時(shí)候,會(huì)變得更好;最后就是,希望有將特征學(xué)習(xí)和復(fù)雜推理相結(jié)合的工作,推進(jìn)AI的進(jìn)步。