深度學習是人工神經(jīng)網(wǎng)絡(luò)的一個分支,具有深度網(wǎng)絡(luò)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)是深度學習最早的網(wǎng)絡(luò)模型。
1.深度學習的起源階段
1943年,美國心理學家沃倫·麥克洛克(W.McCulloch)和數(shù)學家沃爾特·皮茨(W.Pitts)首次提出了人工神經(jīng)網(wǎng)絡(luò)這一概念,并使用數(shù)學模型對人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元進行了理論建模,開啟了人們對人工神經(jīng)網(wǎng)絡(luò)的研究 .1949年,著名心理學家唐納德·奧爾丁·赫布(D. Olding Hebb)給出了神經(jīng)元的數(shù)學模型,提出了人工神經(jīng)網(wǎng)絡(luò)的學習規(guī)則。
1957年,著名人工智能專家弗蘭克·羅森布萊特(F.Rosenblatt)提出了感知器(Perceptron)人工神經(jīng)網(wǎng)絡(luò)模型,并提出采用Hebb學習規(guī)則或最小二乘法來訓練感知器的參數(shù),感知器是最早且結(jié)構(gòu)最簡單的人工神經(jīng)網(wǎng)絡(luò)模型。隨后,弗蘭克·羅森布萊特又在Cornelluniversity Aeronautical laboratory通過硬件實現(xiàn)了第一個感知器模型:Mark I,開辟了人工神經(jīng)網(wǎng)絡(luò)的計算機向硬件化發(fā)展方向。感知器是一種前向人工神經(jīng)網(wǎng)絡(luò),采用閾值型激活函數(shù),只含一層神經(jīng)元。通過訓練網(wǎng)絡(luò)權(quán)值,對于一組輸入響應,感知器可以得到1或0的目標輸出,從而實現(xiàn)分類輸入響應的目標。但感知器的分類能力非常有限,只能夠處理簡單的二元線性分類,受限于其只具有一層神經(jīng)網(wǎng)絡(luò),它不能處理線性不可分問題,比如異或問題。隨著研究的深入,在1969年,“AI之父”馬文·明斯基和LOGO語言的創(chuàng)始人西蒙·派珀特共同編寫了一本書籍《感知器》,在書中他們證明了單層感知器無法解決線性不可分問題(例如:異或問題)。
1980年,基于傳統(tǒng)的感知器結(jié)構(gòu),深度學習創(chuàng)始人,加拿大多倫多大學教授杰弗里·辛頓(G. Hinton)采用多個隱含層的深度結(jié)構(gòu)來代替代感知器的單層結(jié)構(gòu),多層感知器模型(Multi_Layer Perceptron)是其中最具代表性的,而且多層感知器也是最早的深度學習網(wǎng)絡(luò)模型。1974年,Paul Werbos提出采用反向傳播法來訓練一般的人工神經(jīng)網(wǎng)絡(luò),隨后,該算法進一步被杰弗里·辛頓、燕·勒存(Y. LeCun)等人應用于訓練具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)[3]。反向傳播法根據(jù)神經(jīng)網(wǎng)絡(luò)輸出層的計算誤差來調(diào)整網(wǎng)絡(luò)的權(quán)值,直到計算誤差收斂為止。但是,反向傳播法訓練具有多隱含層的深度網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)的學習性能并不好,因為具有多隱含層的深度網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)的訓練問題是一個非凸問題,基于梯度下降的反向傳播法很容易在訓練網(wǎng)絡(luò)參數(shù)時收斂于局部極小值。此外,反向傳播法訓練網(wǎng)絡(luò)參數(shù)還存在很多實際問題,比如需要大量的標簽樣本來訓練網(wǎng)絡(luò)的權(quán)值,多隱含層的神經(jīng)網(wǎng)絡(luò)權(quán)值的訓練速度很慢,權(quán)值的修正隨著反向傳播層數(shù)的增加逐漸削弱等。
2.深度學習的發(fā)展階段
1984年,日本學者福島邦彥提出了卷積神經(jīng)網(wǎng)絡(luò)的原始模型神經(jīng)感知機(Neocognitron)。1998年,燕·勒存(Y. LeCun)提出了深度學習常用模型之一卷積神經(jīng)網(wǎng)絡(luò)(Convoluted Neural Network, CNN)。2006年,杰弗里·辛頓(G. Hinton)提出了深度學習的概念,隨后與其團隊在文章《A fast Learning Algorithm for Deep Belief Nets》中提出了深度學習模型之一,深度信念網(wǎng)絡(luò),并給出了一種高效的半監(jiān)督算法:逐層貪心算法,來訓練深度信念網(wǎng)絡(luò)的參數(shù),打破了長期以來深度網(wǎng)絡(luò)難以訓練的僵局。從此,深度學習的大門打開,在各大政府、高校和企業(yè)中掀起了研究深度學習的大浪潮。2009年,Yoshua Bengio提出了深度學習另一常用模型:堆疊自動編碼器(Stacked Auto-Encoder,SAE),采用自動編碼器來代替深度信念網(wǎng)絡(luò)的基本單元:限制玻爾茲曼機,來構(gòu)造深度網(wǎng)絡(luò)。
約翰·霍普菲爾德(John Hopfield)在1982提出了Hopfield網(wǎng)絡(luò),是最早的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。因Hopfield網(wǎng)絡(luò)實現(xiàn)困難,沒有合適的應用場景,86年后逐漸被前向神經(jīng)網(wǎng)絡(luò)取代。1990年,出現(xiàn)了Elman&Jordan SRN兩種新的RNN網(wǎng)絡(luò),同樣因為沒有合適的應用場景,很快淡出了研究人員視線。Dalle Molle人工智能研究所的主任Jurgen Schmidhuber在論文《THE VANISHING GRADIENT PROBLEM DURING recurrent neural networks and problem solutions》提出了LSTM,促進了循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展,特別是在深度學習廣泛應用的今天,RNN(LSTM)在自然語言處理領(lǐng)域,如機器翻譯、情感分析、智能對話等,取得了令人驚異的成績。
3.深度學習的爆發(fā)階段
深度學習自2006年產(chǎn)生之后就受到科研機構(gòu)、工業(yè)界的高度關(guān)注。最初,深度學習的應用主要是在圖像和語音領(lǐng)域。從2011年開始,谷歌研究院和微軟研究院的研究人員先后將深度學習應用到語音識別,使識別錯誤率下降了20%-30%。2012年,杰弗里·辛頓的學生IIya Sutskever和Alex Krizhevsky在圖片分類比賽ImageNet中,使用深度學習打敗了Google團隊,深度學習的應用,使得圖片識別錯誤率下降了14%。2012年6月,谷歌首席架構(gòu)師Jeff Dean和斯坦福大學教授AndrewNg主導著名的GoogleBrain項目,采用16萬個CPU來構(gòu)建一個深層神經(jīng)網(wǎng)絡(luò),并將其應用于圖像和語音的識別,最終大獲成功。此外,深度學習在搜索領(lǐng)域也獲得廣泛關(guān)注。如今,深度學習已經(jīng)在圖像、語音、自然語言處理、CTR預估、大數(shù)據(jù)特征提取等方面獲得廣泛的應用。
2017年,基于強化學習算法的AlphaGo升級版AlphaGo Zero橫空出世。其采用“從零開始”、“無師自通”的學習模式,以100:0的比分輕而易舉打敗了之前的AlphaGo。除了圍棋,它還精通國際象棋等其它棋類游戲,可以說是真正的棋類“天才”。此外在這一年,深度學習的相關(guān)算法在醫(yī)療、金融、藝術(shù)、無人駕駛等多個領(lǐng)域均取得了顯著的成果。所以,也有專家把2017年看作是深度學習甚至是人工智能發(fā)展最為突飛猛進的一年。
所以在深度學習的浪潮之下,不管是AI的相關(guān)從業(yè)者還是其他各行各業(yè)的工作者,都應該以開放、學習的心態(tài)關(guān)注深度學習、人工智能的熱點動態(tài)。人工智能正在悄無聲息的改變著我們的生活!
此學習系列中,都是基于百度飛槳(PaddlePaddle)進行的,所有的例子,也是為了記錄個人學習過程,程序參考PaddlePaddle中提供的教程,里面有一些自己的想法和遇到問題的記錄。