DNN

本文將從以下幾個(gè)方面介紹DNN:

1.DNN的產(chǎn)生背景

? ? 神經(jīng)網(wǎng)絡(luò)技術(shù)起源于上世紀(jì)五、六十年代,當(dāng)時(shí)叫感知機(jī),擁有輸入層、輸出層和一個(gè)隱含層。輸入的特征向量通過隱含層變換達(dá)到輸出層,在輸出層得到分類結(jié)果。但是,單層感知機(jī)有一個(gè)嚴(yán)重的問題,即它對(duì)稍復(fù)雜的一些函數(shù)都無能為力,比如最典型的“異或”操作。隨著數(shù)學(xué)的發(fā)展,這個(gè)缺點(diǎn)直到上世紀(jì)八十年代才被Rumelhart、Williams、Hinton、LeCun等人(反正就是一票大牛)發(fā)明的多層感知機(jī)(multilayer perceptron)克服。多層感知機(jī),顧名思義,就是有多個(gè)隱含層的感知機(jī)。

? ??

? 上圖為盜圖

? ? 多層感知機(jī)可以擺脫早期離散傳輸函數(shù)的束縛,使用sigmoid或tanh等連續(xù)函數(shù)模擬神經(jīng)元對(duì)激勵(lì)的影響,在訓(xùn)練算法上則使用Werbos發(fā)明的反向傳播BP算法。多層感知機(jī)解決了之前無法模擬異或邏輯的缺陷,同時(shí)更多的層數(shù)也讓網(wǎng)絡(luò)更能夠刻畫現(xiàn)實(shí)世界中的復(fù)雜情形。但是隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,優(yōu)化函數(shù)越來越容易陷入局部最優(yōu)解。同時(shí),另一個(gè)問題是隨著網(wǎng)絡(luò)層數(shù)的增加,“梯度消失”現(xiàn)象也很嚴(yán)重,具體說,我們常常使用sigmoid作為神經(jīng)元的輸入輸出函數(shù)。對(duì)于幅度為1的信號(hào),在BP反向傳播梯度時(shí),每傳遞一層,梯度衰減為原來的0.25,層數(shù)多的時(shí)候,梯度指數(shù)衰減后低層基本上接收不到有效的訓(xùn)練信號(hào)。

淺層學(xué)習(xí)(Shallow Learning)和深度學(xué)習(xí)(Deep Learning)

? ? 淺層學(xué)習(xí)是機(jī)器學(xué)習(xí)的第一次浪潮

? ? 20世紀(jì)80年代末期,用于人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法(BP算法)的發(fā)明,給機(jī)器學(xué)習(xí)帶來了希望,人們發(fā)現(xiàn),利用BP算法可以讓一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計(jì)規(guī)律,從而對(duì)未知事件做預(yù)測(cè)。這種基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法比起過去基于人工規(guī)則的系統(tǒng),在很多方面顯出優(yōu)越性。這個(gè)時(shí)候的人工神經(jīng)網(wǎng)絡(luò),實(shí)際上只含有一層隱層節(jié)點(diǎn)的淺層模型。

? ? 20世紀(jì)90年代,各種各樣的淺層機(jī)器學(xué)習(xí)模型相對(duì)被提出,例如支持向量機(jī)(SVM)、Boosting、最大熵方法(LR)等。這些模型結(jié)構(gòu)基本上可以看成是帶有一層隱層節(jié)點(diǎn)(如SVM、Boosting),或者沒有隱層節(jié)點(diǎn)(如LR)。這些模型無論在理論分析還是實(shí)際應(yīng)用中都獲得了巨大的成功。相比之下,由于理論分析的難度大,訓(xùn)練方法又需要很多經(jīng)驗(yàn)和技巧,這個(gè)時(shí)期淺層人工神經(jīng)網(wǎng)絡(luò)相對(duì)沉寂。

? ? 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的第二次浪潮

? ? 2006年,加拿大多倫多大學(xué)教授,機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton 和他的學(xué)生RuslanSalakhutdinov在《科學(xué)》上發(fā)表了

一篇文章,開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。這篇文章有兩個(gè)重要觀點(diǎn):1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”來有效克服,在這篇文章中,逐層初始化是通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。

? ? 當(dāng)前多數(shù)分類、回歸等學(xué)習(xí)方法為淺層結(jié)構(gòu)算法,其局限性在于有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類問題其泛化能力受到一定制約。深度學(xué)習(xí)可以通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本幾種學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。(多層的好處是可以用較少的參數(shù)表示復(fù)雜的函數(shù))

? ? 深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。因此,“深度模型”是手段,“特征學(xué)習(xí)”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于:1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點(diǎn);2)明確突出了特征學(xué)習(xí)的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,跟能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。

Deep learning 與 Neural Network

? ? 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模范人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種。

Deep learning 與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間有相同的地方也有很多不同。

二者的相同在于deep learning 采用了神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu),系統(tǒng)由包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點(diǎn)之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無連接,每一層可以看作是一個(gè)logistic regression 模型;這種分層結(jié)構(gòu),是比較接近人類大腦的結(jié)構(gòu)的。

2.DNN的特點(diǎn)

? ? 2.1.深度學(xué)習(xí)

? ? 2.2. 正向傳播求解

? ? 2.3. 反向傳播訓(xùn)練

? ? 2.4. 使用非線性激活函數(shù)模擬現(xiàn)實(shí)

? ? 2.5. 容易梯度消失或梯度爆炸

3.DNN的網(wǎng)絡(luò)模型

? ??

????上圖為盜圖

4.DNN的算法

? ? 以上圖的4層神經(jīng)網(wǎng)絡(luò)為例說明

? ? 第1層,l=1:

? ??z^1= W^1*x+b^1

? ??a^1=\sigma (z^1 )

? ? 第2層,l=2:

? ??z^2= W^2*a^1 +b^2

? ??a^2=\sigma (z^2 )

? ? 第3層,l=3:

? ??z^3= W^3*a^2 +b^3

? ? ?a^3=\sigma (z^3 )

? ? 第4層,l=4:

??????z^4= W^4*a^3 +b^4

? ? ??a^4=\sigma (z^4 )

????如果有m個(gè)訓(xùn)練樣本,其向量化矩陣形式為:?

? ???第1層,l=1:

? ??Z^1= W^1*X+b^1 = W^1*A^0 +b^1

? ??A^1=\sigma (Z^1 )

? ??第2層,l=2:

? ??Z^2= W^2*A^1 +b^2

? ??A^2=\sigma (Z^2)

....

?第m層,l=m:

? ? ?Z^m= W^m*A^(m-1) +b^2

? ? ? A^m=\sigma (Z^m)


上圖為盜圖,描述了正向傳播和反向傳播的公式。

5.DNN的應(yīng)用場(chǎng)景

? ??

6.參考文獻(xiàn)

????https://blog.csdn.net/weixin_41988628/article/details/80369795

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容