1.深層神經(jīng)網(wǎng)絡(luò)
????????到目前為止我們熟悉了logistic回歸、單隱藏層神經(jīng)網(wǎng)絡(luò)、前向和后向傳播、向量化以及為什么隨機(jī)初始化比較重要?,F(xiàn)在要把這些理念結(jié)合起來(lái)構(gòu)成深度神經(jīng)網(wǎng)絡(luò)模型。

????????如圖4.1,logistic回歸可以看成是單層神經(jīng)網(wǎng)絡(luò),層數(shù)是指隱藏層加輸出層,淺層和深層只是一個(gè)程度問(wèn)題。對(duì)于具體問(wèn)題,一開(kāi)始我們并不能準(zhǔn)確預(yù)測(cè)需要多少層神經(jīng)網(wǎng)絡(luò),可以先從logistic回歸開(kāi)始,逐漸增加層數(shù),找到合適層數(shù)的神經(jīng)網(wǎng)絡(luò)。

????????如圖4.2,我們用大寫(xiě)L表示層數(shù)如L=4,小寫(xiě)l表示某一層,表示某一層單元數(shù)如
=3,
表示第l層激活函數(shù)如
=
(
),類(lèi)似表示還有
,
。

如圖4.3,前向過(guò)程為
=
x+
,
=
(
),
=
+
,
=
(
)
...
=
+
,
=
(
),
x可以表示為,則
=
+
,
=
(
)。
向量化過(guò)程為
=
+
,
=
(
),
=
+
,
=
(
)
...
=
+
,
==
(
)。
3.核對(duì)矩陣的維數(shù)
????????實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的時(shí)候,防止代碼出錯(cuò),我們應(yīng)該用紙筆過(guò)一遍算法中矩陣維數(shù)。

4.為什么要使用深層網(wǎng)絡(luò)
????????深度網(wǎng)絡(luò)可以解決很多問(wèn)題,神經(jīng)網(wǎng)絡(luò)不要很大,但是要有深度,即要有比較多的隱藏層。

????????如圖4.5,假設(shè)這是人臉識(shí)別過(guò)程,根據(jù)直覺(jué),我們認(rèn)為第1層識(shí)別邊緣,第2層利用上一層的邊緣結(jié)合成各個(gè)部位,第三層利用上一層的部位結(jié)合成人臉,再比如音頻識(shí)別也類(lèi)似,從簡(jiǎn)單到復(fù)雜一步步識(shí)別。前面的層識(shí)別一些低層次的特征,到后面的層就能結(jié)合前面的特征去探測(cè)更加復(fù)雜的東西。從而需要神經(jīng)網(wǎng)絡(luò)需要很多層,即深層網(wǎng)絡(luò)。這些靈感來(lái)源是人類(lèi)大腦,大腦識(shí)別也是從簡(jiǎn)單開(kāi)始,然后再結(jié)合到整體。

????????如圖4.6,計(jì)算y=XOR
XOR
...
XOR
,使用多層計(jì)算(圖左),很少的隱藏單元計(jì)算出y。但使用單層計(jì)算(圖右),需要指數(shù)級(jí)更多的隱藏單元,因?yàn)榭赡苡?img class="math-inline" src="https://math.jianshu.com/math?formula=2%5E%7Bn-1%7D" alt="2^{n-1}" mathimg="1">種情況。即深層層計(jì)算更容易計(jì)算出y。
????????其實(shí)深度學(xué)習(xí)只不過(guò)就是多隱藏層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)
5.搭建深層神經(jīng)網(wǎng)絡(luò)塊
? ? ????前面已經(jīng)看到了正向反向傳播的基礎(chǔ)組成部分,他們也是深度神經(jīng)網(wǎng)絡(luò)的重要組成部分。

????????如圖4.7,輸入(即x),計(jì)算出
,緩存
,
,
,
供反向傳播使用,這個(gè)過(guò)程不斷循環(huán),直到計(jì)算出
,緩存
,
,
,
供反向傳播使用,然后進(jìn)入反向傳播。
6.前向和反向傳播
????????構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的基本模塊,每一層都有前向傳播步驟和相對(duì)的后向傳播步驟。接下來(lái)看看具體傳播步驟。


7.參數(shù)和超參數(shù)
????????想要你的深度神經(jīng)網(wǎng)絡(luò)起很好的效果,還要規(guī)劃好參數(shù)以及超參數(shù)。神經(jīng)網(wǎng)絡(luò)模型中的W和b是參數(shù),學(xué)習(xí)率∝、梯度下降循環(huán)次數(shù)、隱藏層數(shù)L、隱藏單元數(shù)(,
)、激活函數(shù)等這些屬于超參數(shù)。超參數(shù)需要人為設(shè)定,超參數(shù)實(shí)際上決定著參數(shù)W和b的值。
????????還有其他超參數(shù)比如momentum、mini batch大小、正則化參數(shù)等,這些稍后會(huì)講。

????????如圖4.10,設(shè)置超參數(shù)需要不斷嘗試,根據(jù)成本函數(shù)值變化去調(diào)整超參數(shù)。
8.深度學(xué)習(xí)和大腦有什么關(guān)系
????????一句話(huà),關(guān)系不大,深度學(xué)習(xí)或者其他學(xué)科只是受大腦神經(jīng)元啟發(fā)。