第八、神經(jīng)網(wǎng)絡(luò):表述(Neural Networks: Representation
8.1 非線性假設(shè)
??本節(jié)主要講了為什么出現(xiàn)神經(jīng)網(wǎng)絡(luò):
??線性回歸&邏輯回歸的缺陷-->特征過(guò)多,計(jì)算負(fù)荷過(guò)大-->利用神經(jīng)網(wǎng)絡(luò)解決
??e.g.假設(shè)要識(shí)別50x50像素的小圖片,將所有像素視為特征,則會(huì)有 2500個(gè)特征,如果進(jìn)一步將兩兩特征組合構(gòu)成一個(gè)多項(xiàng)式模型,則會(huì)有約接近3百萬(wàn)個(gè)特征。普通的邏輯回歸模型,不能有效地處理這么多的特征。這時(shí)候我們需要神經(jīng)網(wǎng)絡(luò)。
8.2 神經(jīng)元和大腦
??本節(jié)介紹了背景知識(shí),舉例。
??神經(jīng)網(wǎng)絡(luò)的最初目:制造能模擬大腦的機(jī)器。
??神經(jīng)網(wǎng)絡(luò)是計(jì)算量有些偏大的算法-->技術(shù)支持-->計(jì)算機(jī)的運(yùn)行速度的增快。
8.3 模型表示1
??下圖是一個(gè)以邏輯回歸模型,在神經(jīng)網(wǎng)絡(luò)中,參數(shù)又可被成為權(quán)重(weight)。

??下圖是二層神經(jīng)網(wǎng)絡(luò):

??左邊為輸入層(Input Layer),


??先只看模型的左邊部分,該部分可看成三個(gè)邏輯回歸模型。

??再看右邊??梢詫?img class="math-inline" src="https://math.jianshu.com/math?formula=a%5E%7B%5B1%5D%7D" alt="a^{[1]}" mathimg="1">看作是更高級(jí)(更厲害)的特征輸入,以和x一樣的形式充當(dāng)下一層的輸入:①;②
。
??代表第j 層的第 i 個(gè)激活單元。
代表從第 j 層映射到第j+1 層時(shí)的權(quán)重的矩陣,例如
代表從第一層映射到第二層的權(quán)重的矩陣。其尺寸為:以第 j+1層的激活單元數(shù)量為行數(shù),以第 j 層的激活單元數(shù)加一為列數(shù)的矩陣。
??我們可以知道:每一個(gè)a都是由上一層所有的x和每一個(gè)x所對(duì)應(yīng)的決定的。我們把這樣從左到右的算法稱為前向傳播算法( FORWARD PROPAGATION )。
??把x, θ, a 分別用矩陣表示,我們可以得到θ?X=a :

8.4 模型表示2
前向傳播算法 ( FORWARD PROPAGATION )有兩種形式:
可以利用如下的循環(huán)來(lái)編碼:

也可以利用向量化:

??由于每個(gè)Layer我們都能得到一組更高級(jí)的特征值
8.5 特征和直觀理解1
??本質(zhì)上,神經(jīng)網(wǎng)絡(luò)能夠通過(guò)學(xué)習(xí)得出其自身的一系列特征。每層得到的都是神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)后自己得出的一系列用于預(yù)測(cè)輸出變量的新特征。
??單層神經(jīng)網(wǎng)絡(luò)可以表示邏輯運(yùn)算,比如邏輯與(AND)、邏輯或(OR)。
AND 函數(shù):

由于g(x)圖像:


OR函數(shù):

OR與AND整體一樣,區(qū)別只在于的取值不同。
邏輯非(NOT):

8.6 樣本和直觀理解II
??當(dāng)輸入特征為布爾值(0或1)時(shí),我們可以用利用8.5給出的三個(gè)單層網(wǎng)絡(luò),組合成更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)以實(shí)現(xiàn)更復(fù)雜的運(yùn)算。
e.g.要實(shí)現(xiàn)XNOR 功能(輸入的兩個(gè)值必須一樣,均為1或均為0),即:

8.7 多類分類
??輸入向量x有三個(gè)維度,兩個(gè)中間層,輸出層4個(gè)神經(jīng)元分別用來(lái)表示4類,也就是每一個(gè)數(shù)據(jù)在輸出層都會(huì)出現(xiàn)[a b c d]^T,且a,b,c,d中僅有一個(gè)為1,表示當(dāng)前類。下面是該神經(jīng)網(wǎng)絡(luò)的可能結(jié)構(gòu)示例:


神經(jīng)網(wǎng)絡(luò)算法的輸出結(jié)果為四種可能情形之一:
