吳恩達(dá)-機(jī)器學(xué)習(xí)筆記(第四周)

第八、神經(jīng)網(wǎng)絡(luò):表述(Neural Networks: Representation

8.1 非線性假設(shè)

??本節(jié)主要講了為什么出現(xiàn)神經(jīng)網(wǎng)絡(luò):
??線性回歸&邏輯回歸的缺陷-->特征過(guò)多,計(jì)算負(fù)荷過(guò)大-->利用神經(jīng)網(wǎng)絡(luò)解決
??e.g.假設(shè)要識(shí)別50x50像素的小圖片,將所有像素視為特征,則會(huì)有 2500個(gè)特征,如果進(jìn)一步將兩兩特征組合構(gòu)成一個(gè)多項(xiàng)式模型,則會(huì)有約接近3百萬(wàn)個(gè)特征。普通的邏輯回歸模型,不能有效地處理這么多的特征。這時(shí)候我們需要神經(jīng)網(wǎng)絡(luò)。

8.2 神經(jīng)元和大腦

??本節(jié)介紹了背景知識(shí),舉例。
??神經(jīng)網(wǎng)絡(luò)的最初目:制造能模擬大腦的機(jī)器。
??神經(jīng)網(wǎng)絡(luò)是計(jì)算量有些偏大的算法-->技術(shù)支持-->計(jì)算機(jī)的運(yùn)行速度的增快。

8.3 模型表示1

??下圖是一個(gè)以邏輯回歸模型,在神經(jīng)網(wǎng)絡(luò)中,參數(shù)又可被成為權(quán)重(weight)。


??下圖是二層神經(jīng)網(wǎng)絡(luò):

??左邊為輸入層(Input Layer),
x_1, x_2, x_3
input units(原始的各種特征)。右邊為輸出層(Output Layer),中間層成為隱藏層(Hidden Layers)。但是輸入層通常不算成第一層。所以我們稱該模型為二層模型。


??先只看模型的左邊部分,該部分可看成三個(gè)邏輯回歸模型。
x_1, x_2, x_3
是input units(原始的各種特征),
a_1, a_2, a_3
分別可看作是三次不同參數(shù)的邏輯回歸結(jié)果。得到a[1]需要兩步:①
z^{[1]}=w^{[1]T}X+b
;②
a^{[1]}=sigmoid(z^{[1]})
。

??再看右邊??梢詫?img class="math-inline" src="https://math.jianshu.com/math?formula=a%5E%7B%5B1%5D%7D" alt="a^{[1]}" mathimg="1">看作是更高級(jí)(更厲害)的特征輸入,以和x一樣的形式充當(dāng)下一層的輸入:①z^{[2]} = w^{[2]T}X+b;②a^{[2]} = sigmoid(z^{[2]})。
??a_i^{[j]}代表第j 層的第 i 個(gè)激活單元。θ^{[j]}代表從第 j 層映射到第j+1 層時(shí)的權(quán)重的矩陣,例如θ^{[1]}代表從第一層映射到第二層的權(quán)重的矩陣。其尺寸為:以第 j+1層的激活單元數(shù)量為行數(shù),以第 j 層的激活單元數(shù)加一為列數(shù)的矩陣。
??我們可以知道:每一個(gè)a都是由上一層所有的x和每一個(gè)x所對(duì)應(yīng)的決定的。我們把這樣從左到右的算法稱為前向傳播算法( FORWARD PROPAGATION )
??把x, θ, a 分別用矩陣表示,我們可以得到θ?X=a :

8.4 模型表示2

前向傳播算法 ( FORWARD PROPAGATION )有兩種形式:
可以利用如下的循環(huán)來(lái)編碼:


也可以利用向量化:

??由于每個(gè)Layer我們都能得到一組更高級(jí)的特征值
a^{[i]}
,這些更高級(jí)的特征值遠(yuǎn)比僅僅將 x次方厲害,也能更好的預(yù)測(cè)新數(shù)據(jù)。 這就是神經(jīng)網(wǎng)絡(luò)相比于邏輯回歸和線性回歸的優(yōu)勢(shì)。

8.5 特征和直觀理解1

??本質(zhì)上,神經(jīng)網(wǎng)絡(luò)能夠通過(guò)學(xué)習(xí)得出其自身的一系列特征。每層得到的a^{[i]}都是神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)后自己得出的一系列用于預(yù)測(cè)輸出變量的新特征。
??單層神經(jīng)網(wǎng)絡(luò)可以表示邏輯運(yùn)算,比如邏輯與(AND)、邏輯或(OR)。

AND 函數(shù):


h_Θ (x)=g(-30+20x_1+20x_2 )

由于g(x)圖像:



h_Θ (x)≈x_1 AND?x_2

OR函數(shù):

OR與AND整體一樣,區(qū)別只在于的取值不同。

邏輯非(NOT):
8.6 樣本和直觀理解II

??當(dāng)輸入特征為布爾值(0或1)時(shí),我們可以用利用8.5給出的三個(gè)單層網(wǎng)絡(luò),組合成更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)以實(shí)現(xiàn)更復(fù)雜的運(yùn)算。

e.g.要實(shí)現(xiàn)XNOR 功能(輸入的兩個(gè)值必須一樣,均為1或均為0),即:
XNOR=(x_1?AND?x_2)?OR((NOT?x_1 )AND(NOT?x_2 ))

8.7 多類分類

??輸入向量x有三個(gè)維度,兩個(gè)中間層,輸出層4個(gè)神經(jīng)元分別用來(lái)表示4類,也就是每一個(gè)數(shù)據(jù)在輸出層都會(huì)出現(xiàn)[a b c d]^T,且a,b,c,d中僅有一個(gè)為1,表示當(dāng)前類。下面是該神經(jīng)網(wǎng)絡(luò)的可能結(jié)構(gòu)示例:




神經(jīng)網(wǎng)絡(luò)算法的輸出結(jié)果為四種可能情形之一:


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容