一、引子
對(duì)于非線性的分類問題,當(dāng)自變量較多的時(shí)候,用之前的回歸的方法就會(huì)非常復(fù)雜,因?yàn)樵谖覀円獢M合的函數(shù)項(xiàng)的可能性會(huì)爆炸。
例如,如果我們有100個(gè)自變量(x1、x2、x3...x100),如果只考慮最后是二階的函數(shù),那么特征就有:x1、x1^2、 x1x2、x1x3...x100、x100^2, 復(fù)雜度是O(n^2)
那么這種輸入很多的情況會(huì)怎么出現(xiàn)呢?
計(jì)算機(jī)視覺??!
隨便一張可辨認(rèn)內(nèi)容的圖片,像素都是幾百幾千朝上的。
假如有一張50*50像素的圖片,那么這張圖片上一共就有2500個(gè)像素點(diǎn),如果我們要構(gòu)造二階的擬合函數(shù),那么特征數(shù)量就會(huì)是百萬級(jí)的?。?!
二、神經(jīng)元與大腦
神經(jīng)網(wǎng)絡(luò)其實(shí)是個(gè)很早就被提出了,曾經(jīng)因?yàn)槭芟抻谟布蕉N聲匿跡,近幾年才重新熱起來。
相關(guān)的生物學(xué)原理與腦干切除手術(shù)有關(guān),就不詳述了。
三、模型表示
1.單個(gè)神經(jīng)元
真正的神經(jīng)細(xì)胞由細(xì)胞體和突起組成。
而突起又分為樹突和軸突。樹突接收多個(gè)其他神經(jīng)細(xì)胞的沖動(dòng),而軸突向多個(gè)其他神經(jīng)細(xì)胞傳遞沖動(dòng)。
因此,模仿生物細(xì)胞建立模型——Logistic unit(邏輯單元)。
在我們的神經(jīng)網(wǎng)絡(luò)模型中,邏輯單元包括輸入和輸出,決定如何輸出的函數(shù)叫激活函數(shù)(g(z)),而決定x在z中系數(shù)的Θ又叫作權(quán)重。
參考之前邏輯回歸使,會(huì)有一個(gè)常數(shù)項(xiàng)。所以,在某個(gè)神經(jīng)元之前的所有神經(jīng)元中,有時(shí)會(huì)設(shè)置一個(gè)值永遠(yuǎn)固定為1的單元,叫做bias unit(偏置單元??)。
2.神經(jīng)網(wǎng)絡(luò)
由多層的神經(jīng)元組成的網(wǎng)絡(luò)。
第一層被叫做輸入層(input layer);輸出最后值之前的最后一個(gè)網(wǎng)絡(luò)叫作輸出層(output layer),輸出層只有一個(gè)神經(jīng)元;中間的叫做隱藏層(hidden layer),因?yàn)檫@種層的結(jié)果我們不需要去理解。
3. 參數(shù)表示
- ai(j)→j層的第i個(gè)神經(jīng)元的activation(激活??)
- Θ(j)→由第j層到第j+1層的映射權(quán)重矩陣,這個(gè)矩陣的尺寸取決于j層和j+1層的單元數(shù)。
若s(j)表示第j層的單元數(shù),則Θ(j)的維度為:(s(j+1))*(s(j)+1)。s(j)+1,加的是偏置單元。
前向傳播
其實(shí)與之前的回歸差不多,但是之前是一次性把那么多特征納入到一次訓(xùn)練中,而神經(jīng)網(wǎng)絡(luò)前向傳播是把這個(gè)過程拆分給了多個(gè)層去完成,這樣比較適合并行計(jì)算。
四、應(yīng)用
1.非線性分類問題:XOR/XNOR
XOR,異或
XNOR<=>NOT(XOR)互斥反或
都是非線性的
可以通過AND、OR、NAND、NOR這些線性的分類問題來構(gòu)造
AND
令z=20x1+20x2-30
h(z)=1/(1+e^(-z))
注意!!這里我作圖的時(shí)候把藍(lán)色“x”當(dāng)成false,紅色“o”當(dāng)成true,后面OR的圖像又不一樣了(懶得改了,意會(huì)即可)

OR
令z=20x1+20x2-10
h(z)=1/1(e^(-z))
藍(lán)色“o”是true,紅色“x”是false

具體表格就不放了
NOT x
z=10-20x
(NOT x1)AND(NOT x2)
藍(lán)色“o”是false,紅色“x”是true

終于,我們湊齊了XNOR的兩種可能情況,一種是兩個(gè)同為true(x1 AND x2),另一種是兩個(gè)同為false((NOT x1)AND(NOT x2)),這是第一層到第二層;用OR將這兩種情況(即兩個(gè)節(jié)點(diǎn))再關(guān)聯(lián)起來,則會(huì)得到XNOR的結(jié)果,這是第二層到第三層。
這樣的XNOR的邏輯網(wǎng)絡(luò)就總共有三層,包括bias unit,總共有7個(gè)節(jié)點(diǎn)
2.多分類
one-vs-all
之前在回歸方法中就說過多分類,方法是一樣的,最后輸出的不是一個(gè)數(shù)字,而是一個(gè)向量,向量的模約等于1,為1的維度即對(duì)應(yīng)著輸入哪一類