西瓜書(shū)學(xué)習(xí)筆記-神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

1 神經(jīng)元模型

神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界事物所做出的交互反應(yīng)。

上述的簡(jiǎn)單單元是指神經(jīng)網(wǎng)絡(luò)最基礎(chǔ)的組成部分神經(jīng)元模型

神經(jīng)元接收來(lái)自n個(gè)其它神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào),這些輸入通過(guò)帶權(quán)連接進(jìn)行傳遞。總輸入通過(guò)與神經(jīng)元的閾值進(jìn)行比對(duì),然后通過(guò)激活函數(shù)處理產(chǎn)生輸出。

理想的激活函數(shù)是階躍函數(shù),但是其不連續(xù)不平滑等缺點(diǎn)使得sigmoid函數(shù)成為廣泛使用的激活函數(shù)。

將多個(gè)這樣的神經(jīng)元按照一定的層次鏈接起來(lái)就是神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)可以視為包含了多個(gè)參數(shù)的數(shù)學(xué)模型,這個(gè)模型由若干個(gè)函數(shù)相互嵌套而成。函數(shù)可以形如:

2 感知器與多層網(wǎng)絡(luò)

感知器由兩層神經(jīng)元構(gòu)成

w 與 θ 可以通過(guò)學(xué)習(xí)獲得。
當(dāng)學(xué)習(xí)過(guò)程中出現(xiàn)誤差時(shí),感知器的權(quán)重將調(diào)整。

感知器只有輸入從進(jìn)行激活函數(shù)處理,只擁有一層功能神經(jīng)元,其學(xué)習(xí)能力非常有限,只能解決線(xiàn)性可分問(wèn)題。否則感知器的學(xué)習(xí)過(guò)程將發(fā)生振蕩,w很難穩(wěn)定下來(lái)。例如,感知器不能解決異或問(wèn)題。

要解決非線(xiàn)性可分問(wèn)題需要使用多層功能神經(jīng)元。

更一般的,常見(jiàn)的神經(jīng)網(wǎng)絡(luò)中每層神經(jīng)元與下一層完全互連,神經(jīng)元之間不存在同層連接,也不存在跨層連接。這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)稱(chēng)為:多層前饋神經(jīng)網(wǎng)絡(luò)。

其中輸入層僅接收輸入,不進(jìn)行函數(shù)處理,隱層和輸入層對(duì)信號(hào)進(jìn)行加工。因此圖5.6(a)是兩層神經(jīng)網(wǎng)絡(luò),為了避免歧義可稱(chēng)為單隱層神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就是調(diào)整神經(jīng)元之間的連接權(quán)重以及每個(gè)功能神經(jīng)元的閾值。

3 誤差逆?zhèn)鞑ニ惴?/h5>

訓(xùn)練多層網(wǎng)絡(luò)的時(shí)候,簡(jiǎn)單感知器模型的規(guī)則顯然不夠,需要更加強(qiáng)大的學(xué)習(xí)算法。誤差逆?zhèn)鞑ィ˙P)算法就是代表?,F(xiàn)實(shí)中大多神經(jīng)網(wǎng)絡(luò)都通過(guò)BP算法進(jìn)行訓(xùn)練,BP不但可以用于前饋神經(jīng)網(wǎng)絡(luò),還可以用去其它神經(jīng)網(wǎng)絡(luò),如遞歸神經(jīng)網(wǎng)絡(luò)。通常說(shuō)BP神經(jīng)網(wǎng)絡(luò)時(shí),一般所指是BP算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。

任意參數(shù)的更新估計(jì)式為:
v = v + Δv

如此一來(lái),圖5.7中的變量都有了自己的跟新公式。

之前所推導(dǎo)的是標(biāo)準(zhǔn)BP算法,每次針對(duì)一個(gè)訓(xùn)練樣本進(jìn)行跟新權(quán)重與閾值, 類(lèi)似的推導(dǎo)基于累計(jì)誤差的更新規(guī)則,就是累積BP算法。累積BP算法與標(biāo)準(zhǔn)BP算法都很常用 。
顯然,標(biāo)準(zhǔn)BP算法需要頻繁的對(duì)每個(gè)實(shí)例的誤差進(jìn)行更新,參數(shù)的更新非常頻繁。而累積BP算法在讀取了整個(gè)數(shù)據(jù)集D后才進(jìn)行更新,所以參數(shù)更新的頻率非常低。

BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過(guò)擬合的問(wèn)題,其訓(xùn)練誤差降低,但測(cè)試誤差卻可能上升。有兩種方式用于緩解過(guò)擬合的問(wèn)題。

  • 早停:當(dāng)訓(xùn)練集誤差降低時(shí)若測(cè)試集誤差上升,則停止訓(xùn)練。返回測(cè)試集最小誤差時(shí)的權(quán)值與閾值。
  • 正則化:在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分。例如將5.16改為:
4 全局最小和局部極小

基于梯度的搜素是最為常用的參數(shù)尋優(yōu)方法。在此類(lèi)方法中,我們從某些初始點(diǎn)觸發(fā),迭代的尋找最優(yōu)參數(shù)。每次迭代中,計(jì)算誤差函數(shù)當(dāng)前的梯度,按照梯度確定搜索方向。所以局部極小會(huì)使得迭代停止。

下列策略常用于跳出局部極小。

  • 用多組不同參數(shù)初始化多個(gè)神經(jīng)網(wǎng)絡(luò),訓(xùn)練后取誤差最小的解作為最終參數(shù)。因?yàn)椴煌某跏键c(diǎn)會(huì)陷入不同的局部極小,從中就可以找到更接近全局最小的結(jié)果。

  • 模擬退火:每一步都有一定概率接受比當(dāng)前解更差的結(jié)果,從而有助于跳出局部極小。迭代過(guò)程中,選擇次優(yōu)解的概率要逐漸降低,從而保證算法的穩(wěn)定性。

  • 隨機(jī)梯度下降:在計(jì)算梯度的過(guò)程中加入隨機(jī)因素。當(dāng)進(jìn)入局部極小值時(shí),梯度仍然可能不為0,就可以進(jìn)一步進(jìn)行搜索。

5 其它神經(jīng)網(wǎng)絡(luò)
  • RBF網(wǎng)絡(luò)

RBF(radial basis function,徑向基函數(shù))網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基作為隱層神經(jīng)元激活函數(shù)。其輸出是對(duì)隱層神經(jīng)元輸出的線(xiàn)性組合。

  • ART網(wǎng)絡(luò)

競(jìng)爭(zhēng)學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略,在使用該策略的時(shí)候,網(wǎng)絡(luò)的輸出神經(jīng)元互相競(jìng)爭(zhēng),僅一個(gè)獲勝者被激活。該機(jī)制亦被稱(chēng)為勝者通吃原則。
ART(adaptive resonance theory,自適應(yīng)寫(xiě)真)

該網(wǎng)絡(luò)組成:
比較層:負(fù)責(zé)接收輸入樣本,將其傳遞給識(shí)別層
識(shí)別層:每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)模式類(lèi),訓(xùn)練中可動(dòng)態(tài)增加神經(jīng)元數(shù)目來(lái)增加新的模式類(lèi)。(即增量學(xué)習(xí)/在線(xiàn)學(xué)習(xí))
識(shí)別閾值和重置模塊

在接收到比較層的輸入信號(hào)后,識(shí)別層神經(jīng)元之間開(kāi)始相互競(jìng)爭(zhēng)??捎?jì)算輸入向量與每個(gè)識(shí)別層神經(jīng)元對(duì)應(yīng)的模式類(lèi)的代表向量的距離,距離最小者勝出。獲勝神經(jīng)元向其他發(fā)送信號(hào),抑制其激活。

  • SOM網(wǎng)絡(luò)

SOM(self-organizating map,自組織映射網(wǎng)絡(luò))是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),它能夠?qū)⒏呔S輸入數(shù)據(jù)映射到低緯度空間,同時(shí)保留輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間的相似樣本映射到網(wǎng)絡(luò)輸出層。

輸出層的每個(gè)神經(jīng)元有一個(gè)權(quán)向量,網(wǎng)絡(luò)接收輸入層向量后,將會(huì)確定輸出層獲勝神經(jīng)元,它決定了該輸入在低維空間的位置。SOM訓(xùn)練目標(biāo)是為每個(gè)輸出層神經(jīng)元找到合適權(quán)向量,以達(dá)到保持拓?fù)浣Y(jié)構(gòu)的目的。

訓(xùn)練過(guò)程:接收一個(gè)訓(xùn)練樣本后,每個(gè)輸出層神經(jīng)元會(huì)計(jì)算該樣本與自身攜帶的權(quán)向量之間的距離,距離最近的神經(jīng)元成為競(jìng)爭(zhēng)獲勝者,為最佳匹配單元。然后,最佳匹配神經(jīng)元及其鄰近神經(jīng)元的權(quán)向量將被調(diào)整,以使得這些權(quán)向量與當(dāng)前輸入樣本的距離縮小。這個(gè)過(guò)程不斷迭代,直至收斂。

  • 級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)

一般的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是固定的,訓(xùn)練目的是尋找合適的連接權(quán)重和閾值等參數(shù)。但結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)則是將網(wǎng)絡(luò)的結(jié)構(gòu)也作為學(xué)習(xí)目標(biāo)之一。級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)就是其中的代表。

與一般前饋神經(jīng)網(wǎng)絡(luò)相比,級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)無(wú)需設(shè)置網(wǎng)絡(luò)層數(shù)與隱層神經(jīng)原數(shù),且訓(xùn)練速度快,但是其在數(shù)據(jù)較小時(shí),易于陷入過(guò)擬合。

  • Elman網(wǎng)絡(luò)

與前饋神經(jīng)網(wǎng)絡(luò)不同,遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),從而使得一些神經(jīng)元的輸出反饋?zhàn)鳛檩斎胄盘?hào)。這樣的信息反饋過(guò)程使得 t 時(shí)刻的輸出不但與 t 時(shí)刻的輸入有關(guān),還與 t-1 時(shí)刻的網(wǎng)絡(luò)狀態(tài)相關(guān),從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化。
Elman網(wǎng)絡(luò)是其中代表之一。

  • 玻爾茨曼機(jī)

神經(jīng)網(wǎng)絡(luò)中有一類(lèi)模型:為網(wǎng)絡(luò)狀態(tài)定義一個(gè)能量。能量最小化時(shí)達(dá)到理想狀態(tài)。而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個(gè)能量函數(shù)。玻爾茨曼機(jī),就是這樣一種基于能量的模型。

其神經(jīng)元被分為兩層:顯層與隱層。顯層用于表示數(shù)據(jù)的輸入輸出,隱層可以視為數(shù)據(jù)的內(nèi)在表達(dá)。Boltzmann機(jī)的神經(jīng)元都是布爾型。1表激活、0表抑制。

玻爾茨曼機(jī)的訓(xùn)練過(guò)程:將每個(gè)訓(xùn)練樣本視為一個(gè)狀態(tài)向量,使其出現(xiàn)的概率盡可能大。標(biāo)準(zhǔn)機(jī)是一個(gè)全連接圖,復(fù)雜度較高。常用受限的玻爾茨曼機(jī)(Restricted BM, RBM)。

6 深度學(xué)習(xí)

理論上,參數(shù)越多,模型越復(fù)雜,容量越大,越意味著可完成更復(fù)雜的任務(wù)。但一般,復(fù)雜模型的訓(xùn)練效率低,易陷入過(guò)擬合。隨著云計(jì)算。大數(shù)據(jù)時(shí)代的到來(lái),計(jì)算能力的大幅提高可緩解訓(xùn)練低效性,訓(xùn)練數(shù)據(jù)的大幅增加,可降低過(guò)擬合。

典型的深度學(xué)習(xí)模型:很深層的神經(jīng)網(wǎng)絡(luò)。
提高容量的方法:
1 增加隱層的數(shù)目
2 增加隱層神經(jīng)元的數(shù)目
增加隱層數(shù)目的方法顯然比增加隱層神經(jīng)元的數(shù)目更有效:增加隱層數(shù)不僅增加了擁有激活函數(shù)的神經(jīng)元數(shù)目,還增加了激活函數(shù)嵌套的層數(shù)。

多隱層NN難以用經(jīng)典算法(如BP)求解:誤差在多隱層反響傳播時(shí),往往會(huì)發(fā)散而不能收斂到穩(wěn)定狀態(tài)。

多隱層訓(xùn)練的有效手段:無(wú)監(jiān)督逐層訓(xùn)練。每次訓(xùn)練一層隱結(jié)點(diǎn),訓(xùn)練時(shí)將上一層隱結(jié)點(diǎn)的輸出作為輸入,本層隱結(jié)點(diǎn)的輸出作為下一層的輸入,此稱(chēng)為預(yù)訓(xùn)練。預(yù)訓(xùn)練全部完成后,再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練。
例如:深度信念網(wǎng)絡(luò)(DBN),每層都是一個(gè)受限玻爾茨曼機(jī)。整個(gè)網(wǎng)絡(luò)視為若干個(gè)RBM堆疊而成,首先預(yù)訓(xùn)練,完成后再利用BP對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

預(yù)訓(xùn)練+微調(diào)的做法:可看作是將大量參數(shù)分組。對(duì)每組先找到局部看起來(lái)比較好的設(shè)置,然后再基于這些局部較優(yōu)結(jié)果聯(lián)合全局最優(yōu)。

另一種節(jié)約訓(xùn)練開(kāi)支的策略是權(quán)共享,讓一組神經(jīng)元使用相同的連接權(quán)。以CNN(卷積神經(jīng)網(wǎng)絡(luò))進(jìn)行手寫(xiě)識(shí)別為例:

CNN復(fù)合多個(gè)卷積層和采樣層對(duì)輸入信號(hào)進(jìn)行加工,然后在連接層實(shí)現(xiàn)與輸出目標(biāo)的映射。
每個(gè)卷積層都包含多個(gè)特征映射,每個(gè)特征映射是由多個(gè)神經(jīng)元構(gòu)成的平面。CNN可以用BP進(jìn)行訓(xùn)練,但是訓(xùn)練過(guò)程中不論是卷積層還是采樣層,其每一組神經(jīng)元都采用相同的權(quán)重,所以大幅減少了所需訓(xùn)練的參數(shù)個(gè)數(shù)。

無(wú)論哪種網(wǎng)絡(luò),其多層堆疊,每層對(duì)上一層的輸出進(jìn)行處理的機(jī)制,可看作是對(duì)輸入信號(hào)不斷逐層加工,從而把初始的,與輸出目標(biāo)不太相關(guān)的輸入表示,轉(zhuǎn)化為與輸出目標(biāo)相關(guān)的表示。通過(guò)多層處理,逐漸將低層特征表示轉(zhuǎn)化為高層特征表示后,用簡(jiǎn)單模型即可完成復(fù)雜的分類(lèi)任務(wù)。
由此,可將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”,或者“表示學(xué)習(xí)”。

以往的機(jī)器學(xué)習(xí)任務(wù)中,描述特征的樣本通常需要由人類(lèi)專(zhuān)家設(shè)計(jì),稱(chēng)為“特征工程”。特征好壞對(duì)泛化性能有至關(guān)影響。人類(lèi)設(shè)計(jì)好特征并非易事,特征學(xué)習(xí)則通過(guò)機(jī)器學(xué)習(xí)技術(shù)來(lái)產(chǎn)生好特征。使得機(jī)器學(xué)習(xí)向“全自動(dòng)數(shù)據(jù)分析”前進(jìn)了一大步。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. 章節(jié)主要內(nèi)容 今天讓我們來(lái)好好理解一下機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法吧,其中多隱含層的神經(jīng)網(wǎng)絡(luò)算法就是目前最熱的深...
    閃電隨筆閱讀 3,101評(píng)論 1 7
  • 風(fēng)雪夜至。 晨起,已是一片茫然大地,凈如新生。一舊年老友自遠(yuǎn)方來(lái),攜一身風(fēng)塵。十余載未謀面,昔年清瘦青澀已褪,多了...
    鏡中燃燈閱讀 431評(píng)論 2 7
  • 我看見(jiàn)你, 你在鬧市中一身肅然的冷靜。 孤獨(dú),傲然,不卑不亢。 我的目光移不開(kāi), 心也鎖得死緊, 我一定是病得不輕...
    讀云軒札記閱讀 267評(píng)論 0 0
  • 十一之前的郁悶和無(wú)奈,經(jīng)過(guò)十一的調(diào)整好了許多,似乎置之死地而后生。工作依然很多,但是現(xiàn)在做工作的時(shí)候內(nèi)心要安定許多...
    心靈深處ye閱讀 163評(píng)論 0 0
  • 攝于南京夫子廟秦淮河。 如今的秦淮河,少了許多的脂粉香艷,變身成為秦淮河夫子廟景區(qū),但美景依舊令人沉醉。
    新生的蒲公英閱讀 520評(píng)論 0 1

友情鏈接更多精彩內(nèi)容