3.1.1.3 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

原理

《機(jī)器學(xué)習(xí)》周志華

5.1 神經(jīng)元模型
  • 神經(jīng)網(wǎng)絡(luò)中最0基本的成分是神經(jīng)元(neuron)模型。
  • M-P神經(jīng)元模型:神經(jīng)元接收到來(lái)自n個(gè)其他神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào),這些輸入信號(hào)通過(guò)帶權(quán)重的連接(connection)進(jìn)行傳遞,神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進(jìn)行比較,然后通過(guò)“激活函數(shù)”(activation function)處理以產(chǎn)生神經(jīng)元的輸出。
  • Sigmoid函數(shù)常作為激活函數(shù)。Sigmoid函數(shù)把可能在較大范圍內(nèi)變化的輸入值擠壓到(0, 1)輸出范圍內(nèi),因此有時(shí)也稱為“擠壓函數(shù)”(squashing function)。
5.2 感知機(jī)與多層網(wǎng)絡(luò)
  • 感知機(jī)(Perceptron)由兩層神經(jīng)元組成,輸入層接收外界輸入信號(hào)后傳遞給輸出層,輸出層是M-P神經(jīng)元,亦稱“閾值邏輯單元”(threshold logic unit)。感知機(jī)能容易地實(shí)現(xiàn)邏輯與,或,非運(yùn)算。
  • 更一般地,給定訓(xùn)練集,權(quán)重wi (i=1,2,...,n) 以及閾值 θ 可以通過(guò)學(xué)習(xí)得到。閾值 θ 可看作一個(gè)固定輸入為-1.0的“啞結(jié)點(diǎn)”( dummy node) 所對(duì)應(yīng)的連接權(quán)重 wn+1,這樣,權(quán)重和閾值的學(xué)習(xí)就可以統(tǒng)一為權(quán)重的學(xué)習(xí)。
  • 感知機(jī)只有輸出層神經(jīng)元進(jìn)行激活函數(shù)處理,即只擁有一層功能神經(jīng)元(functional neuron),其學(xué)習(xí)能力非常有限。事實(shí)上,上述與、或、非問(wèn)題都是線性可分(lineary separable)的問(wèn)題??梢宰C明,落兩類模式是線性可分的,即存在一個(gè)線性超平面能將它們分開(kāi),則感知機(jī)的學(xué)習(xí)過(guò)程一定會(huì)收斂(converge)而求得適當(dāng)?shù)臋?quán)向量 w = (w1, w2, ... , wn);否則感知機(jī)學(xué)習(xí)過(guò)程將會(huì)發(fā)生振蕩(fluctuation),w難以穩(wěn)定下來(lái),不能求得合適解,例如感知機(jī)不能解決異或這樣簡(jiǎn)單的非線性可分問(wèn)題。
  • 要解決非線性可分問(wèn)題,需考慮使用多層功能神經(jīng)元,簡(jiǎn)單的兩層感知機(jī)就能解決異或問(wèn)題。
  • 輸入層與輸出層之間的一層神經(jīng)元,被稱為隱層或隱含層(hidden layer)。隱含層和輸出層都是擁有激活函數(shù)的功能神經(jīng)元。
  • 每層神經(jīng)元與下一層神經(jīng)元完全互連,神經(jīng)元之間不存在同層連接,也不存在跨層連接,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常稱為“多層前饋神經(jīng)網(wǎng)絡(luò)”(multi-layer feed forward neural networks),其中輸入層神經(jīng)元接收外界輸入,隱層與輸出層神經(jīng)元對(duì)信號(hào)進(jìn)行加工,最終結(jié)果由輸出層神經(jīng)元輸出。
  • 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,就是根據(jù)訓(xùn)練數(shù)據(jù)來(lái)調(diào)整神經(jīng)元之間的“連接權(quán)”(connection weight) 以及每個(gè)功能神經(jīng)元的閾值;換言之,神經(jīng)網(wǎng)絡(luò)“學(xué)”到的東西,蘊(yùn)涵在連接權(quán)與閾值中。
5.3 誤差逆?zhèn)鞑ニ惴?/h5>
  • 多層網(wǎng)絡(luò)的學(xué)習(xí)能力比單層感知機(jī)強(qiáng)得多。欲訓(xùn)練多層網(wǎng)絡(luò),簡(jiǎn)單感知機(jī)學(xué)習(xí)規(guī)則是顯然不夠了,需要更強(qiáng)大的學(xué)習(xí)算法,誤差逆?zhèn)鞑?error BackPropagation, BP)算法就是其中最杰出的代表,它是迄今為止最成功的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?,F(xiàn)實(shí)任務(wù)中使用神經(jīng)網(wǎng)絡(luò)時(shí),大多是在使用BP算法進(jìn)行訓(xùn)練。值得指出的是,BP算法不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò),例如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)。但通常說(shuō)“BP網(wǎng)絡(luò)”時(shí),一般是指用BP算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。
  • BP是一個(gè)迭代學(xué)習(xí)算法,在迭代的每一輪中采用廣義的感知機(jī)學(xué)習(xí)規(guī)則對(duì)參數(shù)進(jìn)行更新估計(jì),任意參數(shù)v的更新估計(jì)式為 v <- v + △v
  • BP算法基于梯度下降(guadient descent)策略,以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整。
  • 學(xué)習(xí)率 η ∈ (0, 1) 控制著算法每一輪迭代中的更新步長(zhǎng),若太大則容易振蕩,太小則收斂速度又會(huì)過(guò)慢。有時(shí)為了做精細(xì)調(diào)整,不同層之間的學(xué)習(xí)率不同。
  • 需要注意的是,BP算法的目標(biāo)是要最小化訓(xùn)練集D上的累積誤差。但我們上面介紹的“標(biāo)準(zhǔn)BP算法”每次僅針對(duì)一個(gè)訓(xùn)練樣例更新連接權(quán)和閾值,也就是說(shuō),更新規(guī)則是基于單個(gè)的Ek推導(dǎo)而得。如果類似地推導(dǎo)出基于累積誤差最小化的更新規(guī)則,就得到了累積誤差逆?zhèn)鞑?accumulated error backpropagation)算法。累積BP算法與標(biāo)準(zhǔn)BP算法都很常用。 一般來(lái)說(shuō),標(biāo)準(zhǔn)BP算法每次更新只針對(duì)單個(gè)樣例,參數(shù)更新得非常頻繁,而對(duì)不同樣例進(jìn)行更新的效果可能出現(xiàn)“抵消”現(xiàn)象。因此為了達(dá)到同樣的累積誤差極小點(diǎn),標(biāo)準(zhǔn)BP算法往往需要進(jìn)行更多次數(shù)的迭代。累積BP算法直接針對(duì)累積誤差最小化,它在讀取整個(gè)訓(xùn)練集D一遍后才對(duì)參數(shù)進(jìn)行更新,其參數(shù)更新的頻率低得多。但在很多任務(wù)中,累積誤差下降到一定程度之后,進(jìn)一步下降會(huì)非常緩慢,這時(shí)標(biāo)準(zhǔn)BP往往會(huì)更快地獲得較好的解,尤其是在訓(xùn)練集D非常大時(shí)更明顯。
  • Hornik et al., (1989) 證明,只需要一個(gè)包含足夠多神經(jīng)元的隱層,多層前饋網(wǎng)絡(luò)就能以任意精度逼近任意復(fù)雜度的連續(xù)函數(shù)。然而,如何設(shè)置隱層神經(jīng)元的個(gè)數(shù)仍是個(gè)未決問(wèn)題,實(shí)際應(yīng)用中通??俊霸囧e(cuò)法”(trial-by-error)調(diào)整。
  • 正是由于其強(qiáng)大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過(guò)擬合,其訓(xùn)練誤差持續(xù)降低,但測(cè)試誤差卻可能上升。有兩種策略常用來(lái)緩解BP網(wǎng)絡(luò)的過(guò)擬合。
    • 第一種策略是“早?!?early stopping):將數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用來(lái)計(jì)算梯度,更新連接權(quán)和閾值,驗(yàn)證集用來(lái)估計(jì)誤差,若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高,則停止訓(xùn)練,同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。
    • 第二種策略是“正則化”(regularization)。其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述復(fù)雜度的部分,例如連接權(quán)與閾值的平方和。增加連接權(quán)與閾值的平方和這一項(xiàng)后,訓(xùn)練過(guò)程將會(huì)偏好比較小的連接權(quán)和閾值,使網(wǎng)絡(luò)輸出更為“光滑”,從而對(duì)過(guò)擬合有所緩解。
5.4 全局最小與局部最小
  • 基于梯度的搜索是使用最為廣泛的參數(shù)尋優(yōu)方法。在此類方法中,我們從某些初始解出發(fā),迭代尋找最優(yōu)參數(shù)值。每次迭代中,我們先計(jì)算誤差函數(shù)在當(dāng)前點(diǎn)的梯度,然后根據(jù)梯度確定搜索方向。例如,由于負(fù)梯度方向是函數(shù)值下降最快的方向,因此梯度下降法就是沿著負(fù)梯度方向搜索最優(yōu)解。若誤差函數(shù)在當(dāng)前點(diǎn)的梯度為零,則已達(dá)到局部極小,更新量將為零,這意味著參數(shù)的迭代更新將在此停止。顯然,如果誤差函數(shù)僅有一個(gè)局部極小,那么此時(shí)找到的局部極小就是全局最??;然而如果誤差函數(shù)具有多個(gè)局部極小,則不能保證找到的解是全局最小,對(duì)于后一種情形,我們稱參數(shù)尋優(yōu)陷入了局部極小,這顯然不是我們所希望的。

  • 在現(xiàn)實(shí)任務(wù)中,人們常采用以下策略試圖“跳出”局部極小,從而進(jìn)一步接近全局最?。?/p>

    • 以多組不同參數(shù)初始化多個(gè)神經(jīng)網(wǎng)絡(luò),按標(biāo)準(zhǔn)方法訓(xùn)練后,取其中誤差最小的解作為最終參數(shù)。這相當(dāng)于從多個(gè)不同的初始點(diǎn)開(kāi)始搜索,這樣就可能陷入不同的局部最小。從中進(jìn)行選擇有可能獲得更接近全局最小的結(jié)果。
    • 使用“模擬退火”(simulated annealing)技術(shù),模擬退火在每一步都以一定的概率接受比當(dāng)前更差的結(jié)果,從而有助于“跳出”局部極小。在每步迭代過(guò)程中,接受“次優(yōu)解”的概率要隨著時(shí)間的推移而逐漸降低,從而保證算法穩(wěn)定。
    • 使用隨機(jī)梯度下降,與標(biāo)準(zhǔn)梯度下降法精確計(jì)算梯度不同。隨機(jī)梯度下降法在計(jì)算梯度時(shí)加入了隨機(jī)因素。于是,即便陷入局部極小點(diǎn),它計(jì)算出的梯度仍可能不為零,這樣就有機(jī)會(huì)跳出局部極小繼續(xù)搜索。
    • 此外,遺傳算法(genetic algorithms)[Goldberg, 1989] 也常用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局最小,需注意的是,上述用于跳出局部極小的技術(shù)大多是啟發(fā)式,理論上缺乏保障。
5.5 其他常見(jiàn)神經(jīng)網(wǎng)絡(luò)
5.5.1 RBF網(wǎng)絡(luò)
  • RBF(Radial Basis Function, 徑向基函數(shù)) 網(wǎng)絡(luò) (Broomhead and Lowe, 1988) 是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是對(duì)隱層神經(jīng)元輸出的線性組合。
  • 通常采用兩步過(guò)程來(lái)訓(xùn)練RBF網(wǎng)絡(luò):第一步,確定神經(jīng)元中心 ci,常用的方式包括隨機(jī)采用,聚類等; 第二步,利用BP算法來(lái)確定參數(shù) wi 和 βi。
5.5.2 ART網(wǎng)絡(luò)
  • 競(jìng)爭(zhēng)型學(xué)習(xí)(competitive learning) 是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略,在使用該策略時(shí),網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng),每一時(shí)刻僅有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)元被激活,其他神經(jīng)元的狀態(tài)被抑制,這種抑制亦稱“勝者通吃”(winner-take-all)原則。
  • ART(Adaptive Resonance Theory, 自適應(yīng)諧振理論)網(wǎng)絡(luò) (Carpenter and Grossberg, 1987) 是競(jìng)爭(zhēng)型學(xué)習(xí)的重要代表。該網(wǎng)絡(luò)由比較層、識(shí)別層、識(shí)別閾值和重置模塊構(gòu)成。其中,比較層負(fù)責(zé)接收輸入樣本,并將其傳遞給識(shí)別層神經(jīng)元。識(shí)別層每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)模式類,神經(jīng)元數(shù)目可在訓(xùn)練過(guò)程中動(dòng)態(tài)增長(zhǎng)以增加新的模式類。
  • 在接收到比較層的輸入信號(hào)后,識(shí)別層神經(jīng)元之間的相互競(jìng)爭(zhēng)以產(chǎn)生獲勝神經(jīng)元。競(jìng)爭(zhēng)最簡(jiǎn)單方式是,計(jì)算輸入向量與每個(gè)識(shí)別神經(jīng)元所對(duì)應(yīng)的模式類的代表向量之間的距離,距離最小者獲勝。獲勝神經(jīng)元向其他識(shí)別層神經(jīng)元發(fā)出傳送信號(hào),抑制其激活。若輸入向量與獲勝神經(jīng)元所對(duì)應(yīng)的代表向量之間的相似度大于識(shí)別閾值,則當(dāng)前輸入樣本將被歸為該代表向量所屬類別,同時(shí),網(wǎng)絡(luò)連接權(quán)將會(huì)更新,使得以后再接收到相似輸入樣本時(shí),該模式類會(huì)計(jì)算出更大的相似度,從而使該獲勝神經(jīng)元有更大可能獲勝;若相似度不大于識(shí)別閾值,則重置模塊將在識(shí)別層增設(shè)一個(gè)新的神經(jīng)元,其代表向量就設(shè)置為當(dāng)前輸入向量。
  • 顯然,識(shí)別閾值對(duì)ART網(wǎng)絡(luò)的性能有重要影響。當(dāng)識(shí)別閾值較高時(shí),輸入樣本將會(huì)被分成比較多,比較精細(xì)的模式類,而如果識(shí)別閾值較低,則會(huì)產(chǎn)生比較少,比較粗略的模式類。
  • ART比較好地緩解了競(jìng)爭(zhēng)學(xué)習(xí)中的“可塑性-穩(wěn)定性窘境”(stability-plasticity dilemma)??伤苄允侵干窠?jīng)網(wǎng)絡(luò)要有學(xué)習(xí)新知識(shí)的能力,而穩(wěn)定性則是指神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識(shí)時(shí)要保持對(duì)舊知識(shí)的記憶。這就使得ART網(wǎng)絡(luò)具有一個(gè)很重要的優(yōu)點(diǎn):可進(jìn)行增量學(xué)習(xí)(incremental learning)或在線學(xué)習(xí)(online learning)。增量學(xué)習(xí)是指在學(xué)得模型后,再接收到訓(xùn)練樣例時(shí),僅需根據(jù)新樣例對(duì)模型進(jìn)行更新,不必重新訓(xùn)練整個(gè)模型,并且先前學(xué)得的有效信息不會(huì)被“沖掉”。在線學(xué)習(xí)是指每獲得一個(gè)新樣本就進(jìn)行一次模型更新。顯然,在線學(xué)習(xí)是增量學(xué)習(xí)的特例,而增量學(xué)習(xí)可視為“批模式”(batch-mode)的在線學(xué)習(xí)。
5.5.3 SOM網(wǎng)絡(luò)
  • SOM(Self-Organizaing Map, 自組織映射)網(wǎng)絡(luò) (Kohonen, 1982) 是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間(通常為二維),同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的臨近神經(jīng)元。
  • SOM網(wǎng)絡(luò)中的輸出層神經(jīng)元以矩陣方式排列在二維空間中,每個(gè)神經(jīng)元都擁有一個(gè)權(quán)向量,網(wǎng)絡(luò)在接收輸入向量后,將會(huì)確定輸出層獲勝神經(jīng)元,它決定了該輸入向量在低維空間中的位置。SOM的訓(xùn)練目標(biāo)就是為每個(gè)輸入層神經(jīng)元找到合適的權(quán)向量,以達(dá)到保持拓?fù)浣Y(jié)構(gòu)的目的。
  • SOM的訓(xùn)練過(guò)程很簡(jiǎn)單:在接收到一個(gè)訓(xùn)練樣本后,每個(gè)輸出層神經(jīng)元會(huì)計(jì)算該樣本與自身攜帶的權(quán)向量之間的距離,距離最近的神經(jīng)元成為競(jìng)爭(zhēng)獲勝者,稱為最佳匹配單元(best matching unit)。然后,最佳匹配單元及其鄰近神經(jīng)元的權(quán)向量將被調(diào)整,以使得這些權(quán)向量與當(dāng)前輸入樣本的距離最小,這個(gè)過(guò)程不斷迭代,直至收斂。
5.5.4 級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)
  • 一般的神經(jīng)網(wǎng)絡(luò)模型通常假設(shè)網(wǎng)絡(luò)結(jié)構(gòu)是事先固定的,訓(xùn)練的目的是利用訓(xùn)練樣本來(lái)確定合適的連接權(quán)、閾值等參數(shù)。與此同時(shí),結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)則將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)做學(xué)習(xí)的目標(biāo)之一,并希望能在訓(xùn)練過(guò)程中找到最符合數(shù)據(jù)特點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu),級(jí)聯(lián)相關(guān)(Cascade-Correlation)網(wǎng)絡(luò) (Fahlman and Lebiere, 1990) 是結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)的重要代表。結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)亦稱“構(gòu)造性”(constructive)神經(jīng)網(wǎng)絡(luò)。
  • 級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)有兩個(gè)主要成分:“級(jí)聯(lián)”和“相關(guān)”。級(jí)聯(lián)是指建立層次連接的層級(jí)結(jié)構(gòu)。在開(kāi)始訓(xùn)練時(shí),網(wǎng)絡(luò)只有輸入層和輸出層,處于最小拓?fù)浣Y(jié)構(gòu);隨著訓(xùn)練的進(jìn)行,新的隱層神經(jīng)元逐漸加入,從而創(chuàng)建起層級(jí)結(jié)構(gòu)。當(dāng)新的隱層神經(jīng)元加入時(shí),其輸入端連接權(quán)值是凍結(jié)固定的。相關(guān)是指通過(guò)最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)之間的相關(guān)性(correlation)來(lái)訓(xùn)練相關(guān)的參數(shù)。
  • 與一般的前饋神經(jīng)網(wǎng)絡(luò)相比,級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)無(wú)需設(shè)置網(wǎng)絡(luò)成熟,隱層神經(jīng)元數(shù)目,且訓(xùn)練速度較快,但其在數(shù)據(jù)較小時(shí)易陷入過(guò)擬合。
5.5.5 Elman網(wǎng)絡(luò)(RNN)
  • 與前饋神經(jīng)網(wǎng)絡(luò)不通,“遞歸神經(jīng)網(wǎng)絡(luò)”(recurrent neural networks)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),從而可讓一些神經(jīng)元的輸出反饋回來(lái)作為輸入信號(hào)。這樣的結(jié)構(gòu)與信息反饋過(guò)程,使得網(wǎng)絡(luò)在 t 時(shí)刻的輸出狀態(tài),不僅與 t 時(shí)刻的輸入有關(guān),還與 t-1 時(shí)刻的網(wǎng)絡(luò)狀態(tài)有關(guān),從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化。
  • Elman網(wǎng)絡(luò) (Dlman, 1990) 是最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一。它的結(jié)構(gòu)與多層前饋網(wǎng)絡(luò)很相似,但隱層神經(jīng)元的輸出被反饋回來(lái),與下一時(shí)刻輸入層神經(jīng)元提供的信號(hào)一起作為隱層神經(jīng)元在下一時(shí)刻的輸入。隱層神經(jīng)元通常采用Sigmoid激活函數(shù),而網(wǎng)絡(luò)的訓(xùn)練則通過(guò)推廣BP算法進(jìn)行。
5.5.6 Boltzmann機(jī)
  • 神經(jīng)網(wǎng)絡(luò)中有一類模型是為網(wǎng)絡(luò)狀態(tài)定義一個(gè)“能量”(energy),能量最小化時(shí)網(wǎng)絡(luò)達(dá)到理想狀態(tài),而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個(gè)能量函數(shù)。Boltzmann機(jī)就是一種“基于能量的模型”(energy-based model),其神經(jīng)元分為兩層,顯層和隱層。顯層用于展示數(shù)據(jù)的輸入與輸出,隱層則被理解為數(shù)據(jù)的內(nèi)在表達(dá)。
5.6 深度學(xué)習(xí)
  • 典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò)。然而,多隱層神經(jīng)網(wǎng)絡(luò)難以直接用經(jīng)典算法(例如BP算法)進(jìn)行訓(xùn)練,因?yàn)檎`差在多隱層內(nèi)逆?zhèn)鞑r(shí),往往會(huì)“發(fā)散”(diverge)而不能收斂到穩(wěn)定狀態(tài)。
    • 無(wú)監(jiān)督逐層學(xué)習(xí)訓(xùn)練(unsupervised layer-wise training)是多隱層網(wǎng)絡(luò)訓(xùn)練的有效手段,其基本思想是每次訓(xùn)練一層隱結(jié)點(diǎn)。訓(xùn)練時(shí)將上一層隱結(jié)點(diǎn)的輸出作為輸入,而本層隱結(jié)點(diǎn)的輸出作為下一層隱結(jié)點(diǎn)的輸入,這稱為“預(yù)訓(xùn)練”(pre-training);在預(yù)訓(xùn)練全部完成后,再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行“微調(diào)”(fine-tuning)訓(xùn)練。事實(shí)上,“預(yù)訓(xùn)練+微調(diào)”的做法可視為將大量參數(shù)分組,對(duì)每組先找到局部看來(lái)比較好的設(shè)置,然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來(lái)進(jìn)行全局尋優(yōu)。這樣就在利用了模型大量參數(shù)所提供的自由度的同時(shí),有效地節(jié)省了訓(xùn)練開(kāi)銷。
    • 另一種節(jié)省訓(xùn)練開(kāi)銷的策略是“權(quán)共享”(weight sharing),即讓一組神經(jīng)元使用相同的連接權(quán)。這個(gè)策略在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)中發(fā)揮了重要的作用。
  • 我們可以通過(guò)另一個(gè)角度來(lái)理解深度學(xué)習(xí)。無(wú)論是DBN(深度信念網(wǎng)絡(luò))還是CNN,其多隱層堆疊,每層對(duì)上一層的輸出進(jìn)行處理的機(jī)制,可看作是在對(duì)輸入信號(hào)進(jìn)行逐層加工,從而把初始的、與輸出目標(biāo)之間聯(lián)系不太密切的輸入表示,轉(zhuǎn)化成與輸出目標(biāo)聯(lián)系更密切的表示,使得原來(lái)僅基于最后一層輸出映射難以完成的任務(wù)成為可能。換言之,通過(guò)多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡(jiǎn)單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。由此,可將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”(feature learning)或“表示學(xué)習(xí)”(representation learning)。
  • 以往的機(jī)器學(xué)習(xí)用于現(xiàn)實(shí)任務(wù)時(shí),描述樣本的特征通常需要由人類專家來(lái)設(shè)計(jì),這稱為“特征工程”(feature engineering)。眾所周知,特征的好壞對(duì)泛化性能有至關(guān)重要的影響,人類專家設(shè)計(jì)出好特征也并非易事;特征學(xué)習(xí)則通過(guò)機(jī)器學(xué)習(xí)技術(shù)自身來(lái)產(chǎn)生好特征,這使機(jī)器學(xué)習(xí)向“全自動(dòng)數(shù)據(jù)分析”又前進(jìn)了一步。

Hello World

學(xué)術(shù)

工程

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. 章節(jié)主要內(nèi)容 今天讓我們來(lái)好好理解一下機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法吧,其中多隱含層的神經(jīng)網(wǎng)絡(luò)算法就是目前最熱的深...
    閃電隨筆閱讀 3,093評(píng)論 1 7
  • 怎么走到今天的境地的? 好學(xué)生好女兒好下屬。 隨波逐流戀愛(ài)結(jié)婚生子。 依賴父母的照顧。 依賴男人的經(jīng)濟(jì)。 父母的評(píng)...
    甜甜圈君閱讀 203評(píng)論 0 0
  • 世界上最浪費(fèi)時(shí)間的事就是給人講經(jīng)驗(yàn) 講一萬(wàn)句不如自己摔一跤 眼淚教你做人 后悔,幫你成長(zhǎng) 疼痛才是最好的老師 人生...
    我的鑰匙閱讀 258評(píng)論 0 0
  • 1.余下的人生,他能安好 在把李離的微信拉黑的一個(gè)禮拜后,蘇小小在拉薩被缺氧的高原氣候折磨的死去活來(lái),高燒不退。診...
    花子魚(yú)閱讀 770評(píng)論 0 0

友情鏈接更多精彩內(nèi)容