神經(jīng)網(wǎng)絡(luò)

原理

《機(jī)器學(xué)習(xí)》周志華

5.1 神經(jīng)元模型

神經(jīng)網(wǎng)絡(luò)中最0基本的成分是神經(jīng)元(neuron)模型。
M-P神經(jīng)元模型：神經(jīng)元接收到來(lái)自n個(gè)其他神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào)，這些輸入信號(hào)通過(guò)帶權(quán)重的連接(connection)進(jìn)行傳遞，神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進(jìn)行比較，然后通過(guò)“激活函數(shù)”(activation function)處理以產(chǎn)生神經(jīng)元的輸出。
Sigmoid函數(shù)常作為激活函數(shù)。Sigmoid函數(shù)把可能在較大范圍內(nèi)變化的輸入值擠壓到(0, 1)輸出范圍內(nèi)，因此有時(shí)也稱為“擠壓函數(shù)”(squashing function)。

5.2 感知機(jī)與多層網(wǎng)絡(luò)

感知機(jī)(Perceptron)由兩層神經(jīng)元組成，輸入層接收外界輸入信號(hào)后傳遞給輸出層，輸出層是M-P神經(jīng)元，亦稱“閾值邏輯單元”(threshold logic unit)。感知機(jī)能容易地實(shí)現(xiàn)邏輯與，或，非運(yùn)算。
更一般地，給定訓(xùn)練集，權(quán)重wi (i=1,2,...,n) 以及閾值 θ 可以通過(guò)學(xué)習(xí)得到。閾值 θ 可看作一個(gè)固定輸入為-1.0的“啞結(jié)點(diǎn)”( dummy node) 所對(duì)應(yīng)的連接權(quán)重 wn+1，這樣，權(quán)重和閾值的學(xué)習(xí)就可以統(tǒng)一為權(quán)重的學(xué)習(xí)。
感知機(jī)只有輸出層神經(jīng)元進(jìn)行激活函數(shù)處理，即只擁有一層功能神經(jīng)元(functional neuron)，其學(xué)習(xí)能力非常有限。事實(shí)上，上述與、或、非問(wèn)題都是線性可分(lineary separable)的問(wèn)題?？梢宰C明，落兩類模式是線性可分的，即存在一個(gè)線性超平面能將它們分開(kāi)，則感知機(jī)的學(xué)習(xí)過(guò)程一定會(huì)收斂(converge)而求得適當(dāng)?shù)臋?quán)向量 w = (w1, w2, ... , wn)；否則感知機(jī)學(xué)習(xí)過(guò)程將會(huì)發(fā)生振蕩(fluctuation)，w難以穩(wěn)定下來(lái)，不能求得合適解，例如感知機(jī)不能解決異或這樣簡(jiǎn)單的非線性可分問(wèn)題。
要解決非線性可分問(wèn)題，需考慮使用多層功能神經(jīng)元，簡(jiǎn)單的兩層感知機(jī)就能解決異或問(wèn)題。
輸入層與輸出層之間的一層神經(jīng)元，被稱為隱層或隱含層(hidden layer)。隱含層和輸出層都是擁有激活函數(shù)的功能神經(jīng)元。
每層神經(jīng)元與下一層神經(jīng)元完全互連，神經(jīng)元之間不存在同層連接，也不存在跨層連接，這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常稱為“多層前饋神經(jīng)網(wǎng)絡(luò)”(multi-layer feed forward neural networks)，其中輸入層神經(jīng)元接收外界輸入，隱層與輸出層神經(jīng)元對(duì)信號(hào)進(jìn)行加工，最終結(jié)果由輸出層神經(jīng)元輸出。
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程，就是根據(jù)訓(xùn)練數(shù)據(jù)來(lái)調(diào)整神經(jīng)元之間的“連接權(quán)”(connection weight) 以及每個(gè)功能神經(jīng)元的閾值；換言之，神經(jīng)網(wǎng)絡(luò)“學(xué)”到的東西，蘊(yùn)涵在連接權(quán)與閾值中。

5.3 誤差逆?zhèn)鞑ニ惴?/h5>

多層網(wǎng)絡(luò)的學(xué)習(xí)能力比單層感知機(jī)強(qiáng)得多。欲訓(xùn)練多層網(wǎng)絡(luò)，簡(jiǎn)單感知機(jī)學(xué)習(xí)規(guī)則是顯然不夠了，需要更強(qiáng)大的學(xué)習(xí)算法，誤差逆?zhèn)鞑?error BackPropagation, BP)算法就是其中最杰出的代表，它是迄今為止最成功的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?，F(xiàn)實(shí)任務(wù)中使用神經(jīng)網(wǎng)絡(luò)時(shí)，大多是在使用BP算法進(jìn)行訓(xùn)練。值得指出的是，BP算法不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò)，還可用于其他類型的神經(jīng)網(wǎng)絡(luò)，例如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)。但通常說(shuō)“BP網(wǎng)絡(luò)”時(shí)，一般是指用BP算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。

BP是一個(gè)迭代學(xué)習(xí)算法，在迭代的每一輪中采用廣義的感知機(jī)學(xué)習(xí)規(guī)則對(duì)參數(shù)進(jìn)行更新估計(jì)，任意參數(shù)v的更新估計(jì)式為 v <- v + △v

BP算法基于梯度下降(guadient descent)策略，以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整。

學(xué)習(xí)率 η ∈ (0, 1) 控制著算法每一輪迭代中的更新步長(zhǎng)，若太大則容易振蕩，太小則收斂速度又會(huì)過(guò)慢。有時(shí)為了做精細(xì)調(diào)整，不同層之間的學(xué)習(xí)率不同。

需要注意的是，BP算法的目標(biāo)是要最小化訓(xùn)練集D上的累積誤差。但我們上面介紹的“標(biāo)準(zhǔn)BP算法”每次僅針對(duì)一個(gè)訓(xùn)練樣例更新連接權(quán)和閾值，也就是說(shuō)，更新規(guī)則是基于單個(gè)的Ek推導(dǎo)而得。如果類似地推導(dǎo)出基于累積誤差最小化的更新規(guī)則，就得到了累積誤差逆?zhèn)鞑?accumulated error backpropagation)算法。累積BP算法與標(biāo)準(zhǔn)BP算法都很常用。一般來(lái)說(shuō)，標(biāo)準(zhǔn)BP算法每次更新只針對(duì)單個(gè)樣例，參數(shù)更新得非常頻繁，而對(duì)不同樣例進(jìn)行更新的效果可能出現(xiàn)“抵消”現(xiàn)象。因此為了達(dá)到同樣的累積誤差極小點(diǎn)，標(biāo)準(zhǔn)BP算法往往需要進(jìn)行更多次數(shù)的迭代。累積BP算法直接針對(duì)累積誤差最小化，它在讀取整個(gè)訓(xùn)練集D一遍后才對(duì)參數(shù)進(jìn)行更新，其參數(shù)更新的頻率低得多。但在很多任務(wù)中，累積誤差下降到一定程度之后，進(jìn)一步下降會(huì)非常緩慢，這時(shí)標(biāo)準(zhǔn)BP往往會(huì)更快地獲得較好的解，尤其是在訓(xùn)練集D非常大時(shí)更明顯。

Hornik et al., (1989) 證明，只需要一個(gè)包含足夠多神經(jīng)元的隱層，多層前饋網(wǎng)絡(luò)就能以任意精度逼近任意復(fù)雜度的連續(xù)函數(shù)。然而，如何設(shè)置隱層神經(jīng)元的個(gè)數(shù)仍是個(gè)未決問(wèn)題，實(shí)際應(yīng)用中通?？俊霸囧e(cuò)法”(trial-by-error)調(diào)整。

正是由于其強(qiáng)大的表示能力，BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過(guò)擬合，其訓(xùn)練誤差持續(xù)降低，但測(cè)試誤差卻可能上升。有兩種策略常用來(lái)緩解BP網(wǎng)絡(luò)的過(guò)擬合。

第一種策略是“早?！?early stopping)：將數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集，訓(xùn)練集用來(lái)計(jì)算梯度，更新連接權(quán)和閾值，驗(yàn)證集用來(lái)估計(jì)誤差，若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高，則停止訓(xùn)練，同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。

第二種策略是“正則化”(regularization)。其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述復(fù)雜度的部分，例如連接權(quán)與閾值的平方和。增加連接權(quán)與閾值的平方和這一項(xiàng)后，訓(xùn)練過(guò)程將會(huì)偏好比較小的連接權(quán)和閾值，使網(wǎng)絡(luò)輸出更為“光滑”，從而對(duì)過(guò)擬合有所緩解。

5.4 全局最小與局部最小

基于梯度的搜索是使用最為廣泛的參數(shù)尋優(yōu)方法。在此類方法中，我們從某些初始解出發(fā)，迭代尋找最優(yōu)參數(shù)值。每次迭代中，我們先計(jì)算誤差函數(shù)在當(dāng)前點(diǎn)的梯度，然后根據(jù)梯度確定搜索方向。例如，由于負(fù)梯度方向是函數(shù)值下降最快的方向，因此梯度下降法就是沿著負(fù)梯度方向搜索最優(yōu)解。若誤差函數(shù)在當(dāng)前點(diǎn)的梯度為零，則已達(dá)到局部極小，更新量將為零，這意味著參數(shù)的迭代更新將在此停止。顯然，如果誤差函數(shù)僅有一個(gè)局部極小，那么此時(shí)找到的局部極小就是全局最??；然而如果誤差函數(shù)具有多個(gè)局部極小，則不能保證找到的解是全局最小，對(duì)于后一種情形，我們稱參數(shù)尋優(yōu)陷入了局部極小，這顯然不是我們所希望的。
在現(xiàn)實(shí)任務(wù)中，人們常采用以下策略試圖“跳出”局部極小，從而進(jìn)一步接近全局最?。?/p>
- 以多組不同參數(shù)初始化多個(gè)神經(jīng)網(wǎng)絡(luò)，按標(biāo)準(zhǔn)方法訓(xùn)練后，取其中誤差最小的解作為最終參數(shù)。這相當(dāng)于從多個(gè)不同的初始點(diǎn)開(kāi)始搜索，這樣就可能陷入不同的局部最小。從中進(jìn)行選擇有可能獲得更接近全局最小的結(jié)果。
- 使用“模擬退火”(simulated annealing)技術(shù)，模擬退火在每一步都以一定的概率接受比當(dāng)前更差的結(jié)果，從而有助于“跳出”局部極小。在每步迭代過(guò)程中，接受“次優(yōu)解”的概率要隨著時(shí)間的推移而逐漸降低，從而保證算法穩(wěn)定。
- 使用隨機(jī)梯度下降，與標(biāo)準(zhǔn)梯度下降法精確計(jì)算梯度不同。隨機(jī)梯度下降法在計(jì)算梯度時(shí)加入了隨機(jī)因素。于是，即便陷入局部極小點(diǎn)，它計(jì)算出的梯度仍可能不為零，這樣就有機(jī)會(huì)跳出局部極小繼續(xù)搜索。
- 此外，遺傳算法(genetic algorithms)[Goldberg, 1989] 也常用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局最小，需注意的是，上述用于跳出局部極小的技術(shù)大多是啟發(fā)式，理論上缺乏保障。

5.5 其他常見(jiàn)神經(jīng)網(wǎng)絡(luò)

5.5.1 RBF網(wǎng)絡(luò)

RBF(Radial Basis Function, 徑向基函數(shù)) 網(wǎng)絡(luò) (Broomhead and Lowe, 1988) 是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)，它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù)，而輸出層則是對(duì)隱層神經(jīng)元輸出的線性組合。
通常采用兩步過(guò)程來(lái)訓(xùn)練RBF網(wǎng)絡(luò)：第一步，確定神經(jīng)元中心 ci，常用的方式包括隨機(jī)采用，聚類等；第二步，利用BP算法來(lái)確定參數(shù) wi 和 βi。

5.5.2 ART網(wǎng)絡(luò)

競(jìng)爭(zhēng)型學(xué)習(xí)(competitive learning) 是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略，在使用該策略時(shí)，網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng)，每一時(shí)刻僅有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)元被激活，其他神經(jīng)元的狀態(tài)被抑制，這種抑制亦稱“勝者通吃”(winner-take-all)原則。
ART(Adaptive Resonance Theory, 自適應(yīng)諧振理論)網(wǎng)絡(luò) (Carpenter and Grossberg, 1987) 是競(jìng)爭(zhēng)型學(xué)習(xí)的重要代表。該網(wǎng)絡(luò)由比較層、識(shí)別層、識(shí)別閾值和重置模塊構(gòu)成。其中，比較層負(fù)責(zé)接收輸入樣本，并將其傳遞給識(shí)別層神經(jīng)元。識(shí)別層每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)模式類，神經(jīng)元數(shù)目可在訓(xùn)練過(guò)程中動(dòng)態(tài)增長(zhǎng)以增加新的模式類。
在接收到比較層的輸入信號(hào)后，識(shí)別層神經(jīng)元之間的相互競(jìng)爭(zhēng)以產(chǎn)生獲勝神經(jīng)元。競(jìng)爭(zhēng)最簡(jiǎn)單方式是，計(jì)算輸入向量與每個(gè)識(shí)別神經(jīng)元所對(duì)應(yīng)的模式類的代表向量之間的距離，距離最小者獲勝。獲勝神經(jīng)元向其他識(shí)別層神經(jīng)元發(fā)出傳送信號(hào)，抑制其激活。若輸入向量與獲勝神經(jīng)元所對(duì)應(yīng)的代表向量之間的相似度大于識(shí)別閾值，則當(dāng)前輸入樣本將被歸為該代表向量所屬類別，同時(shí)，網(wǎng)絡(luò)連接權(quán)將會(huì)更新，使得以后再接收到相似輸入樣本時(shí)，該模式類會(huì)計(jì)算出更大的相似度，從而使該獲勝神經(jīng)元有更大可能獲勝；若相似度不大于識(shí)別閾值，則重置模塊將在識(shí)別層增設(shè)一個(gè)新的神經(jīng)元，其代表向量就設(shè)置為當(dāng)前輸入向量。
顯然，識(shí)別閾值對(duì)ART網(wǎng)絡(luò)的性能有重要影響。當(dāng)識(shí)別閾值較高時(shí)，輸入樣本將會(huì)被分成比較多，比較精細(xì)的模式類，而如果識(shí)別閾值較低，則會(huì)產(chǎn)生比較少，比較粗略的模式類。
ART比較好地緩解了競(jìng)爭(zhēng)學(xué)習(xí)中的“可塑性-穩(wěn)定性窘境”(stability-plasticity dilemma)?？伤苄允侵干窠?jīng)網(wǎng)絡(luò)要有學(xué)習(xí)新知識(shí)的能力，而穩(wěn)定性則是指神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識(shí)時(shí)要保持對(duì)舊知識(shí)的記憶。這就使得ART網(wǎng)絡(luò)具有一個(gè)很重要的優(yōu)點(diǎn)：可進(jìn)行增量學(xué)習(xí)(incremental learning)或在線學(xué)習(xí)(online learning)。增量學(xué)習(xí)是指在學(xué)得模型后，再接收到訓(xùn)練樣例時(shí)，僅需根據(jù)新樣例對(duì)模型進(jìn)行更新，不必重新訓(xùn)練整個(gè)模型，并且先前學(xué)得的有效信息不會(huì)被“沖掉”。在線學(xué)習(xí)是指每獲得一個(gè)新樣本就進(jìn)行一次模型更新。顯然，在線學(xué)習(xí)是增量學(xué)習(xí)的特例，而增量學(xué)習(xí)可視為“批模式”(batch-mode)的在線學(xué)習(xí)。

5.5.3 SOM網(wǎng)絡(luò)

SOM(Self-Organizaing Map, 自組織映射)網(wǎng)絡(luò) (Kohonen, 1982) 是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)，它能將高維輸入數(shù)據(jù)映射到低維空間（通常為二維），同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu)，即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的臨近神經(jīng)元。
SOM網(wǎng)絡(luò)中的輸出層神經(jīng)元以矩陣方式排列在二維空間中，每個(gè)神經(jīng)元都擁有一個(gè)權(quán)向量，網(wǎng)絡(luò)在接收輸入向量后，將會(huì)確定輸出層獲勝神經(jīng)元，它決定了該輸入向量在低維空間中的位置。SOM的訓(xùn)練目標(biāo)就是為每個(gè)輸入層神經(jīng)元找到合適的權(quán)向量，以達(dá)到保持拓?fù)浣Y(jié)構(gòu)的目的。
SOM的訓(xùn)練過(guò)程很簡(jiǎn)單：在接收到一個(gè)訓(xùn)練樣本后，每個(gè)輸出層神經(jīng)元會(huì)計(jì)算該樣本與自身攜帶的權(quán)向量之間的距離，距離最近的神經(jīng)元成為競(jìng)爭(zhēng)獲勝者，稱為最佳匹配單元(best matching unit)。然后，最佳匹配單元及其鄰近神經(jīng)元的權(quán)向量將被調(diào)整，以使得這些權(quán)向量與當(dāng)前輸入樣本的距離最小，這個(gè)過(guò)程不斷迭代，直至收斂。

5.5.4 級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)

一般的神經(jīng)網(wǎng)絡(luò)模型通常假設(shè)網(wǎng)絡(luò)結(jié)構(gòu)是事先固定的，訓(xùn)練的目的是利用訓(xùn)練樣本來(lái)確定合適的連接權(quán)、閾值等參數(shù)。與此同時(shí)，結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)則將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)做學(xué)習(xí)的目標(biāo)之一，并希望能在訓(xùn)練過(guò)程中找到最符合數(shù)據(jù)特點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)，級(jí)聯(lián)相關(guān)(Cascade-Correlation)網(wǎng)絡(luò) (Fahlman and Lebiere, 1990) 是結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)的重要代表。結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)亦稱“構(gòu)造性”(constructive)神經(jīng)網(wǎng)絡(luò)。
級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)有兩個(gè)主要成分：“級(jí)聯(lián)”和“相關(guān)”。級(jí)聯(lián)是指建立層次連接的層級(jí)結(jié)構(gòu)。在開(kāi)始訓(xùn)練時(shí)，網(wǎng)絡(luò)只有輸入層和輸出層，處于最小拓?fù)浣Y(jié)構(gòu)；隨著訓(xùn)練的進(jìn)行，新的隱層神經(jīng)元逐漸加入，從而創(chuàng)建起層級(jí)結(jié)構(gòu)。當(dāng)新的隱層神經(jīng)元加入時(shí)，其輸入端連接權(quán)值是凍結(jié)固定的。相關(guān)是指通過(guò)最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)之間的相關(guān)性(correlation)來(lái)訓(xùn)練相關(guān)的參數(shù)。
與一般的前饋神經(jīng)網(wǎng)絡(luò)相比，級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)無(wú)需設(shè)置網(wǎng)絡(luò)成熟，隱層神經(jīng)元數(shù)目，且訓(xùn)練速度較快，但其在數(shù)據(jù)較小時(shí)易陷入過(guò)擬合。

5.5.5 Elman網(wǎng)絡(luò)(RNN)

與前饋神經(jīng)網(wǎng)絡(luò)不通，“遞歸神經(jīng)網(wǎng)絡(luò)”(recurrent neural networks)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu)，從而可讓一些神經(jīng)元的輸出反饋回來(lái)作為輸入信號(hào)。這樣的結(jié)構(gòu)與信息反饋過(guò)程，使得網(wǎng)絡(luò)在 t 時(shí)刻的輸出狀態(tài)，不僅與 t 時(shí)刻的輸入有關(guān)，還與 t-1 時(shí)刻的網(wǎng)絡(luò)狀態(tài)有關(guān)，從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化。
Elman網(wǎng)絡(luò) (Dlman, 1990) 是最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一。它的結(jié)構(gòu)與多層前饋網(wǎng)絡(luò)很相似，但隱層神經(jīng)元的輸出被反饋回來(lái)，與下一時(shí)刻輸入層神經(jīng)元提供的信號(hào)一起作為隱層神經(jīng)元在下一時(shí)刻的輸入。隱層神經(jīng)元通常采用Sigmoid激活函數(shù)，而網(wǎng)絡(luò)的訓(xùn)練則通過(guò)推廣BP算法進(jìn)行。

5.5.6 Boltzmann機(jī)

神經(jīng)網(wǎng)絡(luò)中有一類模型是為網(wǎng)絡(luò)狀態(tài)定義一個(gè)“能量”(energy)，能量最小化時(shí)網(wǎng)絡(luò)達(dá)到理想狀態(tài)，而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個(gè)能量函數(shù)。Boltzmann機(jī)就是一種“基于能量的模型”(energy-based model)，其神經(jīng)元分為兩層，顯層和隱層。顯層用于展示數(shù)據(jù)的輸入與輸出，隱層則被理解為數(shù)據(jù)的內(nèi)在表達(dá)。

5.6 深度學(xué)習(xí)

典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò)。然而，多隱層神經(jīng)網(wǎng)絡(luò)難以直接用經(jīng)典算法(例如BP算法)進(jìn)行訓(xùn)練，因?yàn)檎`差在多隱層內(nèi)逆?zhèn)鞑r(shí)，往往會(huì)“發(fā)散”(diverge)而不能收斂到穩(wěn)定狀態(tài)。
- 無(wú)監(jiān)督逐層學(xué)習(xí)訓(xùn)練(unsupervised layer-wise training)是多隱層網(wǎng)絡(luò)訓(xùn)練的有效手段，其基本思想是每次訓(xùn)練一層隱結(jié)點(diǎn)。訓(xùn)練時(shí)將上一層隱結(jié)點(diǎn)的輸出作為輸入，而本層隱結(jié)點(diǎn)的輸出作為下一層隱結(jié)點(diǎn)的輸入，這稱為“預(yù)訓(xùn)練”(pre-training)；在預(yù)訓(xùn)練全部完成后，再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行“微調(diào)”(fine-tuning)訓(xùn)練。事實(shí)上，“預(yù)訓(xùn)練+微調(diào)”的做法可視為將大量參數(shù)分組，對(duì)每組先找到局部看來(lái)比較好的設(shè)置，然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來(lái)進(jìn)行全局尋優(yōu)。這樣就在利用了模型大量參數(shù)所提供的自由度的同時(shí)，有效地節(jié)省了訓(xùn)練開(kāi)銷。
- 另一種節(jié)省訓(xùn)練開(kāi)銷的策略是“權(quán)共享”(weight sharing)，即讓一組神經(jīng)元使用相同的連接權(quán)。這個(gè)策略在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)中發(fā)揮了重要的作用。
我們可以通過(guò)另一個(gè)角度來(lái)理解深度學(xué)習(xí)。無(wú)論是DBN(深度信念網(wǎng)絡(luò))還是CNN，其多隱層堆疊，每層對(duì)上一層的輸出進(jìn)行處理的機(jī)制，可看作是在對(duì)輸入信號(hào)進(jìn)行逐層加工，從而把初始的、與輸出目標(biāo)之間聯(lián)系不太密切的輸入表示，轉(zhuǎn)化成與輸出目標(biāo)聯(lián)系更密切的表示，使得原來(lái)僅基于最后一層輸出映射難以完成的任務(wù)成為可能。換言之，通過(guò)多層處理，逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后，用“簡(jiǎn)單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。由此，可將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”(feature learning)或“表示學(xué)習(xí)”(representation learning)。
以往的機(jī)器學(xué)習(xí)用于現(xiàn)實(shí)任務(wù)時(shí)，描述樣本的特征通常需要由人類專家來(lái)設(shè)計(jì)，這稱為“特征工程”(feature engineering)。眾所周知，特征的好壞對(duì)泛化性能有至關(guān)重要的影響，人類專家設(shè)計(jì)出好特征也并非易事；特征學(xué)習(xí)則通過(guò)機(jī)器學(xué)習(xí)技術(shù)自身來(lái)產(chǎn)生好特征，這使機(jī)器學(xué)習(xí)向“全自動(dòng)數(shù)據(jù)分析”又前進(jìn)了一步。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

3.1.1.3 神經(jīng)網(wǎng)絡(luò)

3.1.1.3 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

原理

5.1 神經(jīng)元模型

5.2 感知機(jī)與多層網(wǎng)絡(luò)

5.4 全局最小與局部最小

5.5 其他常見(jiàn)神經(jīng)網(wǎng)絡(luò)

5.5.1 RBF網(wǎng)絡(luò)

5.5.2 ART網(wǎng)絡(luò)

5.5.3 SOM網(wǎng)絡(luò)

5.5.4 級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)

5.5.5 Elman網(wǎng)絡(luò)(RNN)

5.5.6 Boltzmann機(jī)

5.6 深度學(xué)習(xí)

Hello World

學(xué)術(shù)

工程

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

3.1.1.3 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

原理

5.1 神經(jīng)元模型

5.2 感知機(jī)與多層網(wǎng)絡(luò)

5.4 全局最小與局部最小

5.5 其他常見(jiàn)神經(jīng)網(wǎng)絡(luò)

5.5.1 RBF網(wǎng)絡(luò)

5.5.2 ART網(wǎng)絡(luò)

5.5.3 SOM網(wǎng)絡(luò)

5.5.4 級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)

5.5.5 Elman網(wǎng)絡(luò)(RNN)

5.5.6 Boltzmann機(jī)

5.6 深度學(xué)習(xí)

Hello World

學(xué)術(shù)

工程

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av