
1. 章節(jié)主要內(nèi)容
今天讓我們來(lái)好好理解一下機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法吧,其中多隱含層的神經(jīng)網(wǎng)絡(luò)算法就是目前最熱的深度學(xué)習(xí)算法。本章將從神經(jīng)網(wǎng)絡(luò)最小單元神經(jīng)元開(kāi)始,慢慢深入介紹,一步步的將神經(jīng)網(wǎng)絡(luò)算法娓娓道來(lái)。我將爭(zhēng)取對(duì)其中的具體的算法邏輯和思考策略進(jìn)行總結(jié)和概括,使大伙能更快更輕松的理解神經(jīng)網(wǎng)絡(luò)算法是什么!
1)神經(jīng)網(wǎng)絡(luò)的的基礎(chǔ)單元:神經(jīng)元(neuron)
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中的最基本的成分,其是仿造生物學(xué)中神經(jīng)細(xì)胞之間傳遞信號(hào)的方式而設(shè)計(jì)的。在生物神經(jīng)網(wǎng)絡(luò)中,神經(jīng)細(xì)胞都是相互相連的,當(dāng)一個(gè)神經(jīng)元接收到其它神經(jīng)元發(fā)送的化學(xué)物質(zhì)時(shí),其會(huì)判斷神經(jīng)元的電位是否超過(guò)閾值。如果超過(guò)了,該神經(jīng)元將會(huì)被激活,并向其它神經(jīng)元發(fā)送化學(xué)物質(zhì)。
與此類(lèi)似,機(jī)器學(xué)習(xí)中的神經(jīng)元接收來(lái)自 n 個(gè)其它神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào),這些輸入數(shù)據(jù)通過(guò)加權(quán)計(jì)算之后,神經(jīng)元將會(huì)判斷其是否超過(guò)神經(jīng)元閾值。如果超過(guò)閾值,神經(jīng)元將被激活,并通過(guò)“激活函數(shù)”(activation function)產(chǎn)生神經(jīng)元的輸出。
回顧我們?cè)诒緯?shū)第三章線性模型中學(xué)到的內(nèi)容,其實(shí)每一個(gè)神經(jīng)元就如同一個(gè)廣義線性模型一般,激活函數(shù)就是廣義線性模型中的聯(lián)系函數(shù)。下圖是書(shū)中一個(gè)具體的神經(jīng)元示例圖,以幫助大伙理解:

2)神經(jīng)元的初步組合:感知機(jī)和多層網(wǎng)絡(luò)
將許多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái),就得到了神經(jīng)網(wǎng)絡(luò),而不同的組合形式將生成不同的神經(jīng)網(wǎng)絡(luò)。
[1]感知機(jī)(perceptron)是早期的神經(jīng)網(wǎng)絡(luò)組合形式,由輸入層和輸出層兩層神經(jīng)元組成。因?yàn)楦兄獧C(jī)只擁有一層功能神經(jīng)元(functional neuron)-輸出層,其學(xué)習(xí)能力有限,在處理線性可分問(wèn)題(如邏輯與、非、或運(yùn)算)上效果很好,但在非線性可分問(wèn)題(邏輯異或)上無(wú)法求得合適解。
[2]多層網(wǎng)絡(luò)
要解決非線性可分問(wèn)題,需要考慮使用多層功能神經(jīng)元,即在輸入輸出層之外再加入中間層,這個(gè)中間層也叫隱含層。隱含層可以是一到多層,當(dāng)隱含層很多時(shí),這時(shí)的神經(jīng)網(wǎng)絡(luò)就是深度神經(jīng)網(wǎng)絡(luò)。
更一般的,每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連接,也不存在跨層連接,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常稱為“多層前饋神經(jīng)網(wǎng)絡(luò)”(multi-layer feedforward neural networks)
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就是根據(jù)訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)中神經(jīng)元之間的權(quán)重以及每個(gè)功能神經(jīng)元的閾值進(jìn)行調(diào)整的過(guò)程;換言之,神經(jīng)網(wǎng)絡(luò)“學(xué)”到的東西,蘊(yùn)涵在權(quán)重和閾值中。
3)多層網(wǎng)絡(luò)的學(xué)習(xí)算法:誤差逆?zhèn)鞑ニ惴ǎ╡rror BackPropagation,簡(jiǎn)稱BP算法)
多層網(wǎng)絡(luò)學(xué)習(xí)算法的目標(biāo)是通過(guò)調(diào)整網(wǎng)絡(luò)中的權(quán)重和閾值使得神經(jīng)網(wǎng)絡(luò)模型的泛化誤差最小(其實(shí)每一種機(jī)器學(xué)習(xí)算法的中心思想都是一致的,這在我們第二章的學(xué)習(xí)中已經(jīng)了解到了,設(shè)定一個(gè)模型/算法,用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,然后用測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,以找到泛化性能最高的模型結(jié)構(gòu)和參數(shù))。
BP算法也是一樣的,其目標(biāo)是要最小化訓(xùn)練集 D 上的累計(jì)誤差。對(duì)每個(gè)訓(xùn)練樣例,BP算法執(zhí)行以下操作:先將輸入示例提供給輸入層神經(jīng)元,然后逐層將信號(hào)前傳,直到產(chǎn)生輸出層的結(jié)果;然后計(jì)算輸出層的誤差,再將誤差逆向傳播至隱層神經(jīng)元;最后根據(jù)隱層神經(jīng)元的誤差來(lái)對(duì)連接權(quán)和閾值進(jìn)行調(diào)整。該循環(huán)重復(fù)進(jìn)行直到達(dá)到停止條件(比如訓(xùn)練誤差小于一定的值)
如何設(shè)置隱含層神經(jīng)元的個(gè)數(shù)仍是個(gè)未決問(wèn)題,實(shí)際應(yīng)用中通??俊霸囧e(cuò)法”(trial-by-error)調(diào)整。
由于神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表示能力,BP神經(jīng)網(wǎng)絡(luò)容易遭遇過(guò)擬合。目前有兩種策略常用來(lái)緩解神經(jīng)網(wǎng)絡(luò)過(guò)擬合現(xiàn)象:
[1]早停(early stopping):將數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集的策略,訓(xùn)練集用來(lái)計(jì)算梯度、更新權(quán)值和閾值,驗(yàn)證集用來(lái)估計(jì)誤差,若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高,則停止訓(xùn)練。
[2]正則化(regularization):其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分,這樣的話訓(xùn)練過(guò)程將會(huì)偏好比較小的連接權(quán)和閾值,使網(wǎng)絡(luò)輸出更加“光滑”,從而對(duì)過(guò)擬合有所緩解。
4)學(xué)習(xí)的參數(shù)是否是最優(yōu)解
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法是根據(jù)誤差的導(dǎo)數(shù)來(lái)對(duì)參數(shù)進(jìn)行調(diào)優(yōu)的過(guò)程。在數(shù)學(xué)上,導(dǎo)數(shù)值代表的是一個(gè)函數(shù)的斜率,是一種傾向性,所以以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整會(huì)使得誤差變小。
當(dāng)梯度為零時(shí),此時(shí)的誤差達(dá)到了一個(gè)極值,即其誤差函數(shù)值小于鄰點(diǎn)的誤差函數(shù)值。但是這個(gè)極值只可能是一個(gè)局部極小值,而并不一定是全局極小值。我們可以根據(jù)下圖來(lái)理解一下局部極小和全局極小之間的關(guān)系:

實(shí)際上,我們所要計(jì)算的是全局最小值,在現(xiàn)實(shí)任務(wù)中,人們常采用以下策略來(lái)試圖“跳出”局部極小,從而進(jìn)一步接近全局最?。?/p>
[1]以多組不同參數(shù)初始化多個(gè)神經(jīng)網(wǎng)絡(luò),取其中誤差最小的解。類(lèi)似于從不同出發(fā)點(diǎn)開(kāi)始搜索最小值,得到的多個(gè)局部最小中最小的那個(gè)更可能是全局最小
[2]“模擬退火”(simulated annealing)技術(shù):每一步以一定概率接受次優(yōu)解。每次以一定概率接受次優(yōu)解有助于“跳出”局部極小,不過(guò)接受次優(yōu)解的概率要隨著時(shí)間的推移而逐漸降低,從而保證算法穩(wěn)定
[3]隨機(jī)梯度下降。每次一個(gè)訓(xùn)練樣本算完后就直接調(diào)整參數(shù),而不要積累一定誤差再調(diào)整,這樣的好處在于在計(jì)算梯度時(shí)加入了隨機(jī)因素,于是即便陷入局部極小點(diǎn),它計(jì)算的梯度仍可能不為零,這樣就有機(jī)會(huì)跳出局部極小繼續(xù)搜索了
需注意的是,上述用于跳出局部極小的技術(shù)大多是啟發(fā)式,理論上尚缺乏保障。
5)神經(jīng)網(wǎng)絡(luò)的各種常用算法
將許多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái),就得到了神經(jīng)網(wǎng)絡(luò),而不同的神經(jīng)元結(jié)構(gòu)、不同的激活函數(shù)選擇、不同的誤差指標(biāo)選擇、不同的學(xué)習(xí)策略都會(huì)導(dǎo)致形成不同的神經(jīng)網(wǎng)絡(luò)
[1]RBF網(wǎng)絡(luò)
RBF(Radial Basis Function,徑向基函數(shù))網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)。
它的特點(diǎn)是:?jiǎn)坞[層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);使用徑向基函數(shù)作為隱層的激活函數(shù),而輸出層則是對(duì)隱層神經(jīng)元輸出的線性組合。
具體訓(xùn)練過(guò)程:第一步,確定神經(jīng)元中心,常用的包括隨機(jī)采樣、聚類(lèi)等;第二步,利用BP算法來(lái)確定參數(shù)。
[2]ART網(wǎng)絡(luò)
ART(Adaptive Resonance Theory,自適應(yīng)協(xié)振理論)網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)型(competitive learning)學(xué)習(xí)網(wǎng)絡(luò)。競(jìng)爭(zhēng)型學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略,在使用該策略時(shí),網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng),每一時(shí)刻只有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)元被激活。
它的特點(diǎn)是:兩層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分別是比較層(輸入)和識(shí)別層(輸出);無(wú)監(jiān)督的學(xué)習(xí)方式;競(jìng)爭(zhēng)型的神經(jīng)網(wǎng)絡(luò),即同時(shí)只有一個(gè)識(shí)別層結(jié)點(diǎn)被激活;識(shí)別層的神經(jīng)元數(shù)量可以動(dòng)態(tài)增加。
一個(gè)簡(jiǎn)單的ART網(wǎng)絡(luò)是這樣訓(xùn)練的:對(duì)輸入的數(shù)據(jù)向量,找到與每個(gè)識(shí)別層神經(jīng)元所對(duì)應(yīng)的模式類(lèi)代表向量的距離最小的神經(jīng)元。如果這個(gè)距離小于閾值,則將這個(gè)數(shù)據(jù)歸入該神經(jīng)元所屬的類(lèi)中,并重新計(jì)算這個(gè)神經(jīng)元的代表向量,否則重置模塊并在識(shí)別層上增設(shè)一個(gè)新的神經(jīng)元,其代表向量就設(shè)為當(dāng)前輸入向量。
[3]SOM網(wǎng)絡(luò)
SOM(Self-Organizing Map,自組織映射)網(wǎng)絡(luò)也是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)。
它的特點(diǎn)是:兩層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分別是輸入層和輸出層(輸出層以矩陣方式排列在二維空間中);無(wú)監(jiān)督的學(xué)習(xí)方式;競(jìng)爭(zhēng)型的神經(jīng)網(wǎng)絡(luò),即同時(shí)只有一個(gè)識(shí)別層結(jié)點(diǎn)被激活;
訓(xùn)練過(guò)程如下:對(duì)每個(gè)訓(xùn)練樣本,找到距離訓(xùn)練樣本最近的輸出神經(jīng)元,我們稱為最佳匹配單元;調(diào)整最佳匹配單元及其附近神經(jīng)元的權(quán)向量,使得權(quán)向量與當(dāng)前輸入樣本的距離縮??;不斷迭代直到收斂。
[4]級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)
級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)是一種結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò),其不像一般的神經(jīng)網(wǎng)絡(luò),它還將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)作學(xué)習(xí)的目標(biāo)之一。
訓(xùn)練過(guò)程如下:剛開(kāi)始訓(xùn)練時(shí),只有輸入和輸出層,處于最小拓?fù)浣Y(jié)構(gòu);隨著訓(xùn)練的進(jìn)行,逐漸加入新的隱層神經(jīng)元;其是通過(guò)最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)誤差之間的相關(guān)性(correlation)來(lái)訓(xùn)練相關(guān)參數(shù)。
和前饋神經(jīng)網(wǎng)絡(luò)相比,級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)無(wú)需設(shè)置網(wǎng)絡(luò)層數(shù)、隱層神經(jīng)元數(shù)目,所以訓(xùn)練速度較快,但在數(shù)據(jù)較小時(shí)容易陷入過(guò)擬合。
[5]Elman網(wǎng)絡(luò)
遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),從而可讓一些神經(jīng)元的輸出反饋回來(lái)作為輸入信號(hào)。這樣的結(jié)構(gòu)使得網(wǎng)絡(luò)狀態(tài)不僅與自身狀態(tài)相關(guān),還跟前一刻的狀態(tài)相關(guān),從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化。
Elman網(wǎng)絡(luò)是最常用的一個(gè)遞歸神經(jīng)網(wǎng)絡(luò),其使用隱層神經(jīng)元的輸出與下一刻的神經(jīng)元輸入一起作為下一刻的輸入。它使用Sigmoid激活函數(shù),并使用BP算法進(jìn)行訓(xùn)練
[6]Boltzmann機(jī)
Boltzmann機(jī)是一種“基于能量的模型”,其為網(wǎng)絡(luò)狀態(tài)定義一個(gè)“能量”,當(dāng)能量最小化時(shí)網(wǎng)絡(luò)達(dá)到理想狀態(tài)。
它的特點(diǎn)是:兩層結(jié)構(gòu),顯層與隱層,顯層即代表輸入也代表輸出,隱層則被理解為數(shù)據(jù)的內(nèi)部表達(dá);神經(jīng)元是布爾型
訓(xùn)練過(guò)程(對(duì)比散度 Contrastive Divergence 算法)如下:通過(guò)輸入層算出隱層分布,再通過(guò)隱層分布重新算出輸入層的新分布;并利用新分布與舊分布之間的差別調(diào)整連接權(quán)重
6)深度學(xué)習(xí)
理論上來(lái)說(shuō),參數(shù)越多的模型復(fù)雜度越高,這意味著它能完成更復(fù)雜的學(xué)習(xí)任務(wù)。但同樣的,復(fù)雜模型的缺點(diǎn)是訓(xùn)練慢,且易陷入過(guò)擬合。
但隨著大數(shù)據(jù)、云計(jì)算時(shí)代的到來(lái),計(jì)算能力大幅提高可緩解訓(xùn)練低效性,訓(xùn)練數(shù)據(jù)的大幅增加則可降低過(guò)擬合風(fēng)險(xiǎn),所以以“深度學(xué)習(xí)”為代表的復(fù)雜模型開(kāi)始受到人們的關(guān)注。
深度學(xué)習(xí)無(wú)法直接使用BP算法進(jìn)行訓(xùn)練,因?yàn)檎`差在多隱層內(nèi)傳播時(shí),往往會(huì)“發(fā)散”而不能收斂到穩(wěn)定狀態(tài)。
深度學(xué)習(xí)采用無(wú)監(jiān)督逐層訓(xùn)練(unsupervised layer-wise training)來(lái)訓(xùn)練模型,其基本思想是每次用無(wú)監(jiān)督方法訓(xùn)練一層隱結(jié)點(diǎn),并用本層結(jié)點(diǎn)的輸出作為下一層隱結(jié)點(diǎn)的輸入,這稱為“預(yù)訓(xùn)練”(pre-training);在預(yù)訓(xùn)練全部完成后,再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行“微調(diào)”(fine-tuning)訓(xùn)練。
比如,在深度信念網(wǎng)絡(luò)(Deep Belif networks,簡(jiǎn)稱DBN)中,每層都是一個(gè)受限Boltzmann機(jī),所以訓(xùn)練過(guò)程是對(duì)每一層的Boltzmann機(jī)進(jìn)行訓(xùn)練,等各層預(yù)訓(xùn)練完成后,再利用BP算法等對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
這種“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練策略很值得我們學(xué)習(xí),其等于將大量參數(shù)分組,先對(duì)每組進(jìn)行無(wú)監(jiān)督學(xué)習(xí)找到局部較優(yōu)解,然后再基于這些局部較優(yōu)解進(jìn)行全局尋優(yōu)。既保證了自由度,還有效的節(jié)省了訓(xùn)練開(kāi)銷(xiāo)
我們可以從另一個(gè)角度來(lái)理解深度學(xué)習(xí),其多隱層堆疊,可看作是在對(duì)輸入信號(hào)進(jìn)行逐層加工,從而把初始的、與輸出目標(biāo)之間聯(lián)系不太密切的輸入表示,轉(zhuǎn)換成與輸出目標(biāo)聯(lián)系更密切的表示。換言之,通過(guò)多層處理,逐漸將初始“低層”的特征轉(zhuǎn)換為“高層”特征表示,使得用簡(jiǎn)單模型就能完成復(fù)雜的分類(lèi)等學(xué)習(xí)任務(wù)。
由此,我們可以將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”的過(guò)程
2. 基礎(chǔ)知識(shí)
1)激活函數(shù)
用來(lái)產(chǎn)生神經(jīng)元輸出的函數(shù),一般是在區(qū)間[0,1](有例外),用來(lái)判斷神經(jīng)元是否被激活。常用的激活函數(shù)有階越函數(shù)、Sigmoid函數(shù)和ReLu函數(shù)。
2)多層前饋神經(jīng)網(wǎng)絡(luò)
每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連接,也不存在跨層連接,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常稱為多層前饋神經(jīng)網(wǎng)絡(luò)
3)誤差逆?zhèn)鞑ニ惴?/b>
對(duì)每個(gè)訓(xùn)練樣例,BP算法執(zhí)行一下操作:先將輸入示例提供給輸入層神經(jīng)元,然后逐層將信號(hào)前傳,直到產(chǎn)生輸出層的結(jié)果;然后計(jì)算輸出層的誤差,再將誤差逆向傳播至隱層神經(jīng)元;最后根據(jù)隱層神經(jīng)元的誤差來(lái)對(duì)連接權(quán)和閾值進(jìn)行調(diào)整。該循環(huán)重復(fù)進(jìn)行直到達(dá)到停止條件(比如訓(xùn)練誤差小于一定的值)
4)結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)
其不像一般的神經(jīng)網(wǎng)絡(luò),它還將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)作學(xué)習(xí)的目標(biāo)之一。
5)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)
允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),從而可讓一些神經(jīng)元的輸出反饋回來(lái)作為輸入信號(hào)。這樣的結(jié)構(gòu)使得網(wǎng)絡(luò)狀態(tài)不僅與自身狀態(tài)相關(guān),還跟前一刻的狀態(tài)相關(guān),從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化。
6)競(jìng)爭(zhēng)型學(xué)習(xí)
競(jìng)爭(zhēng)型學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略,在使用該策略時(shí),網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng),每一時(shí)刻只有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)元被激活。
3. 總結(jié)
1)神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中的基礎(chǔ)元件,其接收來(lái)自 n 個(gè)其它神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào),這些輸入數(shù)據(jù)通過(guò)加權(quán)計(jì)算之后,神經(jīng)元將會(huì)判斷其是否超過(guò)神經(jīng)元閾值。如果超過(guò)閾值,神經(jīng)元將被激活,并通過(guò)“激活函數(shù)”(activation function)產(chǎn)生神經(jīng)元的輸出。
2)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就是根據(jù)訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)中神經(jīng)元之間的權(quán)重以及每個(gè)功能神經(jīng)元的閾值進(jìn)行調(diào)整的過(guò)程、
3)BP算法是多層神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)主流算法
4)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中要加入適當(dāng)?shù)摹耙馔狻保员苊庀萑刖植孔顑?yōu)
5)將許多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái),就得到了神經(jīng)網(wǎng)絡(luò),而不同的神經(jīng)元結(jié)構(gòu)、不同的激活函數(shù)選擇、不同的誤差指標(biāo)選擇、不同的學(xué)習(xí)策略都會(huì)導(dǎo)致形成不同的神經(jīng)網(wǎng)絡(luò)
6)深度學(xué)習(xí)的訓(xùn)練是基于“預(yù)訓(xùn)練+微調(diào)”的策略進(jìn)行的
7)我們可以將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”的過(guò)程