深度學(xué)習(xí)基礎(chǔ)知識(shí)點(diǎn)歸納總結(jié)

1. 最小化代價(jià)函數(shù)優(yōu)化方法:BGD、SGD、MBGD、動(dòng)量、NAG、Adagrad、AdaDelta、Adam、AMSGrad、牛頓法;

2. 前饋神經(jīng)網(wǎng)絡(luò)的隱藏單元不一定在所有的輸入點(diǎn)上可微;

3. CNN最大池化能產(chǎn)生一定程度的平移不變性;

4. 向量范數(shù)表征向量空間的大?。?/p>

image
image

1. CNN:LeNet、AlexNet、VGGNet、GoogLeNet、ResNet

  1. 數(shù)據(jù)增強(qiáng)技術(shù):翻轉(zhuǎn)、裁剪、縮放、顏色抖動(dòng)、平移

  2. Batch Size定義:一次訓(xùn)練所選取的樣本數(shù)。

  3. Batch Size影響:影響模型的優(yōu)化程度和速度。同時(shí)其直接影響到GPU內(nèi)存的使用情況,假如GPU內(nèi)存不大,該數(shù)值最好設(shè)置小一點(diǎn)。使得梯度下降方向更加準(zhǔn)確

  4. 劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集:訓(xùn)練集:驗(yàn)證集:測(cè)試集的劃分比例為6:2:2

  5. 一階優(yōu)化方法:RMSProp

  6. 深度學(xué)習(xí)關(guān)系圖

image

1. 什么是深度學(xué)習(xí):表達(dá)學(xué)習(xí)、可擴(kuò)展的機(jī)器學(xué)習(xí)、生物神經(jīng)網(wǎng)絡(luò)的近似/粗略實(shí)現(xiàn)、人類(lèi)的監(jiān)督越來(lái)越少、多階段的特征學(xué)習(xí)過(guò)程、相較于傳統(tǒng)模式識(shí)別

2. 激活函數(shù)分類(lèi)

image
  1. 合理的稀疏比例:70~80%,屏蔽特征過(guò)多容易出現(xiàn)欠擬合。

2. 正則化在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的作用

正則化可以很好的解決模型過(guò)擬合的問(wèn)題,常見(jiàn)的正則化方式有L2正則化和dropout,但是正則化是以犧牲模型的擬合能力來(lái)達(dá)到平衡的,因此在對(duì)訓(xùn)練集的擬合中有所損失。

3. L1正則化和L2正則化

L1正則化可以產(chǎn)生稀疏值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇和解決過(guò)擬合。能夠幫助模型找到重要特征,而去掉無(wú)用特征或影響甚小的特征。

L2 讓所有特征的系數(shù)都縮小, 但不會(huì)減為0,它會(huì)使優(yōu)化求解穩(wěn)定快速。所以L(fǎng)2適用于特征之間沒(méi)有關(guān)聯(lián)的情況。

L2正則化可以防止模型過(guò)擬合;一定程度上,L1也可以防止過(guò)擬合

4. 激活函數(shù)的作用

激活函數(shù)給神經(jīng)元引入了非線(xiàn)性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線(xiàn)性函數(shù),深層神經(jīng)網(wǎng)絡(luò)表達(dá)能力更強(qiáng)大,可以應(yīng)用到眾多的非線(xiàn)性模型中。

5. Sigmoid函數(shù)

特點(diǎn):它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出,特別的,如果是非常大的負(fù)數(shù),那么輸出就是0;如果是非常大的正數(shù),輸出就是1.

缺點(diǎn):在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失,其中梯度爆炸發(fā)生的概率非常小,而梯度消失發(fā)生的概率比較大;Sigmoid 的 output 不是0均值;其解析式中含有冪運(yùn)算,計(jì)算機(jī)求解時(shí)相對(duì)來(lái)講比較耗時(shí)。

6. Relu函數(shù)

特點(diǎn):解決了gradient vanishing問(wèn)題 (在正區(qū)間);計(jì)算速度非???,只需要判斷輸入是否大于0;收斂速度遠(yuǎn)快于sigmoid和tanh

缺點(diǎn):ReLU的輸出不是0均值;某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活,導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新。

7. AdaGrad算法

AdaGrad算法就是將每一個(gè)參數(shù)的每一次迭代的梯度取平方累加后在開(kāi)方,用全局學(xué)習(xí)率除以這個(gè)數(shù),作為學(xué)習(xí)率的動(dòng)態(tài)更新。

其中,r為梯度累積變量,r的初始值為0。ε為全局學(xué)習(xí)率,需要自己設(shè)置。δ為小常數(shù),為了數(shù)值穩(wěn)定大約設(shè)置為10^-7

8. 優(yōu)化算法的選擇

如果輸入數(shù)據(jù)是稀疏的,選擇任一自適應(yīng)學(xué)習(xí)率算法可能會(huì)得到最好的結(jié)果。無(wú)需調(diào)整學(xué)習(xí)率,選用默認(rèn)值就可能達(dá)到最好的結(jié)果。

RMSprop, Adadelta, 和 Adam 非常相似,在相同的情況下表現(xiàn)都很好。

偏置校驗(yàn)讓Adam的效果稍微比RMSprop好一點(diǎn)

進(jìn)行過(guò)很好的參數(shù)調(diào)優(yōu)的SGD+Momentum算法效果好于A(yíng)dagrad/Adadelta

如果不知道選擇哪種優(yōu)化算法,就直接選Adam吧

9. 如何判斷模型過(guò)擬合

模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好,而在測(cè)試集合上變現(xiàn)很差。過(guò)擬合即在訓(xùn)練誤差很小,而泛化誤差很大,因?yàn)槟P涂赡苓^(guò)于的復(fù)雜,

10. 如何防止過(guò)擬合

Dropout:神經(jīng)網(wǎng)絡(luò)的每個(gè)單元都被賦予在計(jì)算中被暫時(shí)忽略的概率p,稱(chēng)為丟失率,通常將其默認(rèn)值設(shè)置為0.5。然后,在每次迭代中,根據(jù)指定的概率隨機(jī)選擇丟棄的神經(jīng)元。因此,每次訓(xùn)練會(huì)使用較小的神經(jīng)網(wǎng)絡(luò)。

提前停止:讓模型在訓(xùn)練的差不多的時(shí)候就停下來(lái),繼續(xù)訓(xùn)練帶來(lái)提升不大或者連續(xù)幾輪訓(xùn)練都不帶來(lái)提升的時(shí)候,這樣可以避免只是改進(jìn)了訓(xùn)練集的指標(biāo)但降低了測(cè)試集的指標(biāo)。

批量正則化:將卷積神經(jīng)網(wǎng)絡(luò)的每層之間加上將神經(jīng)元的權(quán)重調(diào)成標(biāo)準(zhǔn)正態(tài)分布的正則化層,可以讓每一層的訓(xùn)練都從相似的起點(diǎn)出發(fā),而對(duì)權(quán)重進(jìn)行拉伸,等價(jià)于對(duì)特征進(jìn)行拉伸,在輸入層等價(jià)于數(shù)據(jù)增強(qiáng)。

11. 特征圖數(shù)

對(duì)于單通道圖像,若利用10個(gè)卷積核進(jìn)行卷積計(jì)算,可以得到10個(gè)特征圖;

若輸入為多通道圖像,則輸出特征圖的個(gè)數(shù)依然是卷積核的個(gè)數(shù)(10個(gè))

12. 多通道多個(gè)卷積核卷積計(jì)算:

圖片:寬度:32,高度:32,圖片的通道數(shù)D;

卷積核:大小55,處理的圖片是D通道,因此卷積核是555*D。

卷積層維度變化:不填充,步長(zhǎng)為1,輸出的矩陣大小為32-5+1=28, 32-5+1=28, D

若填充,則分子部分改為:W-F+2*Padding

卷積后的值:D個(gè)channel的所有元素對(duì)應(yīng)相乘后求和

池化層維度變化:大?。玻?,步長(zhǎng)2.因此輸出大小為28/2=14,28/2=14,D

參數(shù)變化:(((kernel_size)* stride + 1)* filters)

1. 卷積計(jì)算過(guò)程

image

可參考21。

此例步長(zhǎng)1,且未使用填充,即卷積層維度變化公式:

image

1.1、輸入(8,8,3);4個(gè)卷積核(3,3,3,4);卷積后的輸出Z0:(6,6,4),Z0的每個(gè)輸出都是3個(gè)channel的所有元素對(duì)應(yīng)相乘后求和;

1.2、 經(jīng)ReLu激活(6,6,4);

1.3、 若有池化,池化層的計(jì)算與卷積層一樣規(guī)則;

1. BP反向傳播算法過(guò)程

殘差:誤差的偏導(dǎo)數(shù)

輸出層→隱藏層:殘差 = -(輸出值-樣本值) * 激活函數(shù)的導(dǎo)數(shù)

隱藏層→隱藏層:殘差 = (右層每個(gè)節(jié)點(diǎn)的殘差加權(quán)求和)* 激活函數(shù)的導(dǎo)數(shù)

更新權(quán)重:

輸入層:權(quán)重增加 = 輸入值 * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

隱藏層:權(quán)重增加 = 當(dāng)前節(jié)點(diǎn)的Sigmoid * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

偏移值:權(quán)重增加 = 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

學(xué)習(xí)率:一個(gè)預(yù)先設(shè)置好的參數(shù),用于控制每次更新的幅度。

image
image

1. 一個(gè)矢量化的例子:

image

1. 幾個(gè)BP例子

image
image
image
image

卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)及其作用

輸入層->卷積層->激活層->池化層->全連接層

數(shù)據(jù)輸入層:對(duì)原始數(shù)據(jù)進(jìn)行初步處理,使卷積神經(jīng)網(wǎng)絡(luò)能有更好的效果

卷積層:提取特征

激活層:計(jì)算結(jié)果通過(guò)一個(gè)激活函數(shù)加一個(gè)非線(xiàn)性的關(guān)系,使能逼近任何函數(shù)

池化層:數(shù)據(jù)壓縮,提取主要特征,降低網(wǎng)絡(luò)復(fù)雜度

全連接層:分類(lèi)器角色,將特征映射到樣本標(biāo)記空間,本質(zhì)是矩陣變換

生成式模型和判別式模型的區(qū)別

生成式:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作為預(yù)測(cè)的模型,表示了給定輸入X與產(chǎn)生輸出Y的生成關(guān)系。從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況,反映同類(lèi)數(shù)據(jù)本身的相似度,不關(guān)心判別邊界。

判別式:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或條件概率分布P(Y|X)作為預(yù)測(cè)模型,關(guān)心的是對(duì)于給定的輸入X,應(yīng)該預(yù)測(cè)什么樣的輸出Y。尋找不同類(lèi)別之間的最優(yōu)分類(lèi)面,反映的是異類(lèi)數(shù)據(jù)之間的差異。

“梯度下降”的定義

迭代法的一種,可用于求解最小二乘問(wèn)題,讓梯度中所有偏導(dǎo)函數(shù)都下降到最低點(diǎn)的過(guò)程。梯度下降法的計(jì)算過(guò)程就是沿梯度下降的方向求解極小值,也可以沿梯度上升方向求解最大值

簡(jiǎn)述和討論“隨機(jī)梯度下降算法”

1、隨機(jī)梯度下降是每次迭代使用一個(gè)樣本來(lái)對(duì)參數(shù)進(jìn)行更新,使得訓(xùn)練速度加快。隨機(jī)梯度下降算法是為了解決深度學(xué)習(xí)中多元目標(biāo)函數(shù)的最優(yōu)值問(wèn)題。

2、隨機(jī)是指每次迭代過(guò)程中,樣本都要被隨機(jī)打亂。訓(xùn)練模型的目的是使得目標(biāo)函數(shù)達(dá)到極小值。

3、每次迭代并不是都向著整體最優(yōu)化方向,導(dǎo)致梯度下降的波動(dòng)非常大,更容易從一個(gè)局部最優(yōu)跳到另一個(gè)局部最優(yōu),準(zhǔn)確度下降

隨機(jī)梯度下降算法終止條件

當(dāng)前后兩次迭代的差值小于某一值時(shí),即收斂,迭代結(jié)束

Momentum****算法

參數(shù)更新時(shí)在一定程度上保留之前更新的方向,同時(shí)又利用當(dāng)前batch的梯度微調(diào)最終的更新方向,簡(jiǎn)言之就是通過(guò)積累之前的動(dòng)量來(lái)加速當(dāng)前的梯度。能夠加速SGD收斂,抑制震蕩。在梯度方向改變時(shí),降低參數(shù)更新速度,從而減少震蕩;在梯度方向相同時(shí),加速參數(shù)更新,從而加速收斂

比較最大似然估計(jì)(****ML****)與最大后驗(yàn)估計(jì)(****MAP****)的異同點(diǎn)****.

最大后驗(yàn)估計(jì) 正比于最大似然估計(jì)*先驗(yàn)概率

基于深度學(xué)習(xí)的通信信號(hào)識(shí)別技術(shù)研究

隨著下一代移動(dòng)通信網(wǎng)絡(luò)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,未來(lái)無(wú)線(xiàn)通信網(wǎng)絡(luò)將面臨有限頻譜資源上異構(gòu)網(wǎng)絡(luò)與復(fù)雜無(wú)線(xiàn)信號(hào)動(dòng)態(tài)共存的問(wèn)題,開(kāi)發(fā)新的基于信號(hào)檢測(cè)處理手段獲取無(wú)線(xiàn)網(wǎng)絡(luò)中的頻譜使用信息的頻譜感知技術(shù)顯得尤為重要。依賴(lài)于復(fù)雜人工分析提取特征的傳統(tǒng)通信信號(hào)識(shí)別技術(shù)已經(jīng)無(wú)法滿(mǎn)足上述需求。

利用深度學(xué)習(xí)算法構(gòu)建通信信號(hào)特征學(xué)習(xí)網(wǎng)絡(luò)和信號(hào)檢測(cè)識(shí)別算法,提高未來(lái)復(fù)雜無(wú)線(xiàn)通信環(huán)境下認(rèn)知通信終端的自主學(xué)習(xí)能力。通過(guò)引入短時(shí)傅里葉變換和離散小波變換機(jī)制,構(gòu)建基于深度學(xué)習(xí)的特征學(xué)習(xí)網(wǎng)絡(luò)和通信信號(hào)識(shí)別網(wǎng)絡(luò),以提高特征提取算法的自適應(yīng)性和信號(hào)識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性。在識(shí)別精度和低信噪比條件下能獲得更優(yōu)的性能。

損失函數(shù):樣本的誤差 ;代價(jià)函數(shù):整個(gè)訓(xùn)練集上所有樣本誤差的平均

目標(biāo)函數(shù):代價(jià)函數(shù) + 正則化項(xiàng)

Mini-batch SGD****步驟

對(duì)一批數(shù)據(jù)取樣;前向傳播得到損失;反向傳播計(jì)算梯度;使用梯度更新參數(shù)

Batch Normalization

通常插入在全連接層或卷積層后,在非線(xiàn)性之前。

1)歸一化后加快了梯度下降求最優(yōu)解的速度;2)歸一化有可能提高精度

遷移學(xué)習(xí)

通過(guò)從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來(lái)改進(jìn)學(xué)習(xí)的新任務(wù)。

大數(shù)據(jù)與少標(biāo)注的矛盾;大數(shù)據(jù)與弱計(jì)算的矛盾;普適化模型與個(gè)性化需求的矛盾;特定應(yīng)用的需求

分類(lèi)和回歸問(wèn)題比較適合做遷移學(xué)習(xí)的場(chǎng)景,有標(biāo)簽的源數(shù)據(jù)是最好的輔助。

RNN****用途

語(yǔ)音識(shí)別;機(jī)器翻譯;音樂(lè)生成;文本生成;文本生成;情感分類(lèi);DNA序列分析;視頻行為識(shí)別;實(shí)體名字識(shí)別

激活函數(shù)圖像

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程

抽象成數(shù)學(xué)問(wèn)題;獲取數(shù)據(jù);特征預(yù)處理與特征選;訓(xùn)練模型與調(diào)優(yōu);模型診斷;模型融合;上線(xiàn)運(yùn)行

常見(jiàn)的分類(lèi)算法

SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、邏輯回歸、KNN、貝葉斯

常見(jiàn)的監(jiān)督學(xué)習(xí)算法

感知機(jī)、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、邏輯回歸

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容