av经典高清在线,五月天丁香花网站,色婷婷狠狠久久中文

1. 最小化代價(jià)函數(shù)優(yōu)化方法：BGD、SGD、MBGD、動(dòng)量、NAG、Adagrad、AdaDelta、Adam、AMSGrad、牛頓法；

2. 前饋神經(jīng)網(wǎng)絡(luò)的隱藏單元不一定在所有的輸入點(diǎn)上可微；

3. CNN最大池化能產(chǎn)生一定程度的平移不變性；

4. 向量范數(shù)表征向量空間的大?。?/p>

image

1. CNN：LeNet、AlexNet、VGGNet、GoogLeNet、ResNet

數(shù)據(jù)增強(qiáng)技術(shù)：翻轉(zhuǎn)、裁剪、縮放、顏色抖動(dòng)、平移
Batch Size定義：一次訓(xùn)練所選取的樣本數(shù)。
Batch Size影響：影響模型的優(yōu)化程度和速度。同時(shí)其直接影響到GPU內(nèi)存的使用情況，假如GPU內(nèi)存不大，該數(shù)值最好設(shè)置小一點(diǎn)。使得梯度下降方向更加準(zhǔn)確
劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集：訓(xùn)練集：驗(yàn)證集：測(cè)試集的劃分比例為6:2:2
一階優(yōu)化方法：RMSProp
深度學(xué)習(xí)關(guān)系圖

image

1. 什么是深度學(xué)習(xí)：表達(dá)學(xué)習(xí)、可擴(kuò)展的機(jī)器學(xué)習(xí)、生物神經(jīng)網(wǎng)絡(luò)的近似/粗略實(shí)現(xiàn)、人類(lèi)的監(jiān)督越來(lái)越少、多階段的特征學(xué)習(xí)過(guò)程、相較于傳統(tǒng)模式識(shí)別

2. 激活函數(shù)分類(lèi)

image

合理的稀疏比例：70~80%，屏蔽特征過(guò)多容易出現(xiàn)欠擬合。

2. 正則化在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的作用

正則化可以很好的解決模型過(guò)擬合的問(wèn)題，常見(jiàn)的正則化方式有L2正則化和dropout，但是正則化是以犧牲模型的擬合能力來(lái)達(dá)到平衡的，因此在對(duì)訓(xùn)練集的擬合中有所損失。

3. L1正則化和L2正則化

L1正則化可以產(chǎn)生稀疏值矩陣，即產(chǎn)生一個(gè)稀疏模型，可以用于特征選擇和解決過(guò)擬合。能夠幫助模型找到重要特征，而去掉無(wú)用特征或影響甚小的特征。

L2 讓所有特征的系數(shù)都縮小, 但不會(huì)減為0，它會(huì)使優(yōu)化求解穩(wěn)定快速。所以L(fǎng)2適用于特征之間沒(méi)有關(guān)聯(lián)的情況。

L2正則化可以防止模型過(guò)擬合；一定程度上，L1也可以防止過(guò)擬合

4. 激活函數(shù)的作用

激活函數(shù)給神經(jīng)元引入了非線(xiàn)性因素，使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線(xiàn)性函數(shù)，深層神經(jīng)網(wǎng)絡(luò)表達(dá)能力更強(qiáng)大，可以應(yīng)用到眾多的非線(xiàn)性模型中。

5. Sigmoid函數(shù)

特點(diǎn)：它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出，特別的，如果是非常大的負(fù)數(shù)，那么輸出就是0；如果是非常大的正數(shù)，輸出就是1.

缺點(diǎn)：在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失，其中梯度爆炸發(fā)生的概率非常小，而梯度消失發(fā)生的概率比較大；Sigmoid 的 output 不是0均值；其解析式中含有冪運(yùn)算，計(jì)算機(jī)求解時(shí)相對(duì)來(lái)講比較耗時(shí)。

6. Relu函數(shù)

特點(diǎn)：解決了gradient vanishing問(wèn)題 (在正區(qū)間)；計(jì)算速度非?？?，只需要判斷輸入是否大于0；收斂速度遠(yuǎn)快于sigmoid和tanh

缺點(diǎn)：ReLU的輸出不是0均值；某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活，導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新。

7. AdaGrad算法

AdaGrad算法就是將每一個(gè)參數(shù)的每一次迭代的梯度取平方累加后在開(kāi)方，用全局學(xué)習(xí)率除以這個(gè)數(shù)，作為學(xué)習(xí)率的動(dòng)態(tài)更新。

其中，r為梯度累積變量，r的初始值為0。ε為全局學(xué)習(xí)率，需要自己設(shè)置。δ為小常數(shù)，為了數(shù)值穩(wěn)定大約設(shè)置為10^-7

8. 優(yōu)化算法的選擇

如果輸入數(shù)據(jù)是稀疏的，選擇任一自適應(yīng)學(xué)習(xí)率算法可能會(huì)得到最好的結(jié)果。無(wú)需調(diào)整學(xué)習(xí)率，選用默認(rèn)值就可能達(dá)到最好的結(jié)果。

RMSprop, Adadelta, 和 Adam 非常相似，在相同的情況下表現(xiàn)都很好。

偏置校驗(yàn)讓Adam的效果稍微比RMSprop好一點(diǎn)

進(jìn)行過(guò)很好的參數(shù)調(diào)優(yōu)的SGD+Momentum算法效果好于A(yíng)dagrad/Adadelta

如果不知道選擇哪種優(yōu)化算法，就直接選Adam吧

9. 如何判斷模型過(guò)擬合

模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好，而在測(cè)試集合上變現(xiàn)很差。過(guò)擬合即在訓(xùn)練誤差很小,而泛化誤差很大,因?yàn)槟Ｐ涂赡苓^(guò)于的復(fù)雜,

10. 如何防止過(guò)擬合

Dropout：神經(jīng)網(wǎng)絡(luò)的每個(gè)單元都被賦予在計(jì)算中被暫時(shí)忽略的概率p，稱(chēng)為丟失率，通常將其默認(rèn)值設(shè)置為0.5。然后，在每次迭代中，根據(jù)指定的概率隨機(jī)選擇丟棄的神經(jīng)元。因此，每次訓(xùn)練會(huì)使用較小的神經(jīng)網(wǎng)絡(luò)。

提前停止：讓模型在訓(xùn)練的差不多的時(shí)候就停下來(lái)，繼續(xù)訓(xùn)練帶來(lái)提升不大或者連續(xù)幾輪訓(xùn)練都不帶來(lái)提升的時(shí)候，這樣可以避免只是改進(jìn)了訓(xùn)練集的指標(biāo)但降低了測(cè)試集的指標(biāo)。

批量正則化：將卷積神經(jīng)網(wǎng)絡(luò)的每層之間加上將神經(jīng)元的權(quán)重調(diào)成標(biāo)準(zhǔn)正態(tài)分布的正則化層，可以讓每一層的訓(xùn)練都從相似的起點(diǎn)出發(fā)，而對(duì)權(quán)重進(jìn)行拉伸，等價(jià)于對(duì)特征進(jìn)行拉伸，在輸入層等價(jià)于數(shù)據(jù)增強(qiáng)。

11. 特征圖數(shù)

對(duì)于單通道圖像，若利用10個(gè)卷積核進(jìn)行卷積計(jì)算，可以得到10個(gè)特征圖；

若輸入為多通道圖像，則輸出特征圖的個(gè)數(shù)依然是卷積核的個(gè)數(shù)（10個(gè)）

12. 多通道多個(gè)卷積核卷積計(jì)算：

圖片：寬度:32，高度:32，圖片的通道數(shù)D；

卷積核：大小55，處理的圖片是D通道，因此卷積核是555*D。

卷積層維度變化：不填充，步長(zhǎng)為１，輸出的矩陣大小為32－5＋1=28, 32－5＋1=28, D

若填充，則分子部分改為：W-F+2*Padding

卷積后的值：D個(gè)channel的所有元素對(duì)應(yīng)相乘后求和

池化層維度變化：大?。玻?，步長(zhǎng)２．因此輸出大小為28/2=14，28/2=14，D

參數(shù)變化：（（（kernel_size）* stride + 1）* filters）

1. 卷積計(jì)算過(guò)程

image

可參考21。

此例步長(zhǎng)1，且未使用填充，即卷積層維度變化公式：

image

1.1、輸入（8，8，3）；4個(gè)卷積核（3，3，3，4）；卷積后的輸出Z0：（6，6，4），Z0的每個(gè)輸出都是3個(gè)channel的所有元素對(duì)應(yīng)相乘后求和；

1.2、經(jīng)ReLu激活（6，6，4）；

1.3、若有池化，池化層的計(jì)算與卷積層一樣規(guī)則；

1. BP反向傳播算法過(guò)程

殘差：誤差的偏導(dǎo)數(shù)

輸出層→隱藏層：殘差 = -(輸出值-樣本值) * 激活函數(shù)的導(dǎo)數(shù)

隱藏層→隱藏層：殘差 = (右層每個(gè)節(jié)點(diǎn)的殘差加權(quán)求和)* 激活函數(shù)的導(dǎo)數(shù)

更新權(quán)重：

輸入層：權(quán)重增加 = 輸入值 * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

隱藏層：權(quán)重增加 = 當(dāng)前節(jié)點(diǎn)的Sigmoid * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

偏移值：權(quán)重增加 = 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

學(xué)習(xí)率：一個(gè)預(yù)先設(shè)置好的參數(shù)，用于控制每次更新的幅度。

image

1. 一個(gè)矢量化的例子:

image

1. 幾個(gè)BP例子

image

卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)及其作用

輸入層->卷積層->激活層->池化層->全連接層

數(shù)據(jù)輸入層：對(duì)原始數(shù)據(jù)進(jìn)行初步處理，使卷積神經(jīng)網(wǎng)絡(luò)能有更好的效果

卷積層：提取特征

激活層：計(jì)算結(jié)果通過(guò)一個(gè)激活函數(shù)加一個(gè)非線(xiàn)性的關(guān)系，使能逼近任何函數(shù)

池化層：數(shù)據(jù)壓縮，提取主要特征，降低網(wǎng)絡(luò)復(fù)雜度

全連接層：分類(lèi)器角色，將特征映射到樣本標(biāo)記空間，本質(zhì)是矩陣變換

生成式模型和判別式模型的區(qū)別

生成式：由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作為預(yù)測(cè)的模型，表示了給定輸入X與產(chǎn)生輸出Y的生成關(guān)系。從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況，反映同類(lèi)數(shù)據(jù)本身的相似度，不關(guān)心判別邊界。

判別式：由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或條件概率分布P(Y|X)作為預(yù)測(cè)模型，關(guān)心的是對(duì)于給定的輸入X，應(yīng)該預(yù)測(cè)什么樣的輸出Y。尋找不同類(lèi)別之間的最優(yōu)分類(lèi)面，反映的是異類(lèi)數(shù)據(jù)之間的差異。

“梯度下降”的定義

迭代法的一種,可用于求解最小二乘問(wèn)題,讓梯度中所有偏導(dǎo)函數(shù)都下降到最低點(diǎn)的過(guò)程。梯度下降法的計(jì)算過(guò)程就是沿梯度下降的方向求解極小值，也可以沿梯度上升方向求解最大值

簡(jiǎn)述和討論“隨機(jī)梯度下降算法”

1、隨機(jī)梯度下降是每次迭代使用一個(gè)樣本來(lái)對(duì)參數(shù)進(jìn)行更新，使得訓(xùn)練速度加快。隨機(jī)梯度下降算法是為了解決深度學(xué)習(xí)中多元目標(biāo)函數(shù)的最優(yōu)值問(wèn)題。

2、隨機(jī)是指每次迭代過(guò)程中，樣本都要被隨機(jī)打亂。訓(xùn)練模型的目的是使得目標(biāo)函數(shù)達(dá)到極小值。

3、每次迭代并不是都向著整體最優(yōu)化方向，導(dǎo)致梯度下降的波動(dòng)非常大，更容易從一個(gè)局部最優(yōu)跳到另一個(gè)局部最優(yōu)，準(zhǔn)確度下降

隨機(jī)梯度下降算法終止條件

當(dāng)前后兩次迭代的差值小于某一值時(shí)，即收斂，迭代結(jié)束

Momentum****算法

參數(shù)更新時(shí)在一定程度上保留之前更新的方向，同時(shí)又利用當(dāng)前batch的梯度微調(diào)最終的更新方向，簡(jiǎn)言之就是通過(guò)積累之前的動(dòng)量來(lái)加速當(dāng)前的梯度。能夠加速SGD收斂，抑制震蕩。在梯度方向改變時(shí)，降低參數(shù)更新速度，從而減少震蕩；在梯度方向相同時(shí)，加速參數(shù)更新，從而加速收斂

比較最大似然估計(jì)（****ML****）與最大后驗(yàn)估計(jì)（****MAP****）的異同點(diǎn)****.

最大后驗(yàn)估計(jì) 正比于最大似然估計(jì)*先驗(yàn)概率

基于深度學(xué)習(xí)的通信信號(hào)識(shí)別技術(shù)研究

隨著下一代移動(dòng)通信網(wǎng)絡(luò)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,未來(lái)無(wú)線(xiàn)通信網(wǎng)絡(luò)將面臨有限頻譜資源上異構(gòu)網(wǎng)絡(luò)與復(fù)雜無(wú)線(xiàn)信號(hào)動(dòng)態(tài)共存的問(wèn)題,開(kāi)發(fā)新的基于信號(hào)檢測(cè)處理手段獲取無(wú)線(xiàn)網(wǎng)絡(luò)中的頻譜使用信息的頻譜感知技術(shù)顯得尤為重要。依賴(lài)于復(fù)雜人工分析提取特征的傳統(tǒng)通信信號(hào)識(shí)別技術(shù)已經(jīng)無(wú)法滿(mǎn)足上述需求。

利用深度學(xué)習(xí)算法構(gòu)建通信信號(hào)特征學(xué)習(xí)網(wǎng)絡(luò)和信號(hào)檢測(cè)識(shí)別算法,提高未來(lái)復(fù)雜無(wú)線(xiàn)通信環(huán)境下認(rèn)知通信終端的自主學(xué)習(xí)能力。通過(guò)引入短時(shí)傅里葉變換和離散小波變換機(jī)制,構(gòu)建基于深度學(xué)習(xí)的特征學(xué)習(xí)網(wǎng)絡(luò)和通信信號(hào)識(shí)別網(wǎng)絡(luò),以提高特征提取算法的自適應(yīng)性和信號(hào)識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性。在識(shí)別精度和低信噪比條件下能獲得更優(yōu)的性能。

損失函數(shù)：樣本的誤差；代價(jià)函數(shù)：整個(gè)訓(xùn)練集上所有樣本誤差的平均

目標(biāo)函數(shù)：代價(jià)函數(shù) + 正則化項(xiàng)

Mini-batch SGD****步驟

對(duì)一批數(shù)據(jù)取樣；前向傳播得到損失；反向傳播計(jì)算梯度；使用梯度更新參數(shù)

Batch Normalization

通常插入在全連接層或卷積層后，在非線(xiàn)性之前。

1）歸一化后加快了梯度下降求最優(yōu)解的速度；2）歸一化有可能提高精度

遷移學(xué)習(xí)

通過(guò)從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來(lái)改進(jìn)學(xué)習(xí)的新任務(wù)。

大數(shù)據(jù)與少標(biāo)注的矛盾；大數(shù)據(jù)與弱計(jì)算的矛盾；普適化模型與個(gè)性化需求的矛盾；特定應(yīng)用的需求

分類(lèi)和回歸問(wèn)題比較適合做遷移學(xué)習(xí)的場(chǎng)景，有標(biāo)簽的源數(shù)據(jù)是最好的輔助。

RNN****用途

語(yǔ)音識(shí)別；機(jī)器翻譯；音樂(lè)生成；文本生成；文本生成；情感分類(lèi)；DNA序列分析；視頻行為識(shí)別；實(shí)體名字識(shí)別

激活函數(shù)圖像

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程

抽象成數(shù)學(xué)問(wèn)題;獲取數(shù)據(jù);特征預(yù)處理與特征選;訓(xùn)練模型與調(diào)優(yōu);模型診斷;模型融合;上線(xiàn)運(yùn)行

常見(jiàn)的分類(lèi)算法

SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、邏輯回歸、KNN、貝葉斯

常見(jiàn)的監(jiān)督學(xué)習(xí)算法

感知機(jī)、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、邏輯回歸

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

深度學(xué)習(xí)基礎(chǔ)知識(shí)點(diǎn)歸納總結(jié)

深度學(xué)習(xí)基礎(chǔ)知識(shí)點(diǎn)歸納總結(jié)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

深度學(xué)習(xí)基礎(chǔ)知識(shí)點(diǎn)歸納總結(jié)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av