国产色97,日韩av色播,人人草人人妻91

1、MLE和MAP

MLE: 模型已定，參數(shù)未知

極大似然估計(jì)，是一種參數(shù)估計(jì)的方法。即假設(shè)樣本滿足某種分布，利用已知的樣本結(jié)果信息去反推最有可能導(dǎo)致這些樣本出現(xiàn)的模型參數(shù)值。
極大似然估計(jì)中的采樣必須滿足獨(dú)立同分布原則。
極大似然估計(jì)的核心關(guān)鍵就是對(duì)于一些情況，樣本太多，無法得出分布的參數(shù)值，可以采樣小樣本后，利用極大似然估計(jì)獲取假設(shè)中分布的參數(shù)值。

https://zhuanlan.zhihu.com/p/32480810
https://zhuanlan.zhihu.com/p/37215276

2、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)

為什么不用MSE，是因?yàn)榉诸悊栴}必須是one-hot形式算出各label的概率，然后通過softmax選出最終的分類，而MSE計(jì)算的loss曲線是波動(dòng)的，存在很多局部極值點(diǎn)，而cross entropy計(jì)算loss是凸優(yōu)化問題，有更好的收斂性。

MSE的loss曲線

那么問題來了，為什么cross entropy的曲線必定是凸的呢?
****************************************************=****************************************************************

分類問題，都用 onehot + cross entropy
training 過程中，分類問題用 cross entropy，回歸問題用 mean squared error。
training 之后，validation / testing 時(shí)，使用 classification error，更直觀，而且是我們最關(guān)注的指標(biāo)。

3、信息論

信息量：時(shí)間x0的信息量，p(x0)表示事件x0發(fā)生的概率

信息量

熵(信息熵)：隨機(jī)變量或者一個(gè)系統(tǒng)的不確定性，是對(duì)所有可能發(fā)生的事件產(chǎn)生的信息量的期望，熵越大，隨機(jī)變量或系統(tǒng)的不確定性就越大

信息熵

交叉熵：衡量在給定真實(shí)分布下，使用非真實(shí)分布所指定的策略消除系統(tǒng)的不確定性所需要付出代價(jià)

交叉熵(公式加負(fù)號(hào))

相對(duì)熵(K-L散度)：用來衡量?jī)蓚€(gè)取值為正的函數(shù)或概率分布之間的差異

相對(duì)熵

在機(jī)器學(xué)習(xí)中，常使用KL散度來評(píng)估預(yù)測(cè)分布和真實(shí)分布之間的差別，由于K-L散度的前部分是一個(gè)常量，因此常把后半部分的交叉熵作為損失函數(shù)，本質(zhì)是一樣的，是衡量?jī)蓚€(gè)分布的距離。

4、Batch Normalization

https://zhuanlan.zhihu.com/p/33173246
https://zhuanlan.zhihu.com/p/69659844
https://zhuanlan.zhihu.com/p/52749286
https://zhuanlan.zhihu.com/p/34879333
https://zhuanlan.zhihu.com/p/43200897
https://www.zhihu.com/question/38102762/answer/85238569
https://zhuanlan.zhihu.com/p/54530247

5、樣本不均衡問題

降采樣
重采樣

實(shí)際的效果，降采樣要優(yōu)于重采樣。

對(duì)大類數(shù)據(jù)先聚類得到n個(gè)簇，從每個(gè)簇中選擇一個(gè)代表性的樣本，再與小類樣本進(jìn)行訓(xùn)練。
數(shù)據(jù)合成，即隨機(jī)插值得到新樣本

6、歸一化

歸一化的好處：

加快了梯度下降求解最優(yōu)解的速度
有可能提高精度
歸一化類型：
線性歸一化
$x' = x - min(x)/ max(x) - min(x)$
標(biāo)準(zhǔn)差歸一化
x' = x - u / \sigma
非線性歸一化

7、beam_search和viterbi

8、激活函數(shù)

（1）線性函數(shù)
（2）sigmoid函數(shù) （嚴(yán)格遞增，值域0-1）
（3）tach函數(shù) （值域-1~1）
（4）ReLU=max(0,x) (稀疏)

邏輯回歸是神經(jīng)網(wǎng)絡(luò)的一個(gè)特例

9、

11、損失函數(shù)

交叉熵?fù)p失：衡量?jī)蓚€(gè)概率分布之間的距離，若p代表正確的label，q代表預(yù)測(cè)值，則 $H(p, q) = -\sum p(x) logq(x)$ 。而神經(jīng)網(wǎng)絡(luò)的輸出大多是實(shí)數(shù)，可用softmax轉(zhuǎn)換。
例如：一個(gè)三分類問題，某個(gè)樣例的正確答案是（1， 0， 0），某模型經(jīng)過softmax變換后的預(yù)測(cè)答案是（0.5， 0.4， 0.1），那預(yù)測(cè)和正確答案的交叉熵是： $H((1, 0, 0), (0.5, 0.4, 0.1)) = -(1*log0.5 + 0*log0.4 + 0*log0.1)=0.3$

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一些零碎的知識(shí)

一些零碎的知識(shí)

1、MLE和MAP

2、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)

3、信息論

4、Batch Normalization

5、樣本不均衡問題

6、歸一化

7、beam_search和viterbi

8、激活函數(shù)

9、

11、損失函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

一些零碎的知識(shí)

1、MLE和MAP

2、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)

3、信息論

4、Batch Normalization

5、樣本不均衡問題

6、歸一化

7、beam_search和viterbi

8、激活函數(shù)

9、

11、損失函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、MLE和MAP

2、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)

4、Batch Normalization

7、beam_search和viterbi

8、激活函數(shù)

9、

11、損失函數(shù)