1、MLE和MAP
MLE: 模型已定,參數(shù)未知
極大似然估計(jì),是一種參數(shù)估計(jì)的方法。即假設(shè)樣本滿足某種分布,利用已知的樣本結(jié)果信息去反推最有可能導(dǎo)致這些樣本出現(xiàn)的模型參數(shù)值。
極大似然估計(jì)中的采樣必須滿足獨(dú)立同分布原則。
極大似然估計(jì)的核心關(guān)鍵就是對(duì)于一些情況,樣本太多,無法得出分布的參數(shù)值,可以采樣小樣本后,利用極大似然估計(jì)獲取假設(shè)中分布的參數(shù)值。
https://zhuanlan.zhihu.com/p/32480810
https://zhuanlan.zhihu.com/p/37215276
2、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)
為什么不用MSE,是因?yàn)榉诸悊栴}必須是one-hot形式算出各label的概率,然后通過softmax選出最終的分類,而MSE計(jì)算的loss曲線是波動(dòng)的,存在很多局部極值點(diǎn),而cross entropy計(jì)算loss是凸優(yōu)化問題,有更好的收斂性。

那么問題來了,為什么cross entropy的曲線必定是凸的呢?
****************************************************=****************************************************************
分類問題,都用 onehot + cross entropy
training 過程中,分類問題用 cross entropy,回歸問題用 mean squared error。
training 之后,validation / testing 時(shí),使用 classification error,更直觀,而且是我們最關(guān)注的指標(biāo)。
3、信息論
信息量:時(shí)間x0的信息量,p(x0)表示事件x0發(fā)生的概率

熵(信息熵):隨機(jī)變量或者一個(gè)系統(tǒng)的不確定性,是對(duì)所有可能發(fā)生的事件產(chǎn)生的信息量的期望,熵越大,隨機(jī)變量或系統(tǒng)的不確定性就越大

交叉熵:衡量在給定真實(shí)分布下,使用非真實(shí)分布所指定的策略消除系統(tǒng)的不確定性所需要付出代價(jià)

相對(duì)熵(K-L散度):用來衡量?jī)蓚€(gè)取值為正的函數(shù)或概率分布之間的差異

在機(jī)器學(xué)習(xí)中,常使用KL散度來評(píng)估預(yù)測(cè)分布和真實(shí)分布之間的差別,由于K-L散度的前部分是一個(gè)常量,因此常把后半部分的交叉熵作為損失函數(shù),本質(zhì)是一樣的,是衡量?jī)蓚€(gè)分布的距離。
4、Batch Normalization
https://zhuanlan.zhihu.com/p/33173246
https://zhuanlan.zhihu.com/p/69659844
https://zhuanlan.zhihu.com/p/52749286
https://zhuanlan.zhihu.com/p/34879333
https://zhuanlan.zhihu.com/p/43200897
https://www.zhihu.com/question/38102762/answer/85238569
https://zhuanlan.zhihu.com/p/54530247
5、樣本不均衡問題
- 降采樣
- 重采樣
實(shí)際的效果,降采樣要優(yōu)于重采樣。
- 對(duì)大類數(shù)據(jù)先聚類得到n個(gè)簇,從每個(gè)簇中選擇一個(gè)代表性的樣本,再與小類樣本進(jìn)行訓(xùn)練。
- 數(shù)據(jù)合成,即隨機(jī)插值得到新樣本
6、歸一化
歸一化的好處:
- 加快了梯度下降求解最優(yōu)解的速度
- 有可能提高精度
歸一化類型: - 線性歸一化
- 標(biāo)準(zhǔn)差歸一化
x' = x - u / \sigma - 非線性歸一化
7、beam_search和viterbi
8、激活函數(shù)
(1)線性函數(shù)
(2)sigmoid函數(shù) (嚴(yán)格遞增,值域0-1)
(3)tach函數(shù) (值域-1~1)
(4)ReLU=max(0,x) (稀疏)

9、
11、損失函數(shù)
交叉熵?fù)p失:衡量?jī)蓚€(gè)概率分布之間的距離,若p代表正確的label,q代表預(yù)測(cè)值,則
。而神經(jīng)網(wǎng)絡(luò)的輸出大多是實(shí)數(shù),可用softmax轉(zhuǎn)換。
例如:一個(gè)三分類問題,某個(gè)樣例的正確答案是(1, 0, 0),某模型經(jīng)過softmax變換后的預(yù)測(cè)答案是(0.5, 0.4, 0.1),那預(yù)測(cè)和正確答案的交叉熵是: