一些零碎的知識(shí)

1、MLE和MAP

MLE: 模型已定,參數(shù)未知

極大似然估計(jì),是一種參數(shù)估計(jì)的方法。即假設(shè)樣本滿足某種分布,利用已知的樣本結(jié)果信息去反推最有可能導(dǎo)致這些樣本出現(xiàn)的模型參數(shù)值。
極大似然估計(jì)中的采樣必須滿足獨(dú)立同分布原則。
極大似然估計(jì)的核心關(guān)鍵就是對(duì)于一些情況,樣本太多,無法得出分布的參數(shù)值,可以采樣小樣本后,利用極大似然估計(jì)獲取假設(shè)中分布的參數(shù)值。

https://zhuanlan.zhihu.com/p/32480810
https://zhuanlan.zhihu.com/p/37215276

2、交叉熵?fù)p失函數(shù)和softmax損失函數(shù)

為什么不用MSE,是因?yàn)榉诸悊栴}必須是one-hot形式算出各label的概率,然后通過softmax選出最終的分類,而MSE計(jì)算的loss曲線是波動(dòng)的,存在很多局部極值點(diǎn),而cross entropy計(jì)算loss是凸優(yōu)化問題,有更好的收斂性。

MSE的loss曲線

那么問題來了,為什么cross entropy的曲線必定是凸的呢?
****************************************************=****************************************************************

分類問題,都用 onehot + cross entropy
training 過程中,分類問題用 cross entropy,回歸問題用 mean squared error。
training 之后,validation / testing 時(shí),使用 classification error,更直觀,而且是我們最關(guān)注的指標(biāo)。

3、信息論

信息量:時(shí)間x0的信息量,p(x0)表示事件x0發(fā)生的概率

信息量

熵(信息熵):隨機(jī)變量或者一個(gè)系統(tǒng)的不確定性,是對(duì)所有可能發(fā)生的事件產(chǎn)生的信息量的期望,熵越大,隨機(jī)變量或系統(tǒng)的不確定性就越大

信息熵

交叉熵:衡量在給定真實(shí)分布下,使用非真實(shí)分布所指定的策略消除系統(tǒng)的不確定性所需要付出代價(jià)

交叉熵(公式加負(fù)號(hào))

相對(duì)熵(K-L散度):用來衡量?jī)蓚€(gè)取值為正的函數(shù)或概率分布之間的差異

相對(duì)熵

在機(jī)器學(xué)習(xí)中,常使用KL散度來評(píng)估預(yù)測(cè)分布和真實(shí)分布之間的差別,由于K-L散度的前部分是一個(gè)常量,因此常把后半部分的交叉熵作為損失函數(shù),本質(zhì)是一樣的,是衡量?jī)蓚€(gè)分布的距離。

4、Batch Normalization

https://zhuanlan.zhihu.com/p/33173246
https://zhuanlan.zhihu.com/p/69659844
https://zhuanlan.zhihu.com/p/52749286
https://zhuanlan.zhihu.com/p/34879333
https://zhuanlan.zhihu.com/p/43200897
https://www.zhihu.com/question/38102762/answer/85238569
https://zhuanlan.zhihu.com/p/54530247

5、樣本不均衡問題

  • 降采樣
  • 重采樣

實(shí)際的效果,降采樣要優(yōu)于重采樣。

  • 對(duì)大類數(shù)據(jù)先聚類得到n個(gè)簇,從每個(gè)簇中選擇一個(gè)代表性的樣本,再與小類樣本進(jìn)行訓(xùn)練。
  • 數(shù)據(jù)合成,即隨機(jī)插值得到新樣本

6、歸一化

歸一化的好處:

  • 加快了梯度下降求解最優(yōu)解的速度
  • 有可能提高精度
    歸一化類型:
  • 線性歸一化
    x' = x - min(x)/ max(x) - min(x)
  • 標(biāo)準(zhǔn)差歸一化
    x' = x - u / \sigma
  • 非線性歸一化

7、beam_search和viterbi

8、激活函數(shù)

(1)線性函數(shù)
(2)sigmoid函數(shù) (嚴(yán)格遞增,值域0-1)
(3)tach函數(shù) (值域-1~1)
(4)ReLU=max(0,x) (稀疏)


邏輯回歸是神經(jīng)網(wǎng)絡(luò)的一個(gè)特例

9、

11、損失函數(shù)

交叉熵?fù)p失:衡量?jī)蓚€(gè)概率分布之間的距離,若p代表正確的label,q代表預(yù)測(cè)值,則H(p, q) = -\sum p(x) logq(x)。而神經(jīng)網(wǎng)絡(luò)的輸出大多是實(shí)數(shù),可用softmax轉(zhuǎn)換。
例如:一個(gè)三分類問題,某個(gè)樣例的正確答案是(1, 0, 0),某模型經(jīng)過softmax變換后的預(yù)測(cè)答案是(0.5, 0.4, 0.1),那預(yù)測(cè)和正確答案的交叉熵是:H((1, 0, 0), (0.5, 0.4, 0.1)) = -(1*log0.5 + 0*log0.4 + 0*log0.1)=0.3

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容