引言
我感覺學(xué)習(xí)機(jī)器學(xué)習(xí)算法還是要從數(shù)學(xué)角度入門才是唯一正道,機(jī)器學(xué)習(xí)領(lǐng)域大牛Michael I. Jordan給出的機(jī)器學(xué)習(xí)定義是,“A field that bridge computation and statistics,with ties to information theory, signal processing, algorithm, control theory and optimization theory”。所以對于機(jī)器學(xué)習(xí)的門徒來說,我認(rèn)為將計算機(jī)和統(tǒng)計理論有機(jī)結(jié)合起來才是正確的出路。市面上吹噓的所謂不介紹數(shù)學(xué)背景,只引入如何使用算法的書籍,只能是迎合那些急功近利的人的口味,確實(shí)可以感覺出被火熱概念炒出來的人們的浮躁。
當(dāng)然,看別人的浮躁,說明你也有一顆浮躁的心。
我還是踏踏實(shí)實(shí)的一步一個腳印的趕緊上路吧!不然,我也是一個隨波逐流,追趕魚潮的打漁人,沒有自己的根本,一旦翻了船,那才是一無所獲呢。
學(xué)校里很多老師教的課程確實(shí)都是在忽悠學(xué)生,其實(shí)他們可能也沒有很扎實(shí)的數(shù)學(xué)基礎(chǔ),以至于很難將學(xué)生領(lǐng)入正確的道路上來。至少作為聽課學(xué)生來講,我是這么感覺的。造成的結(jié)果是,感覺這門課程是獨(dú)立于一個領(lǐng)域的,是很孤立的。而從一些外文書籍中可以看出來,機(jī)器學(xué)習(xí)其實(shí)是多學(xué)科交叉的衍生物,和很多工程領(lǐng)域理論都有密切的聯(lián)系,這樣,至少讓我們這種初學(xué)者有據(jù)可查,不至于感覺它是從石頭縫里蹦出來的。
接下來,幾篇文章介紹的概率分布是構(gòu)建復(fù)雜模型的基礎(chǔ)。討論這些概率分布的一個重要應(yīng)用就是密度估計(density estimation),即根據(jù)有限的觀測數(shù)據(jù),去建立模型,然后得到這些隨機(jī)變量的樣本所遵循的概率分布。(直到這時,我才多少明白一點(diǎn)本科時概率統(tǒng)計課上教的參數(shù)估計是干什么用的)
二元變量(Binary Variables)
我們首先來考慮二元隨機(jī)變量x∈{0,1}。
伯努利分布(Bernoulli Distribution)
伯努利分布(the Bernoulli distribution,又名兩點(diǎn)分布或者0-1分布,是一個離散型概率分布,為紀(jì)念瑞士科學(xué)家雅各布·伯努利而命名),若伯努利試驗成功,則伯努利隨機(jī)變量取值為1。若伯努利試驗失敗,則伯努利隨機(jī)變量取值為0。
最大似然估計(Maximum Likelihood Estimation)
現(xiàn)在給出一組觀測數(shù)據(jù)D={x1,...,xN},我們通過構(gòu)建似然函數(shù),來估計參數(shù)μ(隨機(jī)變量取1時對應(yīng)的概率)。
舉個例子,
如果進(jìn)行三次觀測,三次觀測結(jié)果x均為1,那么μML為1,這說明未來的觀測結(jié)果應(yīng)該均為x=1。根據(jù)常識,這顯然是不合常理的。實(shí)際上,這是由于小數(shù)據(jù)集導(dǎo)致的過擬合的結(jié)果。接下來我們要解釋的就是從貝葉斯理論的角度,如何去理解這個問題。
二項分布(Binomial Distribution)
二項分布是n個獨(dú)立的是/非試驗中成功的次數(shù)的離散概率分布,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。實(shí)際上,當(dāng)n = 1時,二項分布就是伯努利分布。
二項分布定義為:
二項分布的期望和方差分別是:
Beta分布
為了解決小數(shù)據(jù)集中用最大似然估計的方法來估計參數(shù)產(chǎn)生的過擬合的現(xiàn)象,我們嘗試用貝葉斯的方式引入?yún)?shù)μ的先驗分布。
這里a和b被稱為超參數(shù)(hyperparameters),因為它們左右了參數(shù)μ的分布,它們不一定為整數(shù)。
下面的圖像顯示了不同的超參對分布的影響:
先驗概率
在貝葉斯統(tǒng)計中,某一不確定量p的先驗概率分布是在考慮"觀測數(shù)據(jù)"前,能表達(dá)p不確定性的概率分布。它旨在描述這個不確定量的不確定程度,而不是這個不確定量的隨機(jī)性。這個不確定量可以是一個參數(shù),或者是一個隱含變量(latent variable)。
在使用貝葉斯定理時,我們通過將先驗概率與似然函數(shù)相乘,隨后標(biāo)準(zhǔn)化,來得到后驗概率分布,也就是給出某數(shù)據(jù),該不確定量的條件分布。
先驗概率通常是主觀的猜測,為了使計算后驗概率方便,有時候會選擇共軛先驗。如果后驗概率和先驗概率是同一族的,則認(rèn)為它們是共軛分布,這個先驗概率就是對應(yīng)于似然函數(shù)的共軛先驗。
共軛分布(Conjugate Prior)
為了使得先驗分布和后驗分布的形式相同,我們定義:如果先驗分布和似然函數(shù)可以使得先驗分布和后驗分布有相同的形式,那么就稱先驗分布與似然函數(shù)是共軛的。所以共軛是指:先驗分布和似然函數(shù)共軛。
共軛先驗的意義在于,使得貝葉斯推理更加方便,比如在續(xù)貝葉斯推理(Sequential Bayesian inference連)中,得到一個observation之后,可以算出一個后驗分布。由于選取的是共軛先驗,因此后驗和原來先驗的形式一樣,可以把該后驗當(dāng)做新的先驗,用于下一次observation,然后繼續(xù)迭代。
后驗分布
參數(shù)μ的后驗分布是將其先驗分布乘上二項式似然函數(shù)(binomial likelihood function),再歸一化得到。
后驗分布有如下形式:
其中,l = N-m。
我們可以看出,這里的后驗分布和先驗分布有相同的形式,這體現(xiàn)了似然函數(shù)的共軛先驗的特性。這個后驗分布也是一個Beta分布,這樣我們可以將這個后驗分布當(dāng)做是一個新的先驗分布,當(dāng)?shù)玫揭唤M新的數(shù)據(jù)之后,我們可以更新得到新的后驗分布。
這種順序方法(sequential approach)每次利用一小波(small batches)觀測數(shù)據(jù),當(dāng)新的觀測數(shù)據(jù)來的時候,就會丟棄舊的觀測數(shù)據(jù)。
所以這種方法非常適用于數(shù)據(jù)流穩(wěn)定到來,而在觀測所有數(shù)據(jù)之后得出預(yù)測結(jié)果的實(shí)時學(xué)習(xí)的情景,因為這種方法不要求數(shù)據(jù)一次性的全部載入內(nèi)存來計算。
下面的圖片形象的描述了連續(xù)貝葉斯推理(sequential Bayesian inference)的一個環(huán)節(jié)。先驗分布參數(shù)a=2、b=2,對應(yīng)只有一個觀測數(shù)據(jù)x=1的似然函數(shù),其參數(shù)N=m=1,而后驗分布的參數(shù)a=3、b=2。
預(yù)測數(shù)據(jù)
現(xiàn)在我們要做的是,根據(jù)給定的觀測數(shù)據(jù)集D來評估x的預(yù)測分布。
由上式,我們可以看出,隨著數(shù)據(jù)癿增加, m、l 趨于無窮大時,這時參數(shù)的后驗分布就等于最大似然解。而對于有限數(shù)據(jù)集來說,參數(shù)μ的后驗均值總是介于先驗平均和μ的最大似然估計值之間的。
總結(jié)
我們可以看出,隨著觀測數(shù)據(jù)的增多,后驗分布變成一個越來越陡峭的山峰形狀。這通過Beta分布的方差可以看出,當(dāng)a和b趨近于無窮大時,Beta分布的方差趨近于0。從宏觀層面上說,當(dāng)我們觀察到更多的數(shù)據(jù)時,后驗分布所體現(xiàn)的不確定性將驟然降低(steadily decrease)。
有些先驗分布可以證明,隨著數(shù)據(jù)的增加方差越來越小,分布越來越陡,最后坍縮成狄拉克函數(shù),這時貝葉斯方法和頻率派方法是等價的。
參考資料
Pattern Recognition and Machine Learning, Christopher M. Bishop
Wiki:β-二項式分布
轉(zhuǎn)載請注明作者Jason Ding及其出處
Github主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.itdecent.cn/users/2bd9b48f6ea8/latest_articles)