貝葉斯方法與其中的思想

content

連續(xù)性隨機(jī)變量的分布以及概率密度

似然函數(shù)

貝葉斯方法

參考資料(強(qiáng)烈推薦最后一個(gè))


連續(xù)性隨機(jī)變量的分布以及概率密度

連續(xù)性隨機(jī)變量的分布不能像離散型的分布那樣去描述。因?yàn)檫@種變量的取值充滿一個(gè)區(qū)間,如果取一個(gè)點(diǎn)問他的概率,只能是0。
刻畫連續(xù)性隨機(jī)變量的概率分布的一個(gè)方法是使用概率密度函數(shù)。

  • 定義:設(shè)連續(xù)型隨機(jī)變量X有概率分布函數(shù)F(x),則F(x)的導(dǎo)數(shù)f(x) = F‘(x) 稱為X的概率密度函數(shù)。

概率密度函數(shù)就是來(lái)描述連續(xù)性隨機(jī)變量的概率分布的。

  • 理解:在連續(xù)性隨機(jī)變量中去一個(gè)點(diǎn)x,事件{x < X ≤ x + h}的概率為F(x + h) - F(x)。因此[F(x + h) - F(x)] / h 為在x附近h這個(gè)長(zhǎng)度上單位長(zhǎng)度所占有的概率。令h趨近于0,則[F(x + h) - F(x)] / h的極限f(x) = F‘(x)為x點(diǎn)處單位長(zhǎng)的概率。

似然函數(shù)

似然函數(shù)的定義,它是給定聯(lián)合樣本值x下關(guān)于(未知)參數(shù)θ 的函數(shù):L(θ | x) = f(x | θ)
這里的x是指聯(lián)合樣本隨機(jī)變量X取到的值,即X = x;
這里的θ是指未知參數(shù),它屬于參數(shù)空間;
這里的f(x | θ)是一個(gè)密度函數(shù),特別地,它表示(給定)θ下關(guān)于聯(lián)合樣本值x的聯(lián)合密度函數(shù)。
簡(jiǎn)單來(lái)說,似然函數(shù)是關(guān)于θ的函數(shù)(通過各種情況的可能性,猜參數(shù))。密度函數(shù)是關(guān)于x的函數(shù)(通過參數(shù),推測(cè)各種情況的可能性)。
所以上邊等式的等號(hào)=理解為函數(shù)值形式的相等,而不是兩個(gè)函數(shù)本身是同一函數(shù)(根據(jù)函數(shù)相等的定義,函數(shù)相等當(dāng)且僅當(dāng)定義域相等并且對(duì)應(yīng)關(guān)系相等)。

總結(jié):概率密度表達(dá)給定θ下樣本隨機(jī)向量X = x的可能性,而似然表達(dá)了給定樣本X = x下參數(shù)θ1(相對(duì)于另外的參數(shù)θ2)為真實(shí)值的可能性。


貝葉斯方法 —— 先驗(yàn)與似然共舞

P(B|A) = P(AB) / P(A)

舉例:糾正拼寫,詳細(xì)例子見參考資料平凡而又神奇的貝葉斯方法
如果一個(gè)人在打字時(shí)輸入了thew,顯然這是一個(gè)錯(cuò)誤的單詞,但是實(shí)際上他想輸入的是the還是thaw或者是其他的呢?這里就引入了糾正拼寫問題。
我們需要得到的結(jié)果可以表示為P(我們猜測(cè)他想輸入的 | 輸入的是thew)
設(shè)我們猜測(cè)他想輸入的為h1, h2... 統(tǒng)稱為h
設(shè)他實(shí)際輸入的是D
則問題轉(zhuǎn)化為P(h | D)
使用貝葉斯公式得到P(h | D) = P(h) * P(D | h) / P(D)
也就是P(h | D) ∝ P(h) * P(D | h)
P(h)是什么: 它是在所有的詞匯表中輸入h代表的這個(gè)單詞的可能性,也就是h代表的這個(gè)單詞的先驗(yàn)概率
P(D | h)是什么: 回去看看上邊介紹的似然函數(shù),是不是有些眼熟。可以這么理解,我想要的是更好地滿足給定的D的情況下的h,這就是似然。

如果不使用貝葉斯呢?

一個(gè)最常見的替代方案就是,選擇離 thew 的編輯距離最近的。然而 the 和 thaw 離 thew 的編輯距離都是 1 。這可咋辦捏?你說,不慌,那還是好辦。我們就看到底哪個(gè)更可能被錯(cuò)打?yàn)?thew 就是了。我們注意到字母 e 和字母 w 在鍵盤上離得很緊,無(wú)名指一抽筋就不小心多打出一個(gè) w 來(lái),the 就變成 thew 了。而另一方面 thaw 被錯(cuò)打成 thew 的可能性就相對(duì)小一點(diǎn),因?yàn)?e 和 a 離得較遠(yuǎn)而且使用的指頭相差一個(gè)指頭(一個(gè)是中指一個(gè)是小指,不像 e 和 w 使用的指頭靠在一塊——神經(jīng)科學(xué)的證據(jù)表明緊鄰的身體設(shè)施之間容易串位)。OK,很好,因?yàn)槟悻F(xiàn)在已經(jīng)是在用最大似然方法了,或者直白一點(diǎn),你就是在計(jì)算那個(gè)使得 P(D | h) 最大的 h 。
——平凡而又神奇的貝葉斯方法

貝葉斯就是先驗(yàn)乘似然,既然似然已經(jīng)可以做到了,為什么還要多加一個(gè)先驗(yàn)?zāi)?。一方面?dāng)似然不能做出有有效判斷的時(shí)候,先驗(yàn)可以提供另一種判斷方式,例如詞語(yǔ)糾錯(cuò)中可以通過哪個(gè)詞更常見這個(gè)先驗(yàn)來(lái)進(jìn)行判斷。另一方面,即便一個(gè)猜測(cè)與數(shù)據(jù)非常符合,也并不代表這個(gè)猜測(cè)就是更好的猜測(cè),因?yàn)檫@個(gè)猜測(cè)本身的可能性也許就非常低。

例如:-1 3 7 11 你說是等差數(shù)列更有可能呢?還是 -X^3 / 11 + 9/11*X^2 + 23/11 每項(xiàng)把前項(xiàng)作為 X 帶入后計(jì)算得到的數(shù)列?此外曲線擬合也是,平面上 N 個(gè)點(diǎn)總是可以用 N-1 階多項(xiàng)式來(lái)完全擬合,當(dāng) N 個(gè)點(diǎn)近似但不精確共線的時(shí)候,用 N-1 階多項(xiàng)式來(lái)擬合能夠精確通過每一個(gè)點(diǎn),然而用直線來(lái)做擬合/線性回歸的時(shí)候卻會(huì)使得某些點(diǎn)不能位于直線上。
——平凡而又神奇的貝葉斯方法

所以到底哪個(gè)好呢?多項(xiàng)式?還是直線?一般地說肯定是越低階的多項(xiàng)式越靠譜,可以理解為低階多項(xiàng)式更常見,也就是其先驗(yàn)概率更大。當(dāng)然不是隨意的低階都可以,同樣要滿足其似然,因此這就是貝葉斯將先驗(yàn)和似然相乘的原因。
如果使用一個(gè)高階多項(xiàng)式完全擬合分布,甚至連噪聲都進(jìn)行了擬合,它確實(shí)是最大似然的選擇,但是它真的好嗎?是不是過擬合了?因此P(D | h) 大不代表你的 h (猜測(cè))就是更好的 h,還要看 P(h) 是怎樣的。

來(lái)比較哪個(gè)模型最為靠譜。前面提到,光靠 P(D | h) (即“似然”)是不夠的,有時(shí)候還需要引入 P(h) 這個(gè)先驗(yàn)概率。奧卡姆剃刀就是說 P(h) 較大的模型有較大的優(yōu)勢(shì),而最大似然則是說最符合觀測(cè)數(shù)據(jù)的(即 P(D | h) 最大的)最有優(yōu)勢(shì)。整個(gè)模型比較就是這兩方力量的拉鋸。我們不妨再舉一個(gè)簡(jiǎn)單的例子來(lái)說明這一精神:你隨便找枚硬幣,擲一下,觀察一下結(jié)果。好,你觀察到的結(jié)果要么是“正”,要么是“反”(不,不是少林足球那枚硬幣:P ),不妨假設(shè)你觀察到的是“正”?,F(xiàn)在你要去根據(jù)這個(gè)觀測(cè)數(shù)據(jù)推斷這枚硬幣擲出“正”的概率是多大。根據(jù)最大似然估計(jì)的精神,我們應(yīng)該猜測(cè)這枚硬幣擲出“正”的概率是 1 ,因?yàn)檫@個(gè)才是能最大化 P(D | h) 的那個(gè)猜測(cè)。然而每個(gè)人都會(huì)大搖其頭——很顯然,你隨機(jī)摸出一枚硬幣這枚硬幣居然沒有反面的概率是“不存在的”,我們對(duì)一枚隨機(jī)硬幣是否一枚有偏硬幣,偏了多少,是有著一個(gè)先驗(yàn)的認(rèn)識(shí)的,這個(gè)認(rèn)識(shí)就是絕大多數(shù)硬幣都是基本公平的,偏得越多的硬幣越少見(可以用一個(gè) beta 分布來(lái)表達(dá)這一先驗(yàn)概率)。將這個(gè)先驗(yàn)正態(tài)分布 p(θ) (其中 θ 表示硬幣擲出正面的比例,小寫的 p 代表這是概率密度函數(shù))結(jié)合到我們的問題中,我們便不是去最大化 P(D | h) ,而是去最大化 P(D | θ) * p(θ) ,顯然 θ = 1 是不行的,因?yàn)?P(θ=1) 為 0 ,導(dǎo)致整個(gè)乘積也為 0 。實(shí)際上,只要對(duì)這個(gè)式子求一個(gè)導(dǎo)數(shù)就可以得到最值點(diǎn)。
——平凡而又神奇的貝葉斯方法


參考資料:
概率論與數(shù)理統(tǒng)計(jì) 陳希孺
如何理解似然函數(shù) https://www.zhihu.com/question/54082000
如何通俗地理解概率論中的「極大似然估計(jì)法」?https://www.zhihu.com/question/24124998/answer/242682386
平凡而又神奇的貝葉斯方法http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容