貝葉斯(Bayesian)

關(guān)注貝葉斯的原因是看不懂這篇論文:Surprise! Bayesian Weighting for De-Biasing Thematic Maps。這篇可視化的文章引入了貝葉斯理論,將不符合預(yù)期分布的區(qū)域突出顯示了,作者認(rèn)為那個部分的內(nèi)容更有可視化的價值。然后問題就來了,什么是貝葉斯?阮一峰的博客有簡單的介紹,例子比較容易懂:http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html

貝葉斯的定義

關(guān)于貝葉斯定理幾個解釋

P(A|B)是B事件發(fā)生的情況下,A事件發(fā)生的概率是多少?假設(shè)A指代“下雨”,B指代“公交延誤”,那么P(A|B)指的就是在公交延誤的情形中,下雨的概率是多少。我們可以假定輸入的數(shù)據(jù)集為:

A(下雨)B(公交延誤):(1,0),(0,0),(1,1),(1,1),(0,1),(1,0)

那么通過統(tǒng)計計算P(A|B)=2/3,P(B|A)=2/4=1/2。現(xiàn)在讓我們來驗證定理,P(A|B)=P(B|A)P(A)/P(B)=2/3 與通過統(tǒng)計計算的結(jié)果是一致的。

貝葉斯有什么用?

假設(shè)數(shù)據(jù)集非常完備,特別是如今的大數(shù)據(jù)時代,我們可以收集到近乎完整的樣本,這樣便可以通過貝葉斯公式進(jìn)行事件的估計。根據(jù)之前的樣本和計算結(jié)果,我們可以得出,假設(shè)今天下雨了,那么公交延誤的概率應(yīng)該是1/2。如果發(fā)生的事件非常多的話,貝葉斯可以用做事件分類。

貝葉斯分類器

我們現(xiàn)在擴(kuò)充集合A和B,A(小雨,大雨,下雪)B(公交延誤,地鐵延誤,輪渡延誤,飛機(jī)延誤),我們稱A集合中的子集為Category,我們假設(shè)每條數(shù)據(jù)只能屬于一個Category,B中的子集為Feature,貝葉斯分類器的作用就是基于已有的Feature和Category數(shù)據(jù),再跟進(jìn)輸入的數(shù)據(jù)做分析,得出該輸入屬于哪個Category。

用做訓(xùn)練的數(shù)據(jù)假定是:

A(小雨),B(公交延誤,地鐵延誤)

A(大雨),B(公交延誤,地鐵延誤,飛機(jī)延誤)

A(小雨),B(公交延誤)

A(小雨),B(地鐵延誤)

A(大雨),B(地鐵延誤,飛機(jī)延誤)

A(下雪),B(公交延誤,地鐵延誤,飛機(jī)延誤)

于是P(A|B)=P(B1B2...Bn|A)P(A)/P(B1B2...Bn),如果B1B2...Bn之間相互不獨(dú)立的話,計算是非常麻煩的,于是有人就提出了假設(shè),假設(shè)B1B2...Bn之前彼此是相互獨(dú)立的,基于這種假設(shè)的貝葉斯叫樸素貝葉斯:P(A|B)=[P(B1|A)P(B2|A)...P(Bn|A)]P(A)/P(B1B2...Bn)

特殊的例子

如果輸入B的值在訓(xùn)練集中沒有對應(yīng)的數(shù)據(jù),就需要用正態(tài)分布來估計數(shù)據(jù)的值。讓我們看一個新的數(shù)據(jù)集:A(小雨,大雨,下雪)B(溫度,風(fēng)速,空氣質(zhì)量AQI):

A(小雨)B(25,2,50)

A(小雨)B(22,1,45)

A(小雨)B(27,3,53)

A(大雨)B(20,4,45)

A(大雨)B(19,3,59)

A(下雪)B(18,5,66)

假設(shè)現(xiàn)在輸入一組數(shù)據(jù)B(B1,B2,B3)=(24,2,51),求P(A|B),其實就是分別求P(小雨|B),P(大雨|B),P(下雪|B)。根據(jù)貝葉斯定理得P(小雨|B)=P(B|小雨)P(A)/P(B)。假定B事件各個部分相互獨(dú)立,可得P(小雨|B)=P(B|小雨)P(A)/P(B)=[ P(B1|小雨)P(B2|小雨) P(B3|小雨)]P(A)/[P(B1)P(B2)P(B3)],P(B1|小雨)=P(24|小雨)是其中的一個未知量,讓我們詳細(xì)討論這個量的求解過程。

因為24這個值原數(shù)據(jù)集中沒有,所以就需要用正態(tài)分布做估算?,F(xiàn)統(tǒng)計原始數(shù)據(jù)集中小雨的情況,小雨情況的溫度的期望為:24.6(平均值估計期望),方差1.187,利用正態(tài)分布的公式可求得,溫度值為24時,天氣為小雨的概率密度是0.285,求解方法如下:

概率密度估計

其他幾個分量的計算參考上面的公式p(24,小雨)就好了。最后可以分別求出P(小雨|B),P(大雨|B),P(下雪|B)的概率,選擇概率最大的做為最后的分類結(jié)果。




最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容