世界是我們的,也是你們的,但歸根結(jié)底,世界是貝葉斯的。
—— 胡所巴道·丹史乎由謝道里斯基
希望這篇文章能夠帶大家一起了解神奇的貝葉斯概念,啟發(fā)更多神奇的思考。
第一層 、基本知識:貝葉斯是誰?貝葉斯公式是什么?
托馬斯·貝葉斯(Thomas Bayes,1702~1761)是 18 世紀(jì)英國的一位數(shù)學(xué)家、神學(xué)家和哲學(xué)家。他在概率論領(lǐng)域做出了重要貢獻(xiàn),被認(rèn)為是概率論理論的創(chuàng)始人之一。
貝葉斯大概生活在咱們的康乾盛世的雍正乾隆帝在位時期,他比牛頓小40多歲,和歐拉差不多大,貝葉斯死后幾年,數(shù)學(xué)王子高斯就出生了。所以,貝葉斯可能見過老年的牛頓,但肯定沒遇到過高斯。

貝葉斯最大的貢獻(xiàn)就是總結(jié)出了貝葉斯定理,這個牛到可以統(tǒng)治宇宙的公式就是:
這個公式里面表示B事件發(fā)生的條件下A事件發(fā)生的概率,同樣,
就是A事件發(fā)生的條件下B事件發(fā)生的概率。
第二層、套用公式:怎么用貝葉斯公式解決問題?
我們兩個例子。
第一個例子
二姨給你介紹了個男朋友,只說是上班族,其他什么信息也沒給就安排你們見面,一見面,你發(fā)現(xiàn)他是個禿頭,現(xiàn)在就問,你認(rèn)為這人是程序員還是其他普通上班族?有多大概率是程序員?

已知40%的程序員都禿頭,而其他普通上班族只有10%會禿頭。那么你是否就認(rèn)為他很可能是個程序員呢?
錯!你不懂貝葉斯,我們看看貝神父怎么叫我們做人,科學(xué)計算已知禿頂?shù)某绦騿T概率有多大。
直接套用公式:
分析一下。
我們需要知道所有人里面程序員的概率
,估算一下,所有上班族里面大概10%是程序員,就是
。
我們已知等于30%。
是多少呢?就是所有人里面有多大概率是禿頭,100人為例,10個程序員40%就是4個禿頭,另外90人里面10%就是9個禿頭,加一起得到
帶入公式:
得到最終結(jié)論:此人僅有不足三分之一的可能是程序員。
第二個例子
這個有點(diǎn)難,咱們慢慢來。
你去醫(yī)院檢查是否得了某種癌癥,檢查結(jié)果是:你陽了...醫(yī)院檢查結(jié)果的正確性是80%,那么就問,你現(xiàn)在應(yīng)該慌不慌?應(yīng)該有多慌?
估計你要嚇?biāo)懒恕5鳛橐粋€學(xué)過貝葉斯公式并且掌握小學(xué)數(shù)學(xué)的人,我們來算算看,你現(xiàn)在有多大概率真的得了這種癌癥,就是的值,即拿到陽性報告的時候,你的患病可能是多大。
先套公式:
分析一下。
首先我們必須知道所有人里面患這個病的概率
,假設(shè)在所有人里面這個癌癥的患病率是5%,即
難點(diǎn)在這個90%正確率怎么理解。100個報告里面,有80個是正確的(陽了就真有病,陰了就真沒?。?,還有20個是錯誤的(沒病但陽了,有病卻陰了)。那么,有病的里面陰了幾個,沒病的里面又陽了幾個呢?我們假設(shè)認(rèn)為對于有病和沒病的人,報告錯誤率都是20%,即5個有病的人來了會錯報1個陰性,95個沒病的人來了也會錯報19個陽性。所以
,
帶入公式:
得出結(jié)論:你真正患病的可能性是17%,大概是六分之一。
第三層、推理證明:顛覆認(rèn)知的貝葉斯公式怎么來的?
開始之前我們做個小學(xué)三年級應(yīng)用題:所有人里面有50%是男人,男人里面有10%是渣滓,請問,渣男占所有人的比例是多少?
答案是,即
,
忽略所有,可以直接簡寫為
現(xiàn)在我們可以開始了。
首先,我們知道下面這句是廢話也是公理:
就是:
例如:
好吧,你認(rèn)為我在說廢話,那就OK了,咱們繼續(xù)。怎么計算呢?和算渣男概率差不多,就是100人里有多少是程序員,再乘以程序員里面有多少比例是禿子。
同理,怎么計算呢?就是100人里有多少是禿子,再乘以禿子里有多少比例是程序員。
合在一起就是:
簡化去掉所有:
移項除到右邊:
換成AB就是貝葉斯公式:
其實(shí)貝葉斯只是使用了小學(xué)三年級學(xué)會的乘法移項!
<未完待續(xù)>
下篇我們將關(guān)注貝葉斯因子以及更多有趣的相關(guān)算法和知識,敬請關(guān)注。