概率入門

該篇內(nèi)容是在知乎上看到的Yjango大佬的分享做的筆記,原文是Joseph K. Blitzstein的《Introduce to Probability》中第一章的內(nèi)容的理解??催^后做個(gè)總結(jié)
首先,對(duì)線性代數(shù)和概率做了一個(gè)概括性描述:

通過線性代數(shù),我們知道了該如何描述事物狀態(tài)及其變化。遺憾的是,對(duì)一個(gè)微小的生物而言,世界并非確定性(nondeterministic)的,由于感知限制,很多事物是無法確定其狀態(tài)的。然而為了更好的生存,預(yù)測未來狀態(tài)以決定下一刻的行為至關(guān)重要。而概率給我們的決策提供了依據(jù)。

對(duì)此,我的理解是線性代數(shù)就像空間中的各種元素,通過權(quán)重的不同形成不同的物質(zhì)(例如C、O原子不同比例能夠組成CO、CO2等);而概率的意義在于既然物質(zhì)形成千變?nèi)f化,那么到底會(huì)生成那種物質(zhì)的確信度(概率)是多少

一、什么是概率(提出一個(gè)概念,樣本空間)

概率是我們對(duì)事件處于哪個(gè)狀態(tài)的確信度

下面的圖片如何考慮轉(zhuǎn)盤在未來停止后指針指向各個(gè)數(shù)字的可能性?(1、2、3是可能被指到的三個(gè)結(jié)果,這三個(gè)結(jié)果組成的集合也就是樣本空間(sample space))

樣本空間:即無論事態(tài)如何發(fā)展,結(jié)果都不會(huì)出現(xiàn)在該集合之外(和向量空間一樣)。

而樣本空間的子集,如{1、2}叫作一個(gè)事件(event),表示指針指到1或2的情況,滿足任何一個(gè)情況都算作該事件發(fā)生了(occurred)。所有事件發(fā)生的可能性都用值域?yàn)閇0,1]間的實(shí)數(shù)表示,1表示必然發(fā)生,0表示不可能發(fā)生。{1}, {2,3}兩個(gè)不相交的事件的概率和為1。[0,1]間的實(shí)數(shù)是概率得出的值,但并非概率的全部。概率是一個(gè)函數(shù)。

對(duì)于概率是一個(gè)函數(shù)的理解,函數(shù)的意義表示為通過一個(gè)輸入,有唯一對(duì)應(yīng)的輸出,對(duì)于概率來說,事件(樣本空間內(nèi)的子集)相當(dāng)于一個(gè)輸入,發(fā)生還是不發(fā)生的可能性(概率空間)就相當(dāng)于它的輸出
image.png
概率:概率是將樣本空間內(nèi)的子集投向概率空間的函數(shù)。

概率P()將事件A作為輸入,并輸出[0,1]之間的實(shí)數(shù)表示其發(fā)生的可能性。該函數(shù)需要滿足兩個(gè)條件:

  1. P(空) = 0,P(S) = 1,空集的概率為0,全集的概率為1
    2.不相交事件之間的并集事件的概率等于各個(gè)事件概率之和。(如P(1,2) = P(1) + P(2))
    結(jié)果:可能到達(dá)的狀態(tài)
    樣本空間:所有可能發(fā)生的結(jié)果所組成的集合。
    事件:樣本空間的子集
    當(dāng)實(shí)際發(fā)生的結(jié)果在A事件中,表示A事件發(fā)生。

二、樸素概率的計(jì)算和普遍概率的區(qū)別是什么

人們在計(jì)算概率時(shí)常常犯的錯(cuò)誤就是不假思索的假定所有結(jié)果所發(fā)生的可能性都相同。并用事件的結(jié)果個(gè)數(shù)比上樣本空間的結(jié)果個(gè)數(shù)。(就是把問題都想成了扔硬幣)


image.png

A和S表示集合中元素的個(gè)數(shù)
這種假設(shè)是不嚴(yán)謹(jǐn)?shù)模涸谏蠄D圓盤中,如果使用樸素概率來計(jì)算P(1) = P(2) = P(3) = 1/3,但是指向3的結(jié)果面積占圓盤的一半,指向3的概率更大,則各個(gè)結(jié)果發(fā)生的可能性并不相同,不可以使用樸素概率算法。

樣本空間好比是總價(jià)為1的一筐蘋果,一個(gè)事件就是一堆蘋果,概率是將這堆蘋果轉(zhuǎn)換成實(shí)際價(jià)錢的函數(shù)。但蘋果有大有小,只有當(dāng)所有蘋果都一模一樣時(shí),這堆蘋果的價(jià)錢才是 蘋果數(shù)/總個(gè)數(shù)??占?,即一個(gè)蘋果都沒有的話,價(jià)格為0。整框蘋果的話,價(jià)格自然為1。把整框蘋果分成幾堆(事件之間不相交),價(jià)格的總和為1。(雞蛋也一樣)
image.png

三、條件概率

當(dāng)我們獲得更多信息后,新信息會(huì)對(duì)原始樣本空間產(chǎn)生更新。(簡單來說就是信息對(duì)概率的影響)

條件概率是新信息對(duì)樣本空間進(jìn)行調(diào)整后的概率情況
  • 實(shí)例:從一副洗好的撲克里,不放回的依次抽兩張卡片。事件A表示第一張卡片是心,事件B表示第二張卡片是紅色。求事件B發(fā)生的條件下,事件A發(fā)生的概率P(A|B)。以及事件A發(fā)生的條件下,事件B發(fā)生的概率P(B|A)。
    卡片都是均勻形狀,可用樸素概率計(jì)算。最初的樣本空間是 54?53=2862 種。事件B發(fā)生的條件下,樣本空間被調(diào)整,所有第二張不是紅色的結(jié)果都會(huì)從樣本空間內(nèi)去掉,變成 26?53=1378種(可認(rèn)為第二張先抓,順序不影響組合結(jié)果)。其中第一張是心,且第二張是紅色的結(jié)果有13?25=325種。所以P(A|B)的概率為 325/1378≈0.236。
    事件A發(fā)生后,所有第一張不是心的結(jié)果都會(huì)從樣本空間內(nèi)去掉,變成13?53=689種。其中第一張是心,且第二張是紅色的結(jié)果有 13?25=325種。所以P(B|A)的概率為325/689≈0.472。
    P(A|B)和P(B|A)二者的條件對(duì)原始樣本空間的調(diào)整不同,所以并不相等。同時(shí)“|”右邊的事件并不意味首先發(fā)生,也并不意味著是左邊事件的起因。
  • 實(shí)例:先后投兩次硬幣。原始樣本空間是{正正,反反,正反,反正}。已知事件A是第一次投得正面,事件B是第二次投得正面。P(B|A)更新后的樣本空間為{正正,正反}。但第二次投得正面的概率仍然是1/2。事件A和事件B彼此沒有影響,叫做兩個(gè)事件獨(dú)立。
    條件概率:P(A|B) = P(A∩B) /P(B)(使用樣本空間的概念來考慮)
    P(A|B)表示B事件條件下,A發(fā)生的概率。
    P(A)叫作先驗(yàn)概率(prior probability),即時(shí)態(tài)未更新時(shí),A事件的概率。
    P(A|B)也叫作后驗(yàn)概率(posterior probability),即時(shí)態(tài)更新后,A事件的概率
    P(A∩B)是B發(fā)生后A的事件集合,而除以P(B)是在該基礎(chǔ)上,將樣本空間的總概率重新調(diào)整為1。
    當(dāng)事件A與B為獨(dú)立事件時(shí),其中一個(gè)事件的發(fā)生并不會(huì)對(duì)另一個(gè)事件的樣本空間產(chǎn)生影響。即P(A|B) = P(A),P(B|A) = P(B)

四、貝葉斯公式(P(A|B)與P(B|A)的關(guān)系)

人們經(jīng)常將P(A|B)和P(B|A)搞混,把二者搞混的現(xiàn)象叫做檢察官謬誤(prosecutor's fallacy)。

  • 實(shí)例:某機(jī)器對(duì)在所有人口中得病率為1%的癌癥識(shí)別率為95%(有病的人被測出患病的概率和沒病的人被測出健康的概率)。一個(gè)被測得有病的人真實(shí)患癌癥的概率是多少?
    得出答案是95%的人就是搞混了P(A|B)和P(B|A)。正確答案約等于16%。拿10000個(gè)人來思考。
    真正的樣本空間是由測得有病的癌癥患者和測得有病的正常人組成,所以答案是95/(95+495)≈16%。
    我們知道條件概率是新信息對(duì)樣本空間進(jìn)行調(diào)整后的概率情況,所以檢察官謬誤實(shí)際上是樣本空間的更新產(chǎn)生了差錯(cuò)。不過我們可以從條件概率中尋找關(guān)系:通過變形條件概率的定義,就可以得出著名的貝葉斯公式和全概率公式。
  • 貝葉斯公式(Bayes' theorem): P(A|B) = P(B|A)P(A)/P(B)
    (P(A|B) = P(A∩B) /P(B)P(B|A) = P(B∩A) /P(A),因?yàn)镻(A∩B) = P(B∩A),所以可以推導(dǎo)出貝葉斯公式 )
  • 全概率公式(Law of total probability):
    image.png

    其中Ai是樣本空間S的分割(partition),即彼此不相交,并且組成的并集是樣本空間。
    如下圖:
    image.png

    用這兩個(gè)公式,我們重新計(jì)算上面的癌癥問題:
  • 實(shí)例:其中P(A)是人口中患癌癥的概率,為1%,P(B)是測得有病的概率。P(B|A)是有患癌癥時(shí),測得有病的概率,為95%。P(B|AC)就是沒病時(shí)卻測得有癌癥的概率,為5%。
    要計(jì)算的是,當(dāng)被測得有病時(shí),真正患病的概率P(A|B)是多少。
    由貝葉斯公式可以得到:P(A|B) = P(B|A)P(A)/P(B) = 0.95 * 0.01 / P(B)
    由全概率公式可以得到:P(B) = P(B|A)P(A) + P(B|AC)P(AC)
    全部代入就得到: 0.95 * 0.01 / (0.95 * 0.01 + 0.05 * 0.99) = 16%
這兩個(gè)公式在機(jī)器學(xué)習(xí)中非常重要。貝葉斯公式告訴了我們P(A|B)和P(B|A)兩者之間的關(guān)系。很多時(shí)候,我們難以得出其中一個(gè)的時(shí)候,介意改求另一個(gè)。
  • 實(shí)例:語音識(shí)別中,聽到某串聲音的條件o下,該聲音是某段語音s的條件概率最大的argmaxP(s|o)為識(shí)別結(jié)果。然而P(s|o)并不好求。所以改求P(s|o) = P(o|s)P(s) / P(o)。P(o)對(duì)比較同一個(gè)P(s|o)時(shí)并沒有影響,因?yàn)榇蠹叶加?,則不需要考慮。剩下的P(o|s)叫做聲學(xué)模型,描述該段語音會(huì)發(fā)出什么樣的聲音。而P(s)叫做語言模型,包含著語法規(guī)則信息。
    而全概率公式又是連接條件概率與非條件概率的橋梁。
全概率公式可以將非條件概率,分成若干塊條件概率來計(jì)算。
  • 實(shí)例:三門問題。三扇門中有一扇門后是汽車,其余是羊。參賽者會(huì)先被要求選擇一扇門。這時(shí)主持人會(huì)打開后面是羊的一扇門,并給參賽者換到另一扇門的機(jī)會(huì)。問題是參賽者該不該換? 應(yīng)該換門。換門后獲得汽車的概率為2/3,不換門的概率為1/3。
    用全概率公式來思考該問題就可以將問題拆分成若干個(gè)相對(duì)簡單的條件概率。
    P(getcar)獲得汽車的概率可以用拆分成選擇各個(gè)門可得汽車的概率。P(D1)為車在第一扇門的概率。
    P(getcar) = P(getcar|D1)P(D1) + P(getcar|D2)P(D2) + P(getcar|D3)P(D3)
    P(getcar) = P(getcar|D1)1/3+ P(getcar|D2)1/3 + P(getcar|D3)1/3
    如果不換門,得車的概率就是P(D1),即1/3.
    若換門。當(dāng)車在第一扇門后時(shí),P(getcar||D1)
    1/3由于換門的選擇而變成了0。但當(dāng)車在第二或第三扇門后時(shí),由于主持人去掉了一扇后面為羊的門,換門的選擇會(huì)100%得到車。
    所以,P(getcar) = 0 * 1/3 + 1 * 1/3 +1 * 1/3 = 2/3

五、隨機(jī)變量

隨機(jī)變量是一種非常方便的事件表達(dá)方式。
我們用文字表達(dá)事件和概率時(shí),往往不利于計(jì)算

  • 實(shí)例:一開始的例子中,我們?nèi)粲梦淖秩ケ磉_(dá)事件和概率。樣本空間 S = { 橘黃色,綠色,藍(lán)色 }。
    情況1:若僅僅是問轉(zhuǎn)盤停止后指針指到某個(gè)顏色的概率還可以接受。如P(指到橘黃色)。
    情況2:如果是獎(jiǎng)勵(lì)游戲,轉(zhuǎn)到橘黃、綠、藍(lán)色分別獎(jiǎng)勵(lì)1、2、3元。轉(zhuǎn)3次后,想知道獎(jiǎng)勵(lì)了多少錢的概率。3元的我們要寫一次描述,4元的也要寫一次描述。十分笨拙。如果想問的是美元呢?我們又沒辦法用事件去乘以匯率。
    然而如果用隨機(jī)變量,就變得非常方便。設(shè)Xr表示轉(zhuǎn) r次后一共獎(jiǎng)勵(lì)了多少人民幣。 c是人民幣對(duì)美元匯率的話,c * Xr就表示表示轉(zhuǎn)r次后一共獎(jiǎng)勵(lì)了多少美元。Xr+1 - X(r)就表示了下一局贏得了多少人民幣。
隨機(jī)變量:給定一個(gè)樣本空間S,一個(gè)隨機(jī)變量(r.v.)是將樣本空間投射到實(shí)數(shù)域的函數(shù)。

一個(gè)樣本空間可以有很多個(gè)隨機(jī)變量。在最初的例子,我們就已經(jīng)將樣本空間S={橘黃色,綠色,藍(lán)色}對(duì)應(yīng)到了實(shí)數(shù)域中的1,2,3。


image.png

隨機(jī)變量作為函數(shù)而言是確定的。輸入事件橘黃色,一定會(huì)得到1這個(gè)輸出,函數(shù)本身并沒有什么“隨機(jī)”?!半S機(jī)”是由于函數(shù)的輸入(可能是黃色,綠色,藍(lán)色)的發(fā)生概率。
X = 3表達(dá)的是指針指到藍(lán)色的事件。P(X = 3)表達(dá)指針指到藍(lán)色的事件的概率。
隨機(jī)變量是認(rèn)為事先選擇的,非常靈活,好的隨機(jī)變量會(huì)使問題簡化許多。
根據(jù)隨機(jī)變量投射后的值域是離散還是連續(xù),隨機(jī)變量可以分為離散隨機(jī)變量和連續(xù)隨機(jī)變量。

六、分布

隨機(jī)變量中的“隨機(jī)”來自事件發(fā)生的概率。分布(distribution)是描述隨機(jī)變量所對(duì)應(yīng)的所有事件的發(fā)生概率的情況。

  • 實(shí)例:上例隨機(jī)變量X1(轉(zhuǎn)1次獎(jiǎng)勵(lì)人民幣數(shù))的分布情況用概率質(zhì)量函數(shù)(probability mass function,簡寫為PMF)表示就是:
    image.png
概率五要件
  • 樣本空間:所有可能結(jié)果組成的集合。
  • 隨機(jī)變量:將事件投向?qū)崝?shù)的函數(shù)。用數(shù)字代表事件。
  • 事件:樣本空間的子集。
  • 概率:將事件投向[0,1]實(shí)數(shù)域的函數(shù)。用實(shí)數(shù)表示確信度。
  • 分布:隨機(jī)變量的取值概率情況。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容