重要概率分布

在機器學(xué)習(xí)的世界中,沒有完全確定的事,所以所有機器學(xué)習(xí)算法本質(zhì)上都是在學(xué)習(xí)一種能夠最佳表達事物的概率分布。

因此我們很有必要對概率分布有一個清晰的理解。

概率分布是對隨機變量在現(xiàn)實世界中分布情況的表達,這里的隨機變量概括起來可以分為兩類:離散隨機變量、連續(xù)隨機變量。

離散隨機變量類似于拋擲硬幣時只能出現(xiàn)正面、反面,而沒有介于正面、反面之間的情況出現(xiàn);我們不能想當然認為離散隨機變量出現(xiàn)的情況只能是有限個,"離散"強調(diào)的是每種情況之間的非連續(xù)性。

連續(xù)隨機變量類似于我們用筆畫線所畫出的線的長度,這個長度值是可以為任意非負值的,所有連續(xù)隨機變量可能的取值是無限個的。

概率分布便是對隨機變量所有可能取值出現(xiàn)概率的一個完全列舉。

離散型隨機變量的概率分布可以用直方圖的形式表達出來;連續(xù)型隨機變量的概率分布卻只能用概率密度函數(shù)來表達,因為我們只能夠表達連續(xù)性隨機變量的取值為某一區(qū)間時的概率,而連續(xù)型隨機變量的值取該區(qū)間范圍時的概率就對應(yīng)于概率密度函數(shù)在該區(qū)間上的積分值。

隨機變量對應(yīng)的概率分布是有無限種的,而重要的概率分布卻不多(我們應(yīng)該為此感到慶幸);它們是那些對現(xiàn)實世界具有高度概括能力的概率分布。

  • 高斯分布

高斯分布又稱為正態(tài)分布,它是由德國數(shù)學(xué)家高斯提出的。

高斯分布在現(xiàn)實世界中是最常見的概率分布之一,它描述的是那些取極端值概率小,取中庸值概率大的隨機變量,例如人類的身高、班級數(shù)學(xué)成績、午餐用餐時間等等。

高斯分布的概率密度函數(shù)為:

圖片
  • 泊松分布

泊松分布是統(tǒng)計與概率學(xué)中常見的離散分布,它描述的是某段時間范圍內(nèi),某件事情n次的概率(單位時間內(nèi),隨機事件發(fā)生的次數(shù))。

泊松分布的概率分布為:

圖片
  • 伯努利分布

伯努利分布是概率學(xué)中非常常用的一種離散分布,它滿足(1)各次試驗中的事件相互獨立,每一次n=1和n=0的概率分別為p和q。(2)每次試驗的結(jié)果只可能是n=0或n=1。

伯努利分布的概率分布為:

圖片

目前我們所了解的有關(guān)概率論在機器學(xué)習(xí)中的應(yīng)用似乎只有樸素貝葉斯,其實概率率在機器學(xué)習(xí)算法中的應(yīng)用是非常廣泛的,之后將為大家慢慢解開概率論在機器學(xué)習(xí)中的神秘面紗。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容