python編程導(dǎo)論_第十課

學(xué)習安排(8月9日-8月10日)
1.主要學(xué)習視頻Week3
鏈接(http://www.xuetangx.com/courses/MITx/6_00_2x/2014_T2/courseware/d39541ec36564a88af34d319a2f16bd7/
2.輔助內(nèi)容:教材第15和17章

隨機程序、概率與分布

統(tǒng)計推斷

統(tǒng)計推斷的指導(dǎo)原則就是:一個從總體數(shù)據(jù)中隨機抽取的樣本往往可以表現(xiàn)出與總體相同的特性。

大數(shù)定律(也稱為伯努利定理):在獨立可重復(fù)的實驗中,如果每次實驗中出現(xiàn)某種特定結(jié)果的實際概率為p(例如,每次拋硬幣正面向上的實際概率為0.5),那么實驗次數(shù)接近無窮大時,出現(xiàn)這種結(jié)果的比例與實際概率p之間的差收斂于0。

值得注意的是,大數(shù)定律并不意味著如果預(yù)期行為出現(xiàn)偏差,那么這些偏差會在未來被相反的偏差“扯平”,盡管太多的人都是這樣認為的。這種對大數(shù)定律的濫用稱為賭徒謬誤。人們經(jīng)常將賭徒謬誤與均值回歸混淆。 均值回歸說明,如果出現(xiàn)一個極端的隨機事件,那么下一個隨機事件很可能就不是極端的。如果你將一個均勻的硬幣拋了6次,每次都是正面向上,那么均值回歸就意味著如果再拋6次硬幣,結(jié)果就非??赡芙咏?次正面向上這個期望值。而不是像賭徒謬誤那樣,認為在下一個拋擲序列中,正面向上的概率要小于反面向上的概率。在很多工作中,成功既需要能力,也需要運氣。能力決定了均值,運氣則導(dǎo)致了方差。運氣的隨機性解釋了均值回歸。

方差描述了集合中接近于均值的數(shù)值的比例。如果很多值都非常接近均值,方差就會很小。如果很多值都非常遠離均值,方差就會很大。如果所有值都一樣,方差就是0。

一個數(shù)值集合的標準差是方差的平方根。盡管它包含的信息與方差完全相同,但標準差更容易解釋,因為它與原始數(shù)據(jù)的單位是一致的。

標準差除以均值所得的值稱為變異系數(shù)。當我們比較具有不同均值的數(shù)據(jù)集合時(比如本例) ,變異系數(shù)比標準差更合適。并不是說變異系數(shù)總是比標準差更有用處。如果均值接近于0,那么均值的一個微小改變就會導(dǎo)致變異系數(shù)發(fā)生非常大(但不一定有意義)的變化。而且均值為0時,變異系數(shù)是沒有意義的。

概率分布

根據(jù)隨機變量是離散型的還是連續(xù)型的,概率分布可以分成兩類:離散型概率分布和連續(xù)型概率分布。 離散型隨機變量的取值是一個有限集合,如擲骰子的結(jié)果; 連續(xù)型隨機變量的取值可以是無限的,可以是兩個實數(shù)之間的任意一個實數(shù)。例如,汽車的行駛速度可以在0英里/小時和最大行駛速度之間。

離散型概率分布很容易描述,因為變量取值是有限的,所以只要簡單列出每個值的概率即可描述這種分布。連續(xù)型概率分布則更復(fù)雜一些。因為有無限多個可能的取值,所以連續(xù)型隨機變量取某個特
定的值的概率通常為0。數(shù)學(xué)家們喜歡用概率密度函數(shù)(probability density function)來描述連續(xù)型概率分布,并經(jīng)常將其縮寫為PDF。 PDF描述了一個隨機變量位于兩個數(shù)值之間的概率。

正態(tài)分布

正態(tài)分布(又稱高斯分布)由以下概率密度函數(shù)定義:
P(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
這里\mu表示均值,\sigma表示標準差。

正態(tài)分布在均值處達到最大值,并在均值兩下·x側(cè)對稱地減小,逐漸趨近于0。使用Python程序非常容易生成正態(tài)分布,調(diào)用函數(shù)random.gauss(mu, sigma)即可,這個函數(shù)會從一個均值為mu、標準差為sigma的正態(tài)分布中隨機返回一個浮點數(shù)。

正態(tài)分布的一個良好特性是均值和標準差的獨立性,如果想包括固定比例的數(shù)據(jù),那么從均值開始所需的標準差個數(shù)是一個常數(shù)。舉例來說,大約68.27%的數(shù)據(jù)都位于距均值1個標準差的范圍內(nèi),大約95.45%的數(shù)據(jù)位于距均值2個標準差的范圍內(nèi),大約99.73%的數(shù)據(jù)位于距均值3個標準差的范圍內(nèi)。人們有時將這種情況稱為68-95-99.7法則,但更多時候?qū)⑵浞Q為經(jīng)驗法則。

均勻分布

均勻分布可以是離散型的,也可以是連續(xù)型的。 連續(xù)型均勻分布也稱為矩形分布,它的特點是所有長度相同的區(qū)間都具有相同概率。

我們可以使用一個參數(shù)完全描述出連續(xù)型均勻分布的特性,即它的范圍(也就是最小值和最大值)。如果可能取值的范圍是min-max,那么一個值落入x~y的概率可以由以下公式給出:
P(x, y) = \begin{cases} \frac{y-x}{max-min} &\text{if $x≥min$ 且 $y≤max$x} \\ n+1 &\text{其他} \end{cases}
調(diào)用random.uniform(min, max)可以生成一個連續(xù)型均勻分布的值,它會返回在min和max之間隨機選擇的一個浮點數(shù)。
離散型均勻分布描述的是,結(jié)果不是連續(xù)的而且每個結(jié)果發(fā)生的概率完全相同的情況。我們可以使用下面的公式來完整地描述離散型均勻分布:
P(x) = \begin{cases} \frac{1}{|S|} &\text{if $x \in S$} \\ 0&\text{其他} \end{cases}
這里的S是可能出現(xiàn)的結(jié)果的集合, |S|是S中的元素數(shù)量。

二項式分布與多項式分布

只能在一個離散集合中取值的隨機變量稱為分類變量,也稱名義變量或離散變量。如果分類變量只可能有兩個值(如成功或失敗),那么這時的概率分布就稱為二項式分布。可以將二項式分布理解為n次獨立實驗中正好成功k次的概率。如果單次實驗成功的概率為p,那么n次獨立實驗中正好成功k次的概率可以由以下公式給出:
\left(C^k_n\right)p^k(1-p)^{n-k}
多項式分布是二項式分布的推廣,用來描述取值多于兩個的分類數(shù)據(jù)。如果在n次獨立實驗中,每次實驗都存在m個具有固定概率的互相排斥的結(jié)果,那么這時候適用于多項式分布。多項式分布可以給出各種結(jié)果的任何一種組合發(fā)生的概率。

指數(shù)分布和幾何分布

指數(shù)分布非常常見,它經(jīng)常用來對兩次輸入的時間間隔進行建模。例如,汽車進入高速公路的間隔時間和訪問網(wǎng)頁的時間間隔。

在Python語言中,生成指數(shù)分布非常容易,調(diào)用函數(shù)random.expovariate(lambd)即可, 這里的lambd是想得到的均值的倒數(shù)。如果lambd是個正數(shù),函數(shù)會返回0和正無窮大之間的一個值;如果lambd是個負數(shù),則返回負無窮大和0之間的一個值。

幾何分布是指數(shù)分布的離散模擬,經(jīng)常用于描述在第一次成功(或第一次失敗)之前所需的獨立嘗試次數(shù)。舉例來說,假設(shè)你有一輛很舊的汽車,當你轉(zhuǎn)動鑰匙(或按下啟動按鈕)時,它只有50%的概率能夠啟動。幾何分布就可以用來描述在成功之前嘗試啟動汽車的次數(shù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容