1 基本概念
1.1 樣本空間與隨機(jī)事件
- 樣本空間
隨機(jī)試驗(yàn)的所有可能結(jié)果構(gòu)成的集合,記為S={e},e是樣本點(diǎn) - 隨機(jī)事件
樣本空間的子集
1.2 事件的相互關(guān)系及運(yùn)算
- 包含、相等
- 和事件(并集):至少一個(gè)發(fā)生
- 積事件(交集):同時(shí)發(fā)生
- 不相容/互斥(disjoint)
完全互斥為“補(bǔ)集”(Complement):P(Ac)=1-P(A) - 差事件:A發(fā)生,B不發(fā)生
- 逆事件(非):A的對(duì)立事件
1.3 概率性質(zhì)
- 互斥事件的加法準(zhǔn)則
P(A or B)=P(A)+P(B) - 一般加法準(zhǔn)則
P(A or B)=P(A)+P(B)-P(A and B) - 減法公式
P(A-B)=P(A)-P(AB) - 獨(dú)立事件的乘法準(zhǔn)則
P(A and B)=P(A)*P(B) - 一般乘法準(zhǔn)則
P(AB)=P(A|B)*(B)
- 獨(dú)立性,不論A是否發(fā)生,都不能提供B是否發(fā)生的信息,反之也是
- 獨(dú)立事件不互斥,互斥事件不獨(dú)立
1.4 抽樣
- 簡(jiǎn)單隨機(jī)抽樣simple random sampling
抽取結(jié)果為n個(gè)相互獨(dú)立且與總體具有相同概率分布的隨機(jī)變量的整體(independent and identically distributed, iid, 簡(jiǎn)稱(chēng)獨(dú)立同分布)
- 不放回抽樣 with replacement:不獨(dú)立
- 放回抽樣 without replacement:獨(dú)立
2 概率計(jì)算
2.1 古典概型(等可能模型)
- 假設(shè)
- 樣本點(diǎn)有限
- 出現(xiàn)每個(gè)樣本點(diǎn)的概率相等
- 例子:拋硬幣,擲骰子
- 公式
P(A)=k/n=A包含的樣本點(diǎn)數(shù)/S中的樣本點(diǎn)數(shù) - 解決方法:數(shù)數(shù),排列組合
2.2 幾何概型(按面積比例計(jì)算)
2.3 條件概率Conditional Probability
- 含義
已知事件B發(fā)生的條件下,事件A發(fā)生的概率 - 公式
- 一般乘法準(zhǔn)則:P(AB)=P(A|B)*(B)
條件概率也是概率,一切概率性質(zhì)都適用
e.g. P(A-C|B)=P(A|B)-P(AC|B)
- 涉及概念
- 邊緣概率marginal probabilbity:基于單個(gè)變量的概率,如男人
- 聯(lián)合概率joint probability:基于兩個(gè)或以上變量的概率,如65歲以上男人
- 決策樹(shù)Tree diagrams
- 全概率公式
[圖片上傳失敗...(image-797f5b-1575926762696)]
Ai為完備事件組
- 貝葉斯法則Bayes' Theorem
- P(A|B)=P(B|A)*P(A)/P(B)
- inverting probability(通過(guò)決策樹(shù)可推導(dǎo))
[圖片上傳失敗...(image-c95972-1575926762696)]
- 例子
在加拿大,40歲以上女性中約有0.35%會(huì)患乳腺癌。M+(陽(yáng)性)通常意味得病,M-(陰性)意味沒(méi)得病。但是大約11%的乳腺癌患者,測(cè)出假陰性。 同樣,在沒(méi)有患乳腺癌的測(cè)試者中有7%為假陽(yáng)性。 如果我們對(duì)40歲以上的女性進(jìn)行了隨機(jī)乳腺癌檢查,并且該檢查結(jié)果呈陽(yáng)性,那么該患者實(shí)際患乳腺癌的可能性是多少?
用C(Cancer)表示患病,則P(C)=0.0035, P(M+|C)=1-0.11=0.89.
問(wèn)題是求P(C|M+),P(C|M+)=P(M+|C)P(C)/P(M+)
P(M+)包括“真陽(yáng)性概率”和“假陽(yáng)性概率”=P(M+|C)P(C)+P(M+|NOT C)*P(NOT C)。
所以P(C|M+)=0.0428
3 隨機(jī)變量
3.1 變量
[圖片上傳失敗...(image-e659-1575926762696)]
3.2 隨機(jī)變量Random variable
3.2.1 定義
在樣本空間S上的實(shí)值單值函數(shù)X=X(e)
- 人為地將隨機(jī)事件數(shù)量化
- 名為變量,實(shí)為函數(shù):S??R為一映射,其自變量具有隨機(jī)性
- 隨機(jī)事件可表示為A={e:X(e)∈I}={X∈I}, X落在I上時(shí)樣本點(diǎn)e的集合
- 單值:一對(duì)一映射,對(duì)于i≠j,必有{X=i}∩{X=j}=?
3.2.2 離散型隨機(jī)變量Discrete r.v.
- 概率分布律probabilibty distributions - 可數(shù)集
A table of all disjoint outcomes and their associated probabilities. - 性質(zhì):[圖片上傳失敗...(image-9af5b-1575926762696)]
3.2.3 連續(xù)型隨機(jī)變量Continuous r.v.
對(duì)于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x*有:

則稱(chēng)X為連續(xù)性隨機(jī)變量,其中f(x)稱(chēng)為X的概率密度函數(shù)Probability Density Function (PDF), 是非負(fù)的可積函數(shù)
- 分布函數(shù)求導(dǎo)可得密度函數(shù),也就是說(shuō),密度函數(shù)所積面積才是事件發(fā)生的概率。
- 對(duì)任意的實(shí)數(shù)點(diǎn)a,P(X=a)=0
- 概率密度函數(shù)f(x)的充要條件:
- 積分=1
- f(x)>=0
3.2.4 期望Expectation
-
定義
合理的平均值。x為取值;p為概率,即取值的能力
離散型隨機(jī)變量的期望
連續(xù)型隨機(jī)變量的期望 - 性質(zhì)
①X~pk, Y=f(x)??EY=
計(jì)分制度變了,但取值能力沒(méi)變
離散型函數(shù)的期望
連續(xù)型函數(shù)的期望
②線性組合Linear combinations
線性運(yùn)算規(guī)則
③乘積的期望
X與Y相互獨(dú)立,E(XY)=E(X)E(Y)
3.2.5 方差Variance
- 定義:波動(dòng)性
DX=E(X-EX)^2
方差
理解:
- 定義法:Y=(X-數(shù))^2=g(X)
- 公式法:開(kāi)平方算出??DX=EX^2 -(EX)^2, 即平方的期望減期望的平方
- 性質(zhì)
線性組合Linear combinations
①D(aX+b)=a^2×D(X)
②D(X±Y)=DX+DY±2Cov(X,Y)

3.2.6 協(xié)方差Covariance
- 定義
Cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-E(X)E(Y),即乘積的期望減期望的乘積
用于研究?jī)蓚€(gè)變量的協(xié)同相關(guān)的程度,可以衡量?jī)蓚€(gè)變量的總體誤差,記為Cov(X,Y)。方差是協(xié)方差的一種特殊情況。 -
相關(guān)系數(shù)
協(xié)方差的相關(guān)性
3.3 分布函數(shù)Cumulative Distribution Function (CDF)
- 定義
隨機(jī)變量X,對(duì)任意實(shí)數(shù)x,稱(chēng)函數(shù)F(x)=P(X<=x)(x∈R)為隨機(jī)變量X的概率分布函數(shù)。 - 性質(zhì)
- 0<=F(x)<=1
- F(x)單調(diào)不減
- F(x)是右連續(xù)函數(shù),即F(x+0)=F(x)
- F(-∞)=0,F(+∞)=1
4 常見(jiàn)的隨機(jī)變量分布
4.1 離散型
4.1.1 伯努利分布Bernoulli distribution(0-1分布)
- 定義
[圖片上傳失敗...(image-54d140-1575926762696)] - 分布律函數(shù)
B(1,p)
[圖片上傳失敗...(image-c8d7eb-1575926762696)] - 期望與方差
μ=p, σ=√{p(1-p)}
伯努利分布是二項(xiàng)分布N=1時(shí)的特例
4.1.2 幾何分布Geometric distribution
- 定義
設(shè)試驗(yàn)E只有兩個(gè)可能的結(jié)果:A或者非A,且P(A)=p, 0<p<1。將E獨(dú)立地重復(fù)地進(jìn)行n次,則稱(chēng)這一串重復(fù)的獨(dú)立試驗(yàn)為n重伯努利試驗(yàn)。
在n重伯努利試驗(yàn)中,試驗(yàn)k次才得到第一次成功的機(jī)率。(首中即停止) - 例子
守株待兔,等兔子哪天來(lái)撞樹(shù),撞死帶走即回家 - 分布律函數(shù)
X~G(p)
幾何分布的分布律函數(shù) - 期望與方差
μ=1/p, σ=√{(1-p)/p^2}
一般情況下,幾何分布的概率指數(shù)遞減(decrease exponentially)
幾何分布的概率分布圖
4.1.3 二項(xiàng)分布Binomial distribution
- 定義
二項(xiàng)分布表示在n重伯努利試驗(yàn)中結(jié)果A發(fā)生的次數(shù)的離散概率分布。 - 例子
4個(gè)買(mǎi)保險(xiǎn)的人當(dāng)中,恰好只有2人超過(guò)免賠額的概率是多少? - 分布律函數(shù)
B(n,p)
[圖片上傳失敗...(image-f9a868-1575926762696)] - 期望與方差
μ=np, σ=√{np(1-p)}
當(dāng)試驗(yàn)次數(shù)n足夠大時(shí),二項(xiàng)分布近似正態(tài)分布
4.1.4 負(fù)二項(xiàng)分布Negative binomial distribution
- 定義
描述在n重伯努利試驗(yàn)中,成功次數(shù)到達(dá)指定次數(shù)(記為k)時(shí)的離散概率分布。幾何分布是負(fù)二項(xiàng)分布k=1時(shí)的特例。 - 例子
教練告訴球員每天踢中4次才能回家 -
概率函數(shù)
負(fù)二項(xiàng)分布的概率函數(shù)
*與二項(xiàng)分布的區(qū)別:負(fù)二項(xiàng)分布最后一次必為成功 *
4.1.5 泊松分布Poisson distribution
- 應(yīng)用場(chǎng)景
泊松分布適合于描述某時(shí)間段某場(chǎng)合源源不斷的質(zhì)點(diǎn)來(lái)流的個(gè)數(shù),即單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。 - 例子
8點(diǎn)到9點(diǎn)到超市購(gòu)物的人數(shù) - 分布函數(shù)
X~P(λ)
泊松分布的分布函數(shù)
參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù),k是非負(fù)整數(shù)。 - 期望與方差
μ=λ,σ=√λ
4.2 連續(xù)型
4.2.1 均勻分布Uniform
- 定義
每個(gè)點(diǎn)都是等可能事件,即概率密度函數(shù)為一個(gè)常數(shù) - 例子
8點(diǎn)到9點(diǎn)之間老師進(jìn)入教室的概率 - 分布函數(shù)
X~U(a,b)
均勻分布的分布函數(shù)
幾何概型是均勻分布的實(shí)際背景
4.2.2 指數(shù)分布
- 定義
描述泊松過(guò)程中的事件之間的時(shí)間的概率分布,是幾何分布的連續(xù)模擬。又稱(chēng)等待分布,壽命函數(shù) - 例子
兔子多久來(lái)撞樹(shù),以連續(xù)時(shí)間計(jì)算(不以天數(shù)計(jì)) - 分布函數(shù)
X~E(λ)
指數(shù)分布的分布函數(shù)
參數(shù)λ又稱(chēng)失效率 - 期望和方差
EX=1/λ,表示平均壽命
4.2.3 正態(tài)分布Normal distribution
以上所有離散和連續(xù)型分布,當(dāng)隨機(jī)變量n足夠多時(shí),都近似正態(tài)分布
- 分布函數(shù)
X~N(μ, σ^2)
正態(tài)分布的分布函數(shù)
- 標(biāo)準(zhǔn)正態(tài)分布(μ=0, σ=1), X~N(0, 1)
-
標(biāo)準(zhǔn)分?jǐn)?shù)Z-score
標(biāo)準(zhǔn)分?jǐn)?shù)是一個(gè)觀測(cè)或數(shù)據(jù)點(diǎn)的值高于被觀測(cè)值或測(cè)量值的平均值的標(biāo)準(zhǔn)偏差的符號(hào)數(shù)。z分?jǐn)?shù)可以回答這樣一個(gè)問(wèn)題:"一個(gè)給定分?jǐn)?shù)距離平均數(shù)多少個(gè)標(biāo)準(zhǔn)差?"??梢钥闯瞿撤?jǐn)?shù)在分布中相對(duì)位置。通過(guò)求Z-score來(lái)標(biāo)準(zhǔn)化觀測(cè)值,以便進(jìn)行比較
Z-score -
68-95-99.7 rule
落在1,2,3個(gè)標(biāo)準(zhǔn)差內(nèi)對(duì)應(yīng)的概率
總結(jié)
分布函數(shù)總結(jié)
5 推論基礎(chǔ)Inference
5.1 點(diǎn)估計(jì)和抽樣變異性Point estimates & sampling variability
5.1.1 相關(guān)概念
- 點(diǎn)估計(jì):指用樣本數(shù)據(jù)來(lái)估計(jì)總體參數(shù)population parameter, 估計(jì)結(jié)果使用一個(gè)點(diǎn)的數(shù)值表示“最佳估計(jì)值”,因此稱(chēng)為點(diǎn)估計(jì)。
- 誤差:一個(gè)量的觀測(cè)值或計(jì)算值與其真實(shí)值之差(p-?p)
- 抽樣誤差sampling error:指由于隨機(jī)抽樣的偶然因素使樣本各單位的結(jié)構(gòu)不足以代表總體各單位的結(jié)構(gòu),而引起抽樣指標(biāo)和全局指標(biāo)的絕對(duì)離差。如:抽取本身就更傾向于支持新體育館的學(xué)生群體。樣本容量可以用來(lái)量化抽樣誤差。
- 偏差bias:描述了一個(gè)系統(tǒng)性的偏向,會(huì)高估還是低估。如:?jiǎn)枌W(xué)生是否通過(guò)出資來(lái)支持新體育館。
統(tǒng)計(jì)量和觀測(cè)值的關(guān)系與區(qū)別
統(tǒng)計(jì)量和觀測(cè)值的關(guān)系與區(qū)別
5.1.2 抽樣分布Sampling distribution
- 定義
按照相同的樣本容量,相同的抽樣方式,反復(fù)地抽取樣本,每次計(jì)算一個(gè)計(jì)算值,所有可能樣本的計(jì)算值所形成的分布。這里計(jì)算值即統(tǒng)計(jì)量。 - 觀察指標(biāo)
- Center: 抽樣分布的平均值,與總體均值相同
- Spread: 抽樣分布的標(biāo)準(zhǔn)差,在抽樣分布中稱(chēng)standard error,用SE? p表示
了解總體的可能取值區(qū)間,量化樣本統(tǒng)計(jì)量的置信水平 - Shape: 抽樣分布直方圖的形狀,可能為正態(tài)分布
- 抽樣分布的方差(即標(biāo)準(zhǔn)誤SE)比原始樣本的方差小
抽樣分布的方差- 隨著每次抽取樣本容量n的增大,variance和skewness逐漸減小
Variance and skewness decrease as n grows
5.1.3 大數(shù)定理Law of large numbers
-
均值依概率收斂于均值的數(shù)學(xué)期望
大數(shù)定理
5.1.4 中心極限定理The central limit theorem
- 隨機(jī)變量序列部分和分布漸近于正態(tài)分布。
當(dāng)樣本觀測(cè)值x1,x2,x3,...,xn獨(dú)立同分布服從于F(μ, σ^2),且樣本容量足夠大時(shí),樣本均值服從正態(tài)分布,N(μ, σ^2/n). - 條件
- 獨(dú)立
- 大樣本Success-failure condition
np>=10 且 n(1-p)>=10
大數(shù)定理研究終點(diǎn)destination,極限定理研究過(guò)程journey
5.2 區(qū)間估計(jì)
區(qū)間估計(jì)(interval estimation)是從點(diǎn)估計(jì)值和抽樣標(biāo)準(zhǔn)誤差出發(fā),按給定的概率值建立包含待估計(jì)參數(shù)的區(qū)間。其中這個(gè)給定的概率值稱(chēng)為置信度或置信水平(confidence level),這個(gè)建立起來(lái)的包含待估計(jì)參數(shù)的區(qū)間稱(chēng)為置信區(qū)間(confidence interval),指總體參數(shù)值落在樣本統(tǒng)計(jì)值某一區(qū)內(nèi)的概率;而置信區(qū)間是指在某一置信水平下,樣本統(tǒng)計(jì)值與總體參數(shù)值間誤差范圍。置信區(qū)間越大,置信水平越高。
5.2.1 構(gòu)建置信區(qū)間Confidence intervals
- P(|point estimate - μ| < △) = 1-α
因大樣本情況下,統(tǒng)計(jì)量服從正態(tài)分布,所以一般形式的置信區(qū)間=均值 +z?·SE
z稱(chēng)為margin of error, 也即z-score, 不同置信區(qū)間調(diào)整z值
已知大樣本或總體的μ和σ^2,計(jì)算事件概率
例子:倫敦公寓均價(jià)1.3m,標(biāo)準(zhǔn)差0.3m,標(biāo)準(zhǔn)化隨機(jī)變量來(lái)計(jì)算
5.3 假設(shè)檢驗(yàn)Hypothesis testing
5.3.1 概念
- 無(wú)效假設(shè)Null hypothesis H0:數(shù)據(jù)集之間(樣本和總體之間或樣本與樣本間)不存在顯著差異
- 備擇假設(shè)Alternative hypothesis HA:數(shù)據(jù)集之間存在顯著差異
- 檢驗(yàn)統(tǒng)計(jì)量Test statistic:根據(jù)樣本觀測(cè)結(jié)果計(jì)算得到的,適用于檢驗(yàn)H0的一個(gè)樣本統(tǒng)計(jì)量
- P-value: 假設(shè)H0,檢驗(yàn)統(tǒng)計(jì)量等于或大于觀察值的概率
- P-value小表示拒絕原假設(shè)
- 從抽樣分布中計(jì)算得出
- 顯著性水平Signi?cance level α:表示原假設(shè)為真時(shí),拒絕原假設(shè)的概率。
5.3.2 步驟
- 提出假設(shè),設(shè)定顯著性水平α和樣本容量n,選擇檢驗(yàn)統(tǒng)計(jì)量
- 檢驗(yàn)假設(shè)和條件
- 決定p-value,拒絕H0如果p-value低于顯著性水平
test statistic 的選擇
test statistic 的選擇
5.3.3 單邊檢驗(yàn)和雙邊檢驗(yàn)One-tailed and two-tailed tests
- 單邊檢驗(yàn):否定域在接受域的一側(cè),左側(cè)或右側(cè)
- 雙邊檢驗(yàn):否定域在接受域的兩側(cè)
例子:H0: μ=7,HA: μ≠7
5.3.4 Z-test and T-test
- Z檢驗(yàn)
- 假設(shè)樣本服從正態(tài)分布的假設(shè)檢驗(yàn)
- 一般用于大樣本(即樣本容量大于30)
- 需要已知總體標(biāo)準(zhǔn)差σ
- 經(jīng)常使用樣本標(biāo)準(zhǔn)差s作為近似
- T檢驗(yàn)
- 假設(shè)樣本服從T分布的假設(shè)檢驗(yàn)
- 用于小樣本
- 總體標(biāo)準(zhǔn)差σ未知,默認(rèn)使用s
- 拒絕原假設(shè)的可能性較低
T分布
- 參數(shù):自由度degrees of freedom v
- 形狀:近似正態(tài)分布但更矮更平,隨著v增大逐漸接近正態(tài)分布
- 對(duì)于樣本容量為n的樣本使用v = n - 1
T分布mean=0, variance=v/(v-2)
5.3.6 兩類(lèi)錯(cuò)誤Decision errors
- Type 1 error(棄真):若H0為真,小概率事件可能發(fā)生,按檢驗(yàn)法則,拒絕了H0。
犯錯(cuò)誤概率=顯著性水平α - Type 2 error(取偽):若H0不真,按檢驗(yàn)法則,接受了H0。
犯錯(cuò)誤概率=β,取決于μ,σ,n,α
Power of a test: 1-β, probability of correctly rejecting H0
Type 1 is more serious更嚴(yán)重
當(dāng)樣本容量n固定時(shí),α、β不能同時(shí)都小,即α變小時(shí),β就變大;而β變小時(shí),α就變大(tradeoff)。一般只有當(dāng)樣本容量n增大時(shí),才有可能使兩者變小。
5.4 Bootstrap resampling
- 從數(shù)據(jù)集中有放回地抽取樣本
這里的數(shù)據(jù)集不是總體,是有限個(gè)的原始數(shù)據(jù)。 - 確定檢驗(yàn)統(tǒng)計(jì)量和抽樣分布
- 從抽樣分布中計(jì)算置信區(qū)間/p-value

























