1 基本概念

1.1 樣本空間與隨機(jī)事件

樣本空間
隨機(jī)試驗(yàn)的所有可能結(jié)果構(gòu)成的集合，記為S={e}，e是樣本點(diǎn)
隨機(jī)事件
樣本空間的子集

1.2 事件的相互關(guān)系及運(yùn)算

包含、相等
和事件（并集）：至少一個(gè)發(fā)生
積事件（交集）：同時(shí)發(fā)生
不相容/互斥(disjoint)
完全互斥為“補(bǔ)集”(Complement):P(Ac)=1-P(A)
差事件：A發(fā)生，B不發(fā)生
逆事件（非）：A的對(duì)立事件

1.3 概率性質(zhì)

互斥事件的加法準(zhǔn)則
P(A or B)=P(A)+P(B)
一般加法準(zhǔn)則
P(A or B)=P(A)+P(B)-P(A and B)
減法公式
P(A-B)=P(A)-P(AB)
獨(dú)立事件的乘法準(zhǔn)則
P(A and B)=P(A)*P(B)
一般乘法準(zhǔn)則
P(AB)=P(A|B)*(B)

獨(dú)立性，不論A是否發(fā)生，都不能提供B是否發(fā)生的信息，反之也是

獨(dú)立事件不互斥，互斥事件不獨(dú)立

1.4 抽樣

簡(jiǎn)單隨機(jī)抽樣simple random sampling
抽取結(jié)果為n個(gè)相互獨(dú)立且與總體具有相同概率分布的隨機(jī)變量的整體(independent and identically distributed, iid, 簡(jiǎn)稱(chēng)獨(dú)立同分布)

不放回抽樣 with replacement：不獨(dú)立

放回抽樣 without replacement：獨(dú)立

2 概率計(jì)算

2.1 古典概型（等可能模型）

假設(shè)

樣本點(diǎn)有限
出現(xiàn)每個(gè)樣本點(diǎn)的概率相等

例子：拋硬幣，擲骰子
公式
P(A)=k/n=A包含的樣本點(diǎn)數(shù)/S中的樣本點(diǎn)數(shù)
解決方法：數(shù)數(shù)，排列組合

2.2 幾何概型（按面積比例計(jì)算）

2.3 條件概率Conditional Probability

含義
已知事件B發(fā)生的條件下，事件A發(fā)生的概率
公式

一般乘法準(zhǔn)則：P(AB)=P(A|B)*(B)

條件概率也是概率，一切概率性質(zhì)都適用
e.g. P(A-C|B)=P(A|B)-P(AC|B)

涉及概念

邊緣概率marginal probabilbity：基于單個(gè)變量的概率，如男人
聯(lián)合概率joint probability：基于兩個(gè)或以上變量的概率，如65歲以上男人

決策樹(shù)Tree diagrams
全概率公式

[圖片上傳失敗...(image-797f5b-1575926762696)]
Ai為完備事件組

貝葉斯法則Bayes' Theorem

P(A|B)=P(B|A)*P(A)/P(B)
inverting probability（通過(guò)決策樹(shù)可推導(dǎo)）
[圖片上傳失敗...(image-c95972-1575926762696)]

例子
在加拿大，40歲以上女性中約有0.35％會(huì)患乳腺癌。M+（陽(yáng)性）通常意味得病，M-（陰性）意味沒(méi)得病。但是大約11％的乳腺癌患者，測(cè)出假陰性。同樣，在沒(méi)有患乳腺癌的測(cè)試者中有7％為假陽(yáng)性。如果我們對(duì)40歲以上的女性進(jìn)行了隨機(jī)乳腺癌檢查，并且該檢查結(jié)果呈陽(yáng)性，那么該患者實(shí)際患乳腺癌的可能性是多少？
用C(Cancer)表示患病，則P(C)=0.0035, P(M+|C)=1-0.11=0.89.
問(wèn)題是求P(C|M+)，P(C|M+)=P(M+|C)P(C)/P(M+)
P(M+)包括“真陽(yáng)性概率”和“假陽(yáng)性概率”=P(M+|C)P(C)+P(M+|NOT C)*P(NOT C)。
所以P(C|M+)=0.0428

3 隨機(jī)變量

3.1 變量

[圖片上傳失敗...(image-e659-1575926762696)]

3.2 隨機(jī)變量Random variable

3.2.1 定義

在樣本空間S上的實(shí)值單值函數(shù)X=X(e)

人為地將隨機(jī)事件數(shù)量化
名為變量，實(shí)為函數(shù)：S??R為一映射，其自變量具有隨機(jī)性
隨機(jī)事件可表示為A={e:X(e)∈I}={X∈I}, X落在I上時(shí)樣本點(diǎn)e的集合
單值：一對(duì)一映射，對(duì)于i≠j，必有{X=i}∩{X=j}=?

3.2.2 離散型隨機(jī)變量Discrete r.v.

概率分布律probabilibty distributions - 可數(shù)集
A table of all disjoint outcomes and their associated probabilities.
性質(zhì)：[圖片上傳失敗...(image-9af5b-1575926762696)]

3.2.3 連續(xù)型隨機(jī)變量Continuous r.v.

對(duì)于隨機(jī)變量X的分布函數(shù)F(x)，若存在非負(fù)的函數(shù)f(x)，使對(duì)于任意實(shí)數(shù)x*有：

連續(xù)型隨機(jī)變量的分布函數(shù)

則稱(chēng)X為連續(xù)性隨機(jī)變量，其中f(x)稱(chēng)為X的概率密度函數(shù)Probability Density Function (PDF), 是非負(fù)的可積函數(shù)

分布函數(shù)求導(dǎo)可得密度函數(shù)，也就是說(shuō)，密度函數(shù)所積面積才是事件發(fā)生的概率。

對(duì)任意的實(shí)數(shù)點(diǎn)a，P(X=a)=0

概率密度函數(shù)f(x)的充要條件：

積分=1

f(x)>=0

3.2.4 期望Expectation

定義
合理的平均值。x為取值；p為概率，即取值的能力

離散型隨機(jī)變量的期望

連續(xù)型隨機(jī)變量的期望
性質(zhì)
①X~pk, Y=f(x)??EY=
計(jì)分制度變了，但取值能力沒(méi)變

離散型函數(shù)的期望

連續(xù)型函數(shù)的期望

②線性組合Linear combinations

線性運(yùn)算規(guī)則

③乘積的期望
X與Y相互獨(dú)立，E(XY)=E(X)E(Y)

3.2.5 方差Variance

定義：波動(dòng)性
DX=E(X-EX)^2

方差

理解：

定義法：Y=(X-數(shù))^2=g(X)
公式法：開(kāi)平方算出??DX=EX^2 -(EX)^2, 即平方的期望減期望的平方

性質(zhì)
線性組合Linear combinations
①D(aX+b)=a^2×D(X)
②D(X±Y)=DX+DY±2Cov(X,Y)

結(jié)合①②，

3.2.6 協(xié)方差Covariance

定義
Cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-E(X)E(Y)，即乘積的期望減期望的乘積
用于研究?jī)蓚€(gè)變量的協(xié)同相關(guān)的程度，可以衡量?jī)蓚€(gè)變量的總體誤差，記為Cov(X,Y)。方差是協(xié)方差的一種特殊情況。
相關(guān)系數(shù)

協(xié)方差的相關(guān)性

3.3 分布函數(shù)Cumulative Distribution Function (CDF)

定義
隨機(jī)變量X，對(duì)任意實(shí)數(shù)x，稱(chēng)函數(shù)F(x)=P(X<=x)(x∈R)為隨機(jī)變量X的概率分布函數(shù)。
性質(zhì)
- 0<=F(x)<=1
- F(x)單調(diào)不減
- F(x)是右連續(xù)函數(shù)，即F(x+0)=F(x)
- F(-∞)=0，F(+∞)=1

4 常見(jiàn)的隨機(jī)變量分布

4.1 離散型

4.1.1 伯努利分布Bernoulli distribution（0-1分布）

定義
[圖片上傳失敗...(image-54d140-1575926762696)]
分布律函數(shù)
B(1,p)
[圖片上傳失敗...(image-c8d7eb-1575926762696)]
期望與方差
μ=p, σ=√{p(1-p)}

伯努利分布是二項(xiàng)分布N=1時(shí)的特例

4.1.2 幾何分布Geometric distribution

定義
設(shè)試驗(yàn)E只有兩個(gè)可能的結(jié)果：A或者非A，且P(A)=p, 0<p<1。將E獨(dú)立地重復(fù)地進(jìn)行n次，則稱(chēng)這一串重復(fù)的獨(dú)立試驗(yàn)為n重伯努利試驗(yàn)。
在n重伯努利試驗(yàn)中，試驗(yàn)k次才得到第一次成功的機(jī)率。（首中即停止）
例子
守株待兔，等兔子哪天來(lái)撞樹(shù)，撞死帶走即回家
分布律函數(shù)
X~G(p)

幾何分布的分布律函數(shù)
期望與方差
μ=1/p, σ=√{(1-p)/p^2}

一般情況下，幾何分布的概率指數(shù)遞減(decrease exponentially)

幾何分布的概率分布圖

4.1.3 二項(xiàng)分布Binomial distribution

定義
二項(xiàng)分布表示在n重伯努利試驗(yàn)中結(jié)果A發(fā)生的次數(shù)的離散概率分布。
例子
4個(gè)買(mǎi)保險(xiǎn)的人當(dāng)中，恰好只有2人超過(guò)免賠額的概率是多少？
分布律函數(shù)
B(n,p)
[圖片上傳失敗...(image-f9a868-1575926762696)]
期望與方差
μ=np, σ=√{np(1-p)}

當(dāng)試驗(yàn)次數(shù)n足夠大時(shí)，二項(xiàng)分布近似正態(tài)分布

4.1.4 負(fù)二項(xiàng)分布Negative binomial distribution

定義
描述在n重伯努利試驗(yàn)中，成功次數(shù)到達(dá)指定次數(shù)（記為k）時(shí)的離散概率分布。幾何分布是負(fù)二項(xiàng)分布k=1時(shí)的特例。
例子
教練告訴球員每天踢中4次才能回家
概率函數(shù)

負(fù)二項(xiàng)分布的概率函數(shù)

*與二項(xiàng)分布的區(qū)別：負(fù)二項(xiàng)分布最后一次必為成功 *

4.1.5 泊松分布Poisson distribution

應(yīng)用場(chǎng)景
泊松分布適合于描述某時(shí)間段某場(chǎng)合源源不斷的質(zhì)點(diǎn)來(lái)流的個(gè)數(shù)，即單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
例子
8點(diǎn)到9點(diǎn)到超市購(gòu)物的人數(shù)
分布函數(shù)
X~P(λ)

泊松分布的分布函數(shù)

參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)，k是非負(fù)整數(shù)。
期望與方差
μ=λ，σ=√λ

4.2 連續(xù)型

4.2.1 均勻分布Uniform

定義
每個(gè)點(diǎn)都是等可能事件，即概率密度函數(shù)為一個(gè)常數(shù)
例子
8點(diǎn)到9點(diǎn)之間老師進(jìn)入教室的概率
分布函數(shù)
X~U(a,b)

均勻分布的分布函數(shù)

幾何概型是均勻分布的實(shí)際背景

4.2.2 指數(shù)分布

定義
描述泊松過(guò)程中的事件之間的時(shí)間的概率分布，是幾何分布的連續(xù)模擬。又稱(chēng)等待分布，壽命函數(shù)
例子
兔子多久來(lái)撞樹(shù)，以連續(xù)時(shí)間計(jì)算（不以天數(shù)計(jì)）
分布函數(shù)
X~E(λ)

指數(shù)分布的分布函數(shù)

參數(shù)λ又稱(chēng)失效率
期望和方差
EX=1/λ，表示平均壽命

4.2.3 正態(tài)分布Normal distribution

以上所有離散和連續(xù)型分布，當(dāng)隨機(jī)變量n足夠多時(shí)，都近似正態(tài)分布

分布函數(shù)
X~N(μ, σ^2)

正態(tài)分布的分布函數(shù)

標(biāo)準(zhǔn)正態(tài)分布(μ=0, σ=1), X~N(0, 1)

標(biāo)準(zhǔn)分?jǐn)?shù)Z-score
標(biāo)準(zhǔn)分?jǐn)?shù)是一個(gè)觀測(cè)或數(shù)據(jù)點(diǎn)的值高于被觀測(cè)值或測(cè)量值的平均值的標(biāo)準(zhǔn)偏差的符號(hào)數(shù)。z分?jǐn)?shù)可以回答這樣一個(gè)問(wèn)題："一個(gè)給定分?jǐn)?shù)距離平均數(shù)多少個(gè)標(biāo)準(zhǔn)差?"?？梢钥闯瞿撤?jǐn)?shù)在分布中相對(duì)位置。通過(guò)求Z-score來(lái)標(biāo)準(zhǔn)化觀測(cè)值，以便進(jìn)行比較

Z-score
68-95-99.7 rule
落在1，2，3個(gè)標(biāo)準(zhǔn)差內(nèi)對(duì)應(yīng)的概率

總結(jié)

分布函數(shù)總結(jié)

5 推論基礎(chǔ)Inference

5.1 點(diǎn)估計(jì)和抽樣變異性Point estimates & sampling variability

5.1.1 相關(guān)概念

點(diǎn)估計(jì)：指用樣本數(shù)據(jù)來(lái)估計(jì)總體參數(shù)population parameter，估計(jì)結(jié)果使用一個(gè)點(diǎn)的數(shù)值表示“最佳估計(jì)值”，因此稱(chēng)為點(diǎn)估計(jì)。
誤差：一個(gè)量的觀測(cè)值或計(jì)算值與其真實(shí)值之差（p-?p）
- 抽樣誤差sampling error：指由于隨機(jī)抽樣的偶然因素使樣本各單位的結(jié)構(gòu)不足以代表總體各單位的結(jié)構(gòu)，而引起抽樣指標(biāo)和全局指標(biāo)的絕對(duì)離差。如：抽取本身就更傾向于支持新體育館的學(xué)生群體。樣本容量可以用來(lái)量化抽樣誤差。
- 偏差bias：描述了一個(gè)系統(tǒng)性的偏向，會(huì)高估還是低估。如：?jiǎn)枌W(xué)生是否通過(guò)出資來(lái)支持新體育館。

統(tǒng)計(jì)量和觀測(cè)值的關(guān)系與區(qū)別

統(tǒng)計(jì)量和觀測(cè)值的關(guān)系與區(qū)別

5.1.2 抽樣分布Sampling distribution

定義
按照相同的樣本容量，相同的抽樣方式，反復(fù)地抽取樣本，每次計(jì)算一個(gè)計(jì)算值，所有可能樣本的計(jì)算值所形成的分布。這里計(jì)算值即統(tǒng)計(jì)量。
觀察指標(biāo)

Center: 抽樣分布的平均值，與總體均值相同
Spread: 抽樣分布的標(biāo)準(zhǔn)差，在抽樣分布中稱(chēng)standard error，用SE? p表示
了解總體的可能取值區(qū)間，量化樣本統(tǒng)計(jì)量的置信水平
Shape: 抽樣分布直方圖的形狀，可能為正態(tài)分布

抽樣分布的方差（即標(biāo)準(zhǔn)誤SE）比原始樣本的方差小

抽樣分布的方差

隨著每次抽取樣本容量n的增大，variance和skewness逐漸減小

Variance and skewness decrease as n grows

5.1.3 大數(shù)定理Law of large numbers

均值依概率收斂于均值的數(shù)學(xué)期望

大數(shù)定理

5.1.4 中心極限定理The central limit theorem

隨機(jī)變量序列部分和分布漸近于正態(tài)分布。
當(dāng)樣本觀測(cè)值x1,x2,x3,...,xn獨(dú)立同分布服從于F(μ, σ^2)，且樣本容量足夠大時(shí)，樣本均值服從正態(tài)分布，N(μ, σ^2/n).
條件
- 獨(dú)立
- 大樣本Success-failure condition
  np>=10 且 n(1-p)>=10

大數(shù)定理研究終點(diǎn)destination,極限定理研究過(guò)程journey

5.2 區(qū)間估計(jì)

區(qū)間估計(jì)（interval estimation）是從點(diǎn)估計(jì)值和抽樣標(biāo)準(zhǔn)誤差出發(fā)，按給定的概率值建立包含待估計(jì)參數(shù)的區(qū)間。其中這個(gè)給定的概率值稱(chēng)為置信度或置信水平(confidence level），這個(gè)建立起來(lái)的包含待估計(jì)參數(shù)的區(qū)間稱(chēng)為置信區(qū)間（confidence interval），指總體參數(shù)值落在樣本統(tǒng)計(jì)值某一區(qū)內(nèi)的概率；而置信區(qū)間是指在某一置信水平下，樣本統(tǒng)計(jì)值與總體參數(shù)值間誤差范圍。置信區(qū)間越大，置信水平越高。

5.2.1 構(gòu)建置信區(qū)間Confidence intervals

P(|point estimate - μ| < △) = 1-α
因大樣本情況下，統(tǒng)計(jì)量服從正態(tài)分布，所以一般形式的置信區(qū)間=均值 +z?·SE
z稱(chēng)為margin of error, 也即z-score, 不同置信區(qū)間調(diào)整z值

已知大樣本或總體的μ和σ^2，計(jì)算事件概率
例子：倫敦公寓均價(jià)1.3m，標(biāo)準(zhǔn)差0.3m，標(biāo)準(zhǔn)化隨機(jī)變量來(lái)計(jì)算

5.3 假設(shè)檢驗(yàn)Hypothesis testing

5.3.1 概念

無(wú)效假設(shè)Null hypothesis H0：數(shù)據(jù)集之間（樣本和總體之間或樣本與樣本間）不存在顯著差異
備擇假設(shè)Alternative hypothesis HA：數(shù)據(jù)集之間存在顯著差異
檢驗(yàn)統(tǒng)計(jì)量Test statistic：根據(jù)樣本觀測(cè)結(jié)果計(jì)算得到的，適用于檢驗(yàn)H0的一個(gè)樣本統(tǒng)計(jì)量
P-value: 假設(shè)H0，檢驗(yàn)統(tǒng)計(jì)量等于或大于觀察值的概率
- P-value小表示拒絕原假設(shè)
- 從抽樣分布中計(jì)算得出
顯著性水平Signi?cance level α：表示原假設(shè)為真時(shí)，拒絕原假設(shè)的概率。

5.3.2 步驟

提出假設(shè)，設(shè)定顯著性水平α和樣本容量n，選擇檢驗(yàn)統(tǒng)計(jì)量
檢驗(yàn)假設(shè)和條件
決定p-value，拒絕H0如果p-value低于顯著性水平

test statistic 的選擇

test statistic 的選擇

5.3.3 單邊檢驗(yàn)和雙邊檢驗(yàn)One-tailed and two-tailed tests

單邊檢驗(yàn)：否定域在接受域的一側(cè)，左側(cè)或右側(cè)
雙邊檢驗(yàn)：否定域在接受域的兩側(cè)
例子：H0: μ=7，HA: μ≠7

5.3.4 Z-test and T-test

Z檢驗(yàn)

假設(shè)樣本服從正態(tài)分布的假設(shè)檢驗(yàn)
一般用于大樣本(即樣本容量大于30)
需要已知總體標(biāo)準(zhǔn)差σ
經(jīng)常使用樣本標(biāo)準(zhǔn)差s作為近似

T檢驗(yàn)

假設(shè)樣本服從T分布的假設(shè)檢驗(yàn)
用于小樣本
總體標(biāo)準(zhǔn)差σ未知，默認(rèn)使用s
拒絕原假設(shè)的可能性較低

T分布

參數(shù)：自由度degrees of freedom v

形狀：近似正態(tài)分布但更矮更平，隨著v增大逐漸接近正態(tài)分布

對(duì)于樣本容量為n的樣本使用v = n - 1

T分布mean=0, variance=v/(v-2)

5.3.6 兩類(lèi)錯(cuò)誤Decision errors

Type 1 error(棄真)：若H0為真，小概率事件可能發(fā)生，按檢驗(yàn)法則，拒絕了H0。
犯錯(cuò)誤概率=顯著性水平α
Type 2 error(取偽)：若H0不真，按檢驗(yàn)法則，接受了H0。
犯錯(cuò)誤概率=β，取決于μ，σ，n，α

Power of a test: 1-β, probability of correctly rejecting H0

Type 1 is more serious更嚴(yán)重
當(dāng)樣本容量n固定時(shí)，α、β不能同時(shí)都小，即α變小時(shí)，β就變大；而β變小時(shí)，α就變大(tradeoff)。一般只有當(dāng)樣本容量n增大時(shí)，才有可能使兩者變小。

5.4 Bootstrap resampling

從數(shù)據(jù)集中有放回地抽取樣本
這里的數(shù)據(jù)集不是總體，是有限個(gè)的原始數(shù)據(jù)。
確定檢驗(yàn)統(tǒng)計(jì)量和抽樣分布
從抽樣分布中計(jì)算置信區(qū)間/p-value

Bootstrap重抽樣

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Data Analytics