Data Analytics

1 基本概念

1.1 樣本空間與隨機(jī)事件

  • 樣本空間
    隨機(jī)試驗(yàn)的所有可能結(jié)果構(gòu)成的集合,記為S={e},e是樣本點(diǎn)
  • 隨機(jī)事件
    樣本空間的子集

1.2 事件的相互關(guān)系及運(yùn)算

  • 包含、相等
  • 和事件(并集):至少一個(gè)發(fā)生
  • 積事件(交集):同時(shí)發(fā)生
  • 不相容/互斥(disjoint)
    完全互斥為“補(bǔ)集”(Complement):P(Ac)=1-P(A)
  • 差事件:A發(fā)生,B不發(fā)生
  • 逆事件(非):A的對(duì)立事件

1.3 概率性質(zhì)

  • 互斥事件的加法準(zhǔn)則
    P(A or B)=P(A)+P(B)
  • 一般加法準(zhǔn)則
    P(A or B)=P(A)+P(B)-P(A and B)
  • 減法公式
    P(A-B)=P(A)-P(AB)
  • 獨(dú)立事件的乘法準(zhǔn)則
    P(A and B)=P(A)*P(B)
  • 一般乘法準(zhǔn)則
    P(AB)=P(A|B)*(B)
  • 獨(dú)立性,不論A是否發(fā)生,都不能提供B是否發(fā)生的信息,反之也是
  • 獨(dú)立事件不互斥,互斥事件不獨(dú)立

1.4 抽樣

  • 簡(jiǎn)單隨機(jī)抽樣simple random sampling
    抽取結(jié)果為n個(gè)相互獨(dú)立且與總體具有相同概率分布的隨機(jī)變量的整體(independent and identically distributed, iid, 簡(jiǎn)稱(chēng)獨(dú)立同分布)
  • 不放回抽樣 with replacement:不獨(dú)立
  • 放回抽樣 without replacement:獨(dú)立

2 概率計(jì)算

2.1 古典概型(等可能模型)

  1. 假設(shè)
  • 樣本點(diǎn)有限
  • 出現(xiàn)每個(gè)樣本點(diǎn)的概率相等
  1. 例子:拋硬幣,擲骰子
  2. 公式
    P(A)=k/n=A包含的樣本點(diǎn)數(shù)/S中的樣本點(diǎn)數(shù)
  3. 解決方法:數(shù)數(shù),排列組合

2.2 幾何概型(按面積比例計(jì)算)

2.3 條件概率Conditional Probability

  1. 含義
    已知事件B發(fā)生的條件下,事件A發(fā)生的概率
  2. 公式
  • 一般乘法準(zhǔn)則:P(AB)=P(A|B)*(B)

條件概率也是概率,一切概率性質(zhì)都適用
e.g. P(A-C|B)=P(A|B)-P(AC|B)

  1. 涉及概念
  • 邊緣概率marginal probabilbity:基于單個(gè)變量的概率,如男人
  • 聯(lián)合概率joint probability:基于兩個(gè)或以上變量的概率,如65歲以上男人
  1. 決策樹(shù)Tree diagrams
  2. 全概率公式

[圖片上傳失敗...(image-797f5b-1575926762696)]
Ai為完備事件組

  1. 貝葉斯法則Bayes' Theorem
  • P(A|B)=P(B|A)*P(A)/P(B)
  • inverting probability(通過(guò)決策樹(shù)可推導(dǎo))
    [圖片上傳失敗...(image-c95972-1575926762696)]
  1. 例子
    在加拿大,40歲以上女性中約有0.35%會(huì)患乳腺癌。M+(陽(yáng)性)通常意味得病,M-(陰性)意味沒(méi)得病。但是大約11%的乳腺癌患者,測(cè)出假陰性。 同樣,在沒(méi)有患乳腺癌的測(cè)試者中有7%為假陽(yáng)性。 如果我們對(duì)40歲以上的女性進(jìn)行了隨機(jī)乳腺癌檢查,并且該檢查結(jié)果呈陽(yáng)性,那么該患者實(shí)際患乳腺癌的可能性是多少?
    用C(Cancer)表示患病,則P(C)=0.0035, P(M+|C)=1-0.11=0.89.
    問(wèn)題是求P(C|M+),P(C|M+)=P(M+|C)P(C)/P(M+)
    P(M+)包括“真陽(yáng)性概率”和“假陽(yáng)性概率”=P(M+|C)
    P(C)+P(M+|NOT C)*P(NOT C)。
    所以P(C|M+)=0.0428

3 隨機(jī)變量

3.1 變量

[圖片上傳失敗...(image-e659-1575926762696)]

3.2 隨機(jī)變量Random variable

3.2.1 定義

在樣本空間S上的實(shí)值單值函數(shù)X=X(e)

  • 人為地將隨機(jī)事件數(shù)量化
  • 名為變量,實(shí)為函數(shù):S??R為一映射,其自變量具有隨機(jī)性
  • 隨機(jī)事件可表示為A={e:X(e)∈I}={X∈I}, X落在I上時(shí)樣本點(diǎn)e的集合
  • 單值:一對(duì)一映射,對(duì)于i≠j,必有{X=i}∩{X=j}=?

3.2.2 離散型隨機(jī)變量Discrete r.v.

  • 概率分布律probabilibty distributions - 可數(shù)集
    A table of all disjoint outcomes and their associated probabilities.
  • 性質(zhì):[圖片上傳失敗...(image-9af5b-1575926762696)]

3.2.3 連續(xù)型隨機(jī)變量Continuous r.v.

對(duì)于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x*有:

連續(xù)型隨機(jī)變量的分布函數(shù)

則稱(chēng)X為連續(xù)性隨機(jī)變量,其中f(x)稱(chēng)為X的概率密度函數(shù)Probability Density Function (PDF), 是非負(fù)的可積函數(shù)

  • 分布函數(shù)求導(dǎo)可得密度函數(shù),也就是說(shuō),密度函數(shù)所積面積才是事件發(fā)生的概率。
  • 對(duì)任意的實(shí)數(shù)點(diǎn)a,P(X=a)=0
  • 概率密度函數(shù)f(x)的充要條件:
    • 積分=1
    • f(x)>=0

3.2.4 期望Expectation

  1. 定義
    合理的平均值。x為取值;p為概率,即取值的能力


    離散型隨機(jī)變量的期望

    連續(xù)型隨機(jī)變量的期望
  2. 性質(zhì)
    X~pk, Y=f(x)??EY=
    計(jì)分制度變了,但取值能力沒(méi)變
    離散型函數(shù)的期望

    連續(xù)型函數(shù)的期望

    ②線性組合Linear combinations
    線性運(yùn)算規(guī)則

    ③乘積的期望
    XY相互獨(dú)立,E(XY)=E(X)E(Y)

3.2.5 方差Variance

  1. 定義:波動(dòng)性
    DX=E(X-EX)^2
    方差

    理解:
  • 定義法:Y=(X-數(shù))^2=g(X)
  • 公式法:開(kāi)平方算出??DX=EX^2 -(EX)^2, 即平方的期望減期望的平方
  1. 性質(zhì)
    線性組合Linear combinations
    D(aX+b)=a^2×D(X)
    D(X±Y)=DX+DY±2Cov(X,Y)

結(jié)合①②,

3.2.6 協(xié)方差Covariance

  1. 定義
    Cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-E(X)E(Y),即乘積的期望減期望的乘積
    用于研究?jī)蓚€(gè)變量的協(xié)同相關(guān)的程度,可以衡量?jī)蓚€(gè)變量的總體誤差,記為Cov(X,Y)。方差是協(xié)方差的一種特殊情況。
  2. 相關(guān)系數(shù)


    協(xié)方差的相關(guān)性

3.3 分布函數(shù)Cumulative Distribution Function (CDF)

  • 定義
    隨機(jī)變量X,對(duì)任意實(shí)數(shù)x,稱(chēng)函數(shù)F(x)=P(X<=x)(x∈R)為隨機(jī)變量X的概率分布函數(shù)。
  • 性質(zhì)
    • 0<=F(x)<=1
    • F(x)單調(diào)不減
    • F(x)是右連續(xù)函數(shù),即F(x+0)=F(x)
    • F(-∞)=0,F(+∞)=1

4 常見(jiàn)的隨機(jī)變量分布

4.1 離散型

4.1.1 伯努利分布Bernoulli distribution(0-1分布)

  1. 定義
    [圖片上傳失敗...(image-54d140-1575926762696)]
  2. 分布律函數(shù)
    B(1,p)
    [圖片上傳失敗...(image-c8d7eb-1575926762696)]
  3. 期望與方差
    μ=p, σ=√{p(1-p)}

伯努利分布是二項(xiàng)分布N=1時(shí)的特例

4.1.2 幾何分布Geometric distribution

  1. 定義
    設(shè)試驗(yàn)E只有兩個(gè)可能的結(jié)果:A或者非A,且P(A)=p, 0<p<1。將E獨(dú)立重復(fù)地進(jìn)行n次,則稱(chēng)這一串重復(fù)的獨(dú)立試驗(yàn)為n重伯努利試驗(yàn)。
    在n重伯努利試驗(yàn)中,試驗(yàn)k次才得到第一次成功的機(jī)率。(首中即停止)
  2. 例子
    守株待兔,等兔子哪天來(lái)撞樹(shù),撞死帶走即回家
  3. 分布律函數(shù)
    X~G(p)
    幾何分布的分布律函數(shù)
  4. 期望與方差
    μ=1/p, σ=√{(1-p)/p^2}

一般情況下,幾何分布的概率指數(shù)遞減(decrease exponentially)

幾何分布的概率分布圖

4.1.3 二項(xiàng)分布Binomial distribution

  1. 定義
    二項(xiàng)分布表示在n重伯努利試驗(yàn)中結(jié)果A發(fā)生的次數(shù)的離散概率分布。
  2. 例子
    4個(gè)買(mǎi)保險(xiǎn)的人當(dāng)中,恰好只有2人超過(guò)免賠額的概率是多少?
  3. 分布律函數(shù)
    B(n,p)
    [圖片上傳失敗...(image-f9a868-1575926762696)]
  4. 期望與方差
    μ=np, σ=√{np(1-p)}

當(dāng)試驗(yàn)次數(shù)n足夠大時(shí),二項(xiàng)分布近似正態(tài)分布

4.1.4 負(fù)二項(xiàng)分布Negative binomial distribution

  1. 定義
    描述在n重伯努利試驗(yàn)中,成功次數(shù)到達(dá)指定次數(shù)(記為k)時(shí)的離散概率分布。幾何分布是負(fù)二項(xiàng)分布k=1時(shí)的特例。
  2. 例子
    教練告訴球員每天踢中4次才能回家
  3. 概率函數(shù)


    負(fù)二項(xiàng)分布的概率函數(shù)

*與二項(xiàng)分布的區(qū)別:負(fù)二項(xiàng)分布最后一次必為成功 *

4.1.5 泊松分布Poisson distribution

  1. 應(yīng)用場(chǎng)景
    泊松分布適合于描述某時(shí)間段某場(chǎng)合源源不斷的質(zhì)點(diǎn)來(lái)流的個(gè)數(shù),即單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
  2. 例子
    8點(diǎn)到9點(diǎn)到超市購(gòu)物的人數(shù)
  3. 分布函數(shù)
    X~P(λ)
    泊松分布的分布函數(shù)

    參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù),k是非負(fù)整數(shù)。
  4. 期望與方差
    μ=λ,σ=√λ

4.2 連續(xù)型

4.2.1 均勻分布Uniform

  1. 定義
    每個(gè)點(diǎn)都是等可能事件,即概率密度函數(shù)為一個(gè)常數(shù)
  2. 例子
    8點(diǎn)到9點(diǎn)之間老師進(jìn)入教室的概率
  3. 分布函數(shù)
    X~U(a,b)
    均勻分布的分布函數(shù)

幾何概型是均勻分布的實(shí)際背景

4.2.2 指數(shù)分布

  1. 定義
    描述泊松過(guò)程中的事件之間的時(shí)間的概率分布,是幾何分布的連續(xù)模擬。又稱(chēng)等待分布,壽命函數(shù)
  2. 例子
    兔子多久來(lái)撞樹(shù),以連續(xù)時(shí)間計(jì)算(不以天數(shù)計(jì))
  3. 分布函數(shù)
    X~E(λ)
    指數(shù)分布的分布函數(shù)

    參數(shù)λ又稱(chēng)失效率
  4. 期望和方差
    EX=1/λ,表示平均壽命

4.2.3 正態(tài)分布Normal distribution

以上所有離散和連續(xù)型分布,當(dāng)隨機(jī)變量n足夠多時(shí),都近似正態(tài)分布

  1. 分布函數(shù)
    X~N(μ, σ^2)
    正態(tài)分布的分布函數(shù)
  • 標(biāo)準(zhǔn)正態(tài)分布(μ=0, σ=1), X~N(0, 1)
  1. 標(biāo)準(zhǔn)分?jǐn)?shù)Z-score
    標(biāo)準(zhǔn)分?jǐn)?shù)是一個(gè)觀測(cè)或數(shù)據(jù)點(diǎn)的值高于被觀測(cè)值或測(cè)量值的平均值的標(biāo)準(zhǔn)偏差的符號(hào)數(shù)。z分?jǐn)?shù)可以回答這樣一個(gè)問(wèn)題:"一個(gè)給定分?jǐn)?shù)距離平均數(shù)多少個(gè)標(biāo)準(zhǔn)差?"??梢钥闯瞿撤?jǐn)?shù)在分布中相對(duì)位置。通過(guò)求Z-score來(lái)標(biāo)準(zhǔn)化觀測(cè)值,以便進(jìn)行比較


    Z-score
  2. 68-95-99.7 rule
    落在1,2,3個(gè)標(biāo)準(zhǔn)差內(nèi)對(duì)應(yīng)的概率


總結(jié)

分布函數(shù)總結(jié)

5 推論基礎(chǔ)Inference

5.1 點(diǎn)估計(jì)和抽樣變異性Point estimates & sampling variability

5.1.1 相關(guān)概念

  • 點(diǎn)估計(jì):指用樣本數(shù)據(jù)來(lái)估計(jì)總體參數(shù)population parameter, 估計(jì)結(jié)果使用一個(gè)點(diǎn)的數(shù)值表示“最佳估計(jì)值”,因此稱(chēng)為點(diǎn)估計(jì)。
  • 誤差:一個(gè)量的觀測(cè)值或計(jì)算值與其真實(shí)值之差(p-?p)
    • 抽樣誤差sampling error:指由于隨機(jī)抽樣的偶然因素使樣本各單位的結(jié)構(gòu)不足以代表總體各單位的結(jié)構(gòu),而引起抽樣指標(biāo)和全局指標(biāo)的絕對(duì)離差。如:抽取本身就更傾向于支持新體育館的學(xué)生群體。樣本容量可以用來(lái)量化抽樣誤差。
    • 偏差bias:描述了一個(gè)系統(tǒng)性的偏向,會(huì)高估還是低估。如:?jiǎn)枌W(xué)生是否通過(guò)出資來(lái)支持新體育館。

統(tǒng)計(jì)量和觀測(cè)值的關(guān)系與區(qū)別

統(tǒng)計(jì)量和觀測(cè)值的關(guān)系與區(qū)別

5.1.2 抽樣分布Sampling distribution

  1. 定義
    按照相同的樣本容量,相同的抽樣方式,反復(fù)地抽取樣本,每次計(jì)算一個(gè)計(jì)算值,所有可能樣本的計(jì)算值所形成的分布。這里計(jì)算值即統(tǒng)計(jì)量。
  2. 觀察指標(biāo)
  • Center: 抽樣分布的平均值,與總體均值相同
  • Spread: 抽樣分布的標(biāo)準(zhǔn)差,在抽樣分布中稱(chēng)standard error,用SE? p表示
    了解總體的可能取值區(qū)間,量化樣本統(tǒng)計(jì)量的置信水平
  • Shape: 抽樣分布直方圖的形狀,可能為正態(tài)分布
  • 抽樣分布的方差(即標(biāo)準(zhǔn)誤SE)比原始樣本的方差小
    抽樣分布的方差
  • 隨著每次抽取樣本容量n的增大,variance和skewness逐漸減小
    Variance and skewness decrease as n grows

5.1.3 大數(shù)定理Law of large numbers

  • 均值依概率收斂于均值的數(shù)學(xué)期望


    大數(shù)定理

5.1.4 中心極限定理The central limit theorem

  • 隨機(jī)變量序列部分和分布漸近于正態(tài)分布。
    當(dāng)樣本觀測(cè)值x1,x2,x3,...,xn獨(dú)立同分布服從于F(μ, σ^2),且樣本容量足夠大時(shí),樣本均值服從正態(tài)分布,N(μ, σ^2/n).
  • 條件
    • 獨(dú)立
    • 大樣本Success-failure condition
      np>=10 且 n(1-p)>=10

大數(shù)定理研究終點(diǎn)destination,極限定理研究過(guò)程journey

5.2 區(qū)間估計(jì)

區(qū)間估計(jì)(interval estimation)是從點(diǎn)估計(jì)值和抽樣標(biāo)準(zhǔn)誤差出發(fā),按給定的概率值建立包含待估計(jì)參數(shù)的區(qū)間。其中這個(gè)給定的概率值稱(chēng)為置信度或置信水平(confidence level),這個(gè)建立起來(lái)的包含待估計(jì)參數(shù)的區(qū)間稱(chēng)為置信區(qū)間(confidence interval),指總體參數(shù)值落在樣本統(tǒng)計(jì)值某一區(qū)內(nèi)的概率;而置信區(qū)間是指在某一置信水平下,樣本統(tǒng)計(jì)值與總體參數(shù)值間誤差范圍。置信區(qū)間越大,置信水平越高。

5.2.1 構(gòu)建置信區(qū)間Confidence intervals

  • P(|point estimate - μ| < △) = 1-α
    因大樣本情況下,統(tǒng)計(jì)量服從正態(tài)分布,所以一般形式的置信區(qū)間=均值 +z?·SE
    z稱(chēng)為margin of error, 也即z-score, 不同置信區(qū)間調(diào)整z

已知大樣本或總體的μ和σ^2,計(jì)算事件概率
例子:倫敦公寓均價(jià)1.3m,標(biāo)準(zhǔn)差0.3m,標(biāo)準(zhǔn)化隨機(jī)變量來(lái)計(jì)算

5.3 假設(shè)檢驗(yàn)Hypothesis testing

5.3.1 概念

  • 無(wú)效假設(shè)Null hypothesis H0:數(shù)據(jù)集之間(樣本和總體之間或樣本與樣本間)不存在顯著差異
  • 備擇假設(shè)Alternative hypothesis HA:數(shù)據(jù)集之間存在顯著差異
  • 檢驗(yàn)統(tǒng)計(jì)量Test statistic:根據(jù)樣本觀測(cè)結(jié)果計(jì)算得到的,適用于檢驗(yàn)H0的一個(gè)樣本統(tǒng)計(jì)量
  • P-value: 假設(shè)H0,檢驗(yàn)統(tǒng)計(jì)量等于或大于觀察值的概率
    • P-value小表示拒絕原假設(shè)
    • 從抽樣分布中計(jì)算得出
  • 顯著性水平Signi?cance level α:表示原假設(shè)為真時(shí),拒絕原假設(shè)的概率。

5.3.2 步驟

  1. 提出假設(shè),設(shè)定顯著性水平α和樣本容量n,選擇檢驗(yàn)統(tǒng)計(jì)量
  2. 檢驗(yàn)假設(shè)和條件
  3. 決定p-value,拒絕H0如果p-value低于顯著性水平

test statistic 的選擇

test statistic 的選擇

5.3.3 單邊檢驗(yàn)和雙邊檢驗(yàn)One-tailed and two-tailed tests

  • 單邊檢驗(yàn):否定域在接受域的一側(cè),左側(cè)或右側(cè)
  • 雙邊檢驗(yàn):否定域在接受域的兩側(cè)
    例子:H0: μ=7,HA: μ≠7

5.3.4 Z-test and T-test

  1. Z檢驗(yàn)
  • 假設(shè)樣本服從正態(tài)分布的假設(shè)檢驗(yàn)
  • 一般用于大樣本(即樣本容量大于30)
  • 需要已知總體標(biāo)準(zhǔn)差σ
  • 經(jīng)常使用樣本標(biāo)準(zhǔn)差s作為近似
  1. T檢驗(yàn)
  • 假設(shè)樣本服從T分布的假設(shè)檢驗(yàn)
  • 用于小樣本
  • 總體標(biāo)準(zhǔn)差σ未知,默認(rèn)使用s
  • 拒絕原假設(shè)的可能性較低

T分布

  • 參數(shù):自由度degrees of freedom v
  • 形狀:近似正態(tài)分布但更矮更平,隨著v增大逐漸接近正態(tài)分布
  • 對(duì)于樣本容量為n的樣本使用v = n - 1
    T分布mean=0, variance=v/(v-2)

5.3.6 兩類(lèi)錯(cuò)誤Decision errors

  • Type 1 error(棄真):若H0為真,小概率事件可能發(fā)生,按檢驗(yàn)法則,拒絕了H0。
    犯錯(cuò)誤概率=顯著性水平α
  • Type 2 error(取偽):若H0不真,按檢驗(yàn)法則,接受了H0。
    犯錯(cuò)誤概率=β,取決于μ,σ,n,α

Power of a test: 1-β, probability of correctly rejecting H0

Type 1 is more serious更嚴(yán)重
當(dāng)樣本容量n固定時(shí),α、β不能同時(shí)都小,即α變小時(shí),β就變大;而β變小時(shí),α就變大(tradeoff)。一般只有當(dāng)樣本容量n增大時(shí),才有可能使兩者變小。

5.4 Bootstrap resampling

  • 數(shù)據(jù)集有放回地抽取樣本
    這里的數(shù)據(jù)集不是總體,是有限個(gè)的原始數(shù)據(jù)。
  • 確定檢驗(yàn)統(tǒng)計(jì)量和抽樣分布
  • 從抽樣分布中計(jì)算置信區(qū)間/p-value
Bootstrap重抽樣

5.5 A/B testing

6 線性回歸Linear regression

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容