基礎(chǔ)知識(shí)(一)統(tǒng)計(jì)&數(shù)據(jù)分析知識(shí)——隨機(jī)變量

基礎(chǔ)知識(shí)導(dǎo)圖
統(tǒng)計(jì)&數(shù)據(jù)分析知識(shí)導(dǎo)圖

隨機(jī)變量導(dǎo)圖

書中是基于問題來展開講解知識(shí)點(diǎn),我認(rèn)為這種形式能讓人帶著重點(diǎn)學(xué)習(xí),使人對(duì)學(xué)習(xí)更加專注。
因此本文也嘗試著遵循問答形式。

Q1:什么是隨機(jī)變量?隨機(jī)變量和隨機(jī)試驗(yàn)之間有什么關(guān)系?

1.隨機(jī)試驗(yàn):在相同的條件下對(duì)某隨機(jī)現(xiàn)象進(jìn)行的大量重復(fù)觀測(cè)

隨機(jī)試驗(yàn)的三個(gè)特點(diǎn)

  • 在試驗(yàn)前,不能斷定將產(chǎn)生什么結(jié)果,但可明確指出或說明試驗(yàn)的全部可能結(jié)果是什么
  • 在相同的條件下可重復(fù)試驗(yàn)
  • 重復(fù)試驗(yàn)的結(jié)果是以隨機(jī)方式出現(xiàn)的

2.隨機(jī)變量:用于描述隨機(jī)試驗(yàn)的結(jié)果,常用X表示

  • X可能是一個(gè)單獨(dú)的隨機(jī)試驗(yàn)結(jié)果
  • X也可能是多個(gè)隨機(jī)試驗(yàn)結(jié)果的組合(結(jié)果的總和或均值)

Q2:如何區(qū)分不同的隨機(jī)變量?

1.隨機(jī)變量的分布:每次隨機(jī)試驗(yàn)結(jié)果的隨機(jī)性是基于一定的規(guī)律產(chǎn)生的,該規(guī)律即為X的分布

2.區(qū)分方法:可以根據(jù)隨機(jī)變量的分布來區(qū)分不同的隨機(jī)變量

通過了解隨機(jī)變量的分布,就能夠在試驗(yàn)開始前預(yù)知最終產(chǎn)生的結(jié)果


Q3:什么是樣本?樣本和隨機(jī)變量之間有什么關(guān)系?

1.樣本(觀測(cè)值):每次隨機(jī)試驗(yàn)的結(jié)果,常用x表示

2.兩者關(guān)系:以用戶是否使用優(yōu)惠券為例,每一張優(yōu)惠券的實(shí)際實(shí)用情況都可以視為一個(gè)樣本,而優(yōu)惠券的轉(zhuǎn)化率為隨機(jī)變量X。

對(duì)于該例中的隨機(jī)變量X,有兩種理解方式(可以結(jié)合Q1理解)

  • 理解方式1:將所有用戶的優(yōu)惠券使用情況看作一個(gè)樣本量為n的隨機(jī)試驗(yàn),對(duì)應(yīng)的樣本為x1,x2,...,X為這些樣本的均值
  • 理解方式2:將每個(gè)用戶的優(yōu)惠券使用情況看作一個(gè)獨(dú)立的樣本量為1的隨機(jī)試驗(yàn),x1,x2,...是來自相同的隨機(jī)試驗(yàn)且相互獨(dú)立的樣本,X為這些隨機(jī)試驗(yàn)結(jié)果的均值

Q4:隨機(jī)變量是怎么進(jìn)行分類的?分類依據(jù)是什么?

1.分類:離散型隨機(jī)變量和連續(xù)性隨機(jī)變量

2.二者的區(qū)別:所描述的隨機(jī)試驗(yàn)所有可能的結(jié)果數(shù)量是否可數(shù)

注意:是可數(shù),而不是有限

3.可數(shù)的含義:所有可能的結(jié)果是否能夠按照一定的次序列舉出來

  • 某網(wǎng)站每天的用戶數(shù)量,可以按照1,2,3...的次序列舉出來,雖然最終可能結(jié)果數(shù)量是無限的,但依然是可數(shù)的
  • 處于某個(gè)區(qū)間內(nèi)的數(shù),比如轉(zhuǎn)化率可以是[0,1]內(nèi)的任意值,無法按照次序列舉出來,因此不可數(shù)
  • 經(jīng)典例子:有理數(shù)與無理數(shù),前者可數(shù),后者不可數(shù)

Q5:常見的離散型隨機(jī)變量有哪些?它們各自有什么樣的分布律?

1.伯努利分布(0-1分布):每次試驗(yàn)的結(jié)果只有兩種,“非A即B”,用0、1來表示

  • 例:擲硬幣試驗(yàn)、每張優(yōu)惠券是否使用

2.n重伯努利分布(二項(xiàng)分布):n個(gè)重復(fù)獨(dú)立的伯努利分布

  • 每個(gè)伯努利分布事件發(fā)生的概率均為p
  • 各個(gè)試驗(yàn)的結(jié)果相互獨(dú)立,不受其他試驗(yàn)的結(jié)果干擾
  • 例:優(yōu)惠券總體的使用情況

3.泊松分布:一種離散概率分布,適合描述在單位時(shí)間(空間)內(nèi)隨機(jī)事件發(fā)生的次數(shù)

  • λ表示在單位時(shí)間(單位面積)內(nèi)隨機(jī)事件平均發(fā)生的次數(shù)

很多時(shí)候,對(duì)于一些沒有提取了解過的試驗(yàn),都可以用泊松分布進(jìn)行初步描述


Q6:常見的連續(xù)型隨機(jī)變量有哪些?它們各自有什么樣的概率密度函數(shù)?

1.(累積)分布函數(shù)F(x)【CDF】:隨機(jī)變量X小于或等于x的概率

2.概率密度函數(shù)f(x)【PDF】:滿足下式

3.均勻分布:概率密度函數(shù)在結(jié)果區(qū)間內(nèi)為固定數(shù)值的分布

  • PDF圖像為一條平行于x軸的線段

均勻分布比較特殊,這種完全的隨機(jī)性分布場(chǎng)景在實(shí)際工作中較少碰到

4.正態(tài)分布

  • μ,σ分別表示正態(tài)分布的期望和標(biāo)準(zhǔn)差


    正態(tài)分布PDF圖像

正態(tài)分布是一種比較基礎(chǔ)的分布,在實(shí)際工作中有著廣泛的應(yīng)用:3σ方法、中心極限定理
實(shí)際工作中,常利用正態(tài)分布及中心極限定理進(jìn)行相關(guān)的效果分析

5.指數(shù)分布:描述泊松過程中事件之間的時(shí)間的概率分布

泊松過程:事件以恒定的平均速率連續(xù)且獨(dú)立發(fā)生的過程

  • λ表示泊松分布中在單位時(shí)間內(nèi)發(fā)生某事件的次數(shù)

指數(shù)分布的特點(diǎn):無記憶性

總結(jié):這部分知識(shí)在面試中能夠體現(xiàn)出候選者對(duì)基本的統(tǒng)計(jì)學(xué)知識(shí)的掌握情況,同時(shí)也是在工作中進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘的理論基礎(chǔ)

參考文獻(xiàn)

1.《拿下Offer 數(shù)據(jù)分析師求職面試指南》徐麟 著

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容