概率分布讓我又恨又愛

劉小澤寫于18.9.23
之前對(duì)這塊知識(shí)又渴望又敬畏,感覺無從下手。??
但是硬骨頭總歸要啃,從頭開始,一點(diǎn)點(diǎn)來彌補(bǔ)知識(shí)漏洞
顧名思義,“概率分布”:先看“概率”,概率怎么得到的,不得有數(shù)據(jù)嗎?至于“分布”,不就是數(shù)據(jù)的統(tǒng)計(jì)形狀嗎?
因此,搞明白了前后順序,我們先來看什么是數(shù)據(jù)??

數(shù)據(jù)是什么?

數(shù)據(jù)在統(tǒng)計(jì)學(xué)中也叫隨機(jī)變量,有兩種類型:離散型和連續(xù)型

離散型數(shù)據(jù)

還是顧名思義【因?yàn)榧热蝗思医o翻譯成這樣,就一定有他的道理,否則大眾不可能接受。相信“存在即合理”】離散數(shù)據(jù)就是不連續(xù)的數(shù)據(jù)。最典型的就是拋硬幣,因?yàn)榻Y(jié)果只有兩種:要么正面,要么反面。它就像草坪上的小石板路,一塊隔著一塊鋪起來,每一塊石板是一個(gè)數(shù)據(jù),并且他們之間存在間隔

連續(xù)型數(shù)據(jù)

它可以取任意的數(shù)值,比如時(shí)間,可以隨意分隔,就像一條柏油馬路,那么平滑、連綿,你可以連續(xù)往下走

數(shù)據(jù)集

不管離散還是連續(xù)的數(shù)據(jù),整合到一張表格中,就是一個(gè)數(shù)據(jù)集。它最大的特點(diǎn)就是模糊,最擅長的就是讓人為之發(fā)瘋。因?yàn)楦杏X無據(jù)可循,十分模糊

問題來了,面對(duì)龐雜的數(shù)據(jù)集,怎么分辨主次呢?

將數(shù)據(jù)簡化的方法就是:選幾個(gè)有代表性的,能描述整體特點(diǎn)的數(shù)字,比如學(xué)了一個(gè)學(xué)期的結(jié)果,用一個(gè)學(xué)分績點(diǎn)就能代表,4.0最高,3.0以上說明還不錯(cuò),2.0嘛,估計(jì)~_~。這個(gè)事情有個(gè)專有名詞——描述性統(tǒng)計(jì),就是用幾個(gè)描述變量就能得知數(shù)據(jù)的整體情況。再如:要買一部手機(jī),怎么算好手機(jī)呢?通過比較價(jià)格、外觀、性能等等指標(biāo),就能幫你做出一個(gè)相對(duì)合理的判斷。

問題又來了,我現(xiàn)在知道了可以用幾個(gè)指標(biāo)來判斷整體情況,那么統(tǒng)計(jì)學(xué)中要用哪幾個(gè)指標(biāo)呢?

  1. 平均值:這個(gè)最常見了,某某班的平均成績最高,班主任當(dāng)然高興啦,但是就個(gè)別成績差的學(xué)生而言,他的壓力可比普通班的學(xué)生大多了。這個(gè)例子表明,平均值的缺點(diǎn)就是對(duì)異常值不敏感,很容易收到極端值的影響。什么“平均薪水”、“平均身高”等等,都要慎重看待
  2. 四分位數(shù):我們常見的箱線圖就是描述四分位數(shù),它有兩個(gè)作用: a.比較不同的數(shù)據(jù)整體情況;b.識(shí)別異常值,Tukey's test用的就是四分位數(shù)
  3. 標(biāo)準(zhǔn)差:描述數(shù)據(jù)的波動(dòng)大小,看數(shù)據(jù)是否穩(wěn)定,比如老師分析某個(gè)學(xué)生考試發(fā)揮水平
  4. 標(biāo)準(zhǔn)分:也叫z分?jǐn)?shù),將原始分?jǐn)?shù)與團(tuán)體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù),表示某些數(shù)據(jù)的相對(duì)排名,可以比較不同的數(shù)據(jù)集,比如升學(xué)時(shí)用標(biāo)準(zhǔn)分計(jì)算出來的值就可以代表學(xué)生的整體排名,對(duì)于學(xué)校選擇可以提供幫助

概率分布是什么?

概率分布 = 數(shù)據(jù)+分布,橫軸表示數(shù)據(jù)值,縱軸表示數(shù)據(jù)值對(duì)應(yīng)的概率
數(shù)據(jù)類型決定概率分布。切記:別記公式,記不住,也沒用,R語言全能算,自己只需要知道什么時(shí)候套用什么模型就好啦

概率分布也分為兩種:離散型概率分布,連續(xù)型概率分布

大體知道了這兩種分布類型,統(tǒng)計(jì)學(xué)就圍繞著它們開始了研究,并且發(fā)現(xiàn)眾多的數(shù)據(jù)分布中,就有幾種形狀反復(fù)出現(xiàn),感覺就像一個(gè)“概率模版”一樣,記住這些模版,以后遇到數(shù)據(jù)直接套用

離散型概率分布

想得到一個(gè)特定數(shù)值的概率,還是拿離散型數(shù)據(jù):拋硬幣來說,正面朝上的概率是p(正面)=50%。包括以下幾種:

  • 伯努利分布

    最簡單的離散型隨機(jī)變量分布

    只有兩個(gè)可能的結(jié)果,成功(1)、失敗(0),一般就是指單次試驗(yàn)

  • 二項(xiàng)分布

    是什么?

    “二項(xiàng)”代表一個(gè)事情有2種可能的結(jié)果,“不成功便成仁”。它是重復(fù)n次獨(dú)立的伯努利試驗(yàn)伯努利試驗(yàn)指的是指在一次試驗(yàn)中只考慮兩種結(jié)果】

    特點(diǎn)是啥/如何辨別?

    1. 一個(gè)事情發(fā)生的次數(shù)(學(xué)名試驗(yàn)次數(shù))固定,比如我拋硬幣5次;
    2. 每個(gè)試驗(yàn)都有兩種可能結(jié)果——成功或失敗;
    3. 每次成功概率相等,比如拋硬幣正面向上每次都是50%;
    4. 你的目的是想知道成功n次的概率

    涉及一個(gè)詞”期望值“:預(yù)期成功的次數(shù),它等于發(fā)生的次數(shù)*每次成功的概率
    二項(xiàng)分布期望值E(x)=np

  • 二項(xiàng)分布的變體——超幾何分布

    它是從有限個(gè)物件中抽出n個(gè)物件,成功抽出指定種類的物件的個(gè)數(shù)(不放回)。它每試驗(yàn)一次,就變一次,比如投飛鏢,這次沒投中就要換個(gè)靶子,但上次結(jié)果保留。它規(guī)定,一件事在每個(gè)維度上都只做一次(有點(diǎn)超脫的意思了;再回想二項(xiàng)分布,就是死活要在那一個(gè)維度證明自己,它就是有放回的抽樣,總想著重復(fù)同樣的過程就有可能會(huì)成功) 。特別像當(dāng)今的典型人群,有的人學(xué)習(xí)不行,就轉(zhuǎn)行從商,可能獲得成功,他就是超幾何;有的人呢,學(xué)不好,繼續(xù)拼命學(xué),總想著有一天能憑借學(xué)習(xí)出人頭地,又可能學(xué)有所成,也有可能一事無成,他就是二項(xiàng)分布。

  • 幾何分布

    是什么?

    首先,它和二項(xiàng)分布很像,可以說是同卵雙胞胎(今天我和花花還討論了這個(gè)問題??)。

    特點(diǎn)是啥/如何辨別?

    它最大的特點(diǎn)就是:如果要知道n次伯努利分布試驗(yàn)中第一次就能成功的概率(即前n-1次失敗,第n次成功),那用它就沒錯(cuò)。還是上面飛鏢的例子,向靶子扔飛鏢,無規(guī)則地亂投卻正中耙心的概率(一件事在一個(gè)維度上重復(fù)多次

    區(qū)別二項(xiàng)分布和幾何分布很簡單,就看試驗(yàn)?zāi)康氖遣皇菍ふ业谝淮纬晒Φ母怕?/p>

    幾何分布期望值等于E(x)=1/p,比如每次找工作成功的概率是30%,要按照幾何分布來看,期望值為1/0.3=3.3次(約為3次),也就是說大概3次你就會(huì)成功應(yīng)聘【當(dāng)然實(shí)際成功概率并不是不變的】

  • 泊松分布

    是什么?

    某個(gè)范圍內(nèi)(事件發(fā)生的時(shí)間和地點(diǎn)隨機(jī)分布),某件事情發(fā)生一定次數(shù)的概率,只對(duì)事件發(fā)生的次數(shù)感興趣。
    比如說一個(gè)月內(nèi)的售樓量、刊物的每一頁的印刷錯(cuò)誤次數(shù)(這里的次數(shù)無上限)。它的作用可大了,比如店家要辦一個(gè)迎賓抽獎(jiǎng),準(zhǔn)備慶祝三天,計(jì)算得到第二天中獎(jiǎng)次數(shù)超過20次的概率都接近90%,和成本比較,發(fā)現(xiàn)這樣做會(huì)賠本,就可以未雨綢繆

    特點(diǎn)是啥/如何辨別?

    1. 事件是相互獨(dú)立的,比如抽獎(jiǎng)的每次試驗(yàn)過程就是相互獨(dú)立的;
      【獨(dú)立事件:一個(gè)事件的概率不以任何方式影響另一個(gè)事件】
    2. 任意相同的時(shí)間內(nèi),發(fā)生概率相同(也就是不受時(shí)間前后的影響),你抽獎(jiǎng)不會(huì)說今天天氣好,你中獎(jiǎng)概率就大;
    3. 你的目的是想看特定的時(shí)間范圍內(nèi),某個(gè)事情發(fā)生的概率

連續(xù)型概率分布

要算出中間每一個(gè)數(shù)值對(duì)應(yīng)的概率是不現(xiàn)實(shí)的,那是隨機(jī)變量。而你關(guān)心的應(yīng)該是連續(xù)變量,也就是隨機(jī)變量在某個(gè)區(qū)間內(nèi)取值的概率,此時(shí)的函數(shù)叫做概率密度函數(shù)。

舉個(gè)例子:比如早上8點(diǎn)上課前學(xué)生們都會(huì)聊會(huì)天,什么時(shí)候安靜取決于老師什么時(shí)候進(jìn)教室,老師可能7點(diǎn)59分59秒進(jìn)來,可能8點(diǎn)2分10秒進(jìn)來,但是這可能不是大家所關(guān)心的,而且也算不完,因?yàn)闀r(shí)間點(diǎn)太多了。學(xué)生們實(shí)際關(guān)心的應(yīng)該是在7點(diǎn)55到8點(diǎn)整老師進(jìn)來的概率,因此來決定自己有多大的聊天機(jī)會(huì)

  • 正態(tài)分布(高斯分布)

    生活中絕大多數(shù)的分布都是正態(tài)分布,比如降雨量、人的身高體重等,它就像一條鐘型曲線,中間高,兩邊低,左右對(duì)稱。于是體現(xiàn)的數(shù)據(jù)的分布就是:大部分?jǐn)?shù)據(jù)集中的地方,小部分?jǐn)?shù)據(jù)向兩邊分布。

    當(dāng)伯努利試驗(yàn)的次數(shù)接近無窮大時(shí),他們的分布函數(shù)基本相等。也可以說,正態(tài)分布是二項(xiàng)分布的一個(gè)極限形式

    這里有一個(gè)規(guī)律,可以幫助計(jì)算數(shù)據(jù)大體分布:正態(tài)隨機(jī)變量有69.3%的值在均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),95.4%的值在兩個(gè)標(biāo)準(zhǔn)差內(nèi),99.7%的值在三個(gè)標(biāo)準(zhǔn)差內(nèi)。因此一般計(jì)算閾值的時(shí)候,采用mean - 2*sd 的方法,就能達(dá)到95%以上的置信度

  • 均勻分布

  • 指數(shù)分布


關(guān)于差異統(tǒng)計(jì)

做實(shí)驗(yàn)的處理和對(duì)照,肯定有差別,但怎么設(shè)定這個(gè)標(biāo)準(zhǔn),張三說兩組差1叫有差別,李四說兩組得差5才叫有差別。科學(xué)嘛,沒有證據(jù)就沒法證明,于是在統(tǒng)計(jì)學(xué)的基礎(chǔ)上,產(chǎn)生了眾多的檢驗(yàn)方法。怎么選擇檢驗(yàn)方法至關(guān)重要,因?yàn)橛袝r(shí)候自己對(duì)概念的模糊,導(dǎo)致選錯(cuò)方法,得到的結(jié)果是完全不同的

一個(gè)重要的選擇標(biāo)準(zhǔn)就是,數(shù)據(jù)總體分布是否符合正態(tài)分布和方差齊性

Shapiro-Wilk test檢驗(yàn)是否符合正態(tài)分布(p大于0.05是正態(tài)分布);
Levene's test檢驗(yàn)方差齊性(p大于0.05表示方差齊)

第一類:參數(shù)檢驗(yàn)

總體的分布類型已知,用樣本指標(biāo)對(duì)總體參數(shù)進(jìn)行推斷或者進(jìn)行假設(shè)檢驗(yàn)

前提:方差齊性、正態(tài)分布

比如:T檢驗(yàn)(多數(shù)人鐘愛的檢驗(yàn)方式)【兩組之間比較差異】;

ANOVA (Analysis of Variance方差分析,又稱“變異數(shù)分析”,研究數(shù)據(jù)波動(dòng)情況) 【多組之間比較:如果p值大于0.05,表示各組總體均值相等】

第二類:非參數(shù)檢驗(yàn)

不考慮總體分布類型是否已知,不比較總體參數(shù),只比較總體的分布位置是否相同,用來檢驗(yàn)數(shù)據(jù)是否來自同一個(gè)總體

前提:總體分布不能確定(不知道是不是正態(tài)分布)

比如:Metastats,Wilcoxon rank sum test,Welch’s t-test等【兩組之間比較差異】;

Kruskal-Wallis【多組之間比較,如果p值大于0.05,表示各組總體均值相等】

更多非參方法:

  • 單樣本泊松分布 poisson.test()

  • 分布一致性檢驗(yàn)

    • 離散分布:卡方檢驗(yàn)【根據(jù)樣本數(shù)據(jù)的實(shí)際頻數(shù)推斷總體分布與期望分布或理論分布是否有顯著差異。零假設(shè)H0:樣本來自的總體分布形態(tài)和期望分布或某一理論分布沒有顯著差異】
    • 連續(xù)分布:
      Kolmogorov-Smirnov ks.test(x, y)【單樣本,檢驗(yàn)是否符合某種分布 ;雙樣本,檢驗(yàn)是否屬于同一分布】
      Shapiro-Wilk shapiro.test(x) 【正態(tài)W檢驗(yàn)方法,p值大于a為正態(tài)分布,樣本含量在[3, 5000]之間】
  • 離散一致性檢驗(yàn)

    • mood.test(x, y) 【此方法假設(shè)兩樣本中位數(shù)相同,因此需要先將兩個(gè)中位數(shù)差異消除】
    • ansari.test(x,y)【兩樣本,需要先將兩個(gè)中位數(shù)差異消除】
    • fligner.test(x) 【多樣本,不需要消除中位數(shù)差異】
  • 列聯(lián)表獨(dú)立性檢驗(yàn)

    卡方獨(dú)立性檢驗(yàn)chisq.test() 【將數(shù)據(jù)寫成二維表矩陣形式,包括行變量和列變量】
    McNemar檢驗(yàn)【針對(duì)配對(duì)數(shù)據(jù),數(shù)據(jù)不得小于5,總數(shù)要大于100,檢驗(yàn)變化的強(qiáng)度】

  • 符號(hào)檢驗(yàn) binom.test【以中位數(shù)為界,一邊為正,一邊為負(fù),理論上正負(fù)概率都應(yīng)該是50%。用p=0.5的二項(xiàng)檢驗(yàn)來完成】

  • 秩和檢驗(yàn)【解決了符號(hào)檢驗(yàn)中只考慮了符號(hào),沒有考慮差異的大小的問題】
    wilcoxon.test()【用于單樣本】
    Mann-Whitney U檢驗(yàn)【兩個(gè)樣本】或者用wilcoxon.test(paired=TRUE)
    kruskal.testKurskal-Wallis檢驗(yàn)【多個(gè)樣本,同樣也適用兩個(gè)樣本】


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見請(qǐng)后臺(tái)留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容