精品13区,一区二区久久精品黄,国产在线喷水

劉小澤寫于18.9.23
之前對(duì)這塊知識(shí)又渴望又敬畏，感覺無從下手。??
但是硬骨頭總歸要啃，從頭開始，一點(diǎn)點(diǎn)來彌補(bǔ)知識(shí)漏洞
顧名思義，“概率分布”：先看“概率”，概率怎么得到的，不得有數(shù)據(jù)嗎？至于“分布”，不就是數(shù)據(jù)的統(tǒng)計(jì)形狀嗎？
因此，搞明白了前后順序，我們先來看什么是數(shù)據(jù)??

數(shù)據(jù)是什么？

數(shù)據(jù)在統(tǒng)計(jì)學(xué)中也叫隨機(jī)變量，有兩種類型：離散型和連續(xù)型

離散型數(shù)據(jù)

還是顧名思義【因?yàn)榧热蝗思医o翻譯成這樣，就一定有他的道理，否則大眾不可能接受。相信“存在即合理”】離散數(shù)據(jù)就是不連續(xù)的數(shù)據(jù)。最典型的就是拋硬幣，因?yàn)榻Y(jié)果只有兩種：要么正面，要么反面。它就像草坪上的小石板路，一塊隔著一塊鋪起來，每一塊石板是一個(gè)數(shù)據(jù)，并且他們之間存在間隔

連續(xù)型數(shù)據(jù)

它可以取任意的數(shù)值，比如時(shí)間，可以隨意分隔，就像一條柏油馬路，那么平滑、連綿，你可以連續(xù)往下走

數(shù)據(jù)集

不管離散還是連續(xù)的數(shù)據(jù)，整合到一張表格中，就是一個(gè)數(shù)據(jù)集。它最大的特點(diǎn)就是模糊，最擅長的就是讓人為之發(fā)瘋。因?yàn)楦杏X無據(jù)可循，十分模糊

問題來了，面對(duì)龐雜的數(shù)據(jù)集，怎么分辨主次呢？

將數(shù)據(jù)簡化的方法就是：選幾個(gè)有代表性的，能描述整體特點(diǎn)的數(shù)字，比如學(xué)了一個(gè)學(xué)期的結(jié)果，用一個(gè)學(xué)分績點(diǎn)就能代表，4.0最高，3.0以上說明還不錯(cuò)，2.0嘛，估計(jì)～_～。這個(gè)事情有個(gè)專有名詞——描述性統(tǒng)計(jì)，就是用幾個(gè)描述變量就能得知數(shù)據(jù)的整體情況。再如：要買一部手機(jī)，怎么算好手機(jī)呢？通過比較價(jià)格、外觀、性能等等指標(biāo)，就能幫你做出一個(gè)相對(duì)合理的判斷。

問題又來了，我現(xiàn)在知道了可以用幾個(gè)指標(biāo)來判斷整體情況，那么統(tǒng)計(jì)學(xué)中要用哪幾個(gè)指標(biāo)呢？

平均值：這個(gè)最常見了，某某班的平均成績最高，班主任當(dāng)然高興啦，但是就個(gè)別成績差的學(xué)生而言，他的壓力可比普通班的學(xué)生大多了。這個(gè)例子表明，平均值的缺點(diǎn)就是對(duì)異常值不敏感，很容易收到極端值的影響。什么“平均薪水”、“平均身高”等等，都要慎重看待

四分位數(shù)：我們常見的箱線圖就是描述四分位數(shù)，它有兩個(gè)作用： a.比較不同的數(shù)據(jù)整體情況；b.識(shí)別異常值，Tukey's test用的就是四分位數(shù)

標(biāo)準(zhǔn)差：描述數(shù)據(jù)的波動(dòng)大小，看數(shù)據(jù)是否穩(wěn)定，比如老師分析某個(gè)學(xué)生考試發(fā)揮水平

標(biāo)準(zhǔn)分：也叫z分?jǐn)?shù)，將原始分?jǐn)?shù)與團(tuán)體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù)，表示某些數(shù)據(jù)的相對(duì)排名，可以比較不同的數(shù)據(jù)集，比如升學(xué)時(shí)用標(biāo)準(zhǔn)分計(jì)算出來的值就可以代表學(xué)生的整體排名，對(duì)于學(xué)校選擇可以提供幫助

概率分布是什么？

概率分布 = 數(shù)據(jù)+分布，橫軸表示數(shù)據(jù)值，縱軸表示數(shù)據(jù)值對(duì)應(yīng)的概率
數(shù)據(jù)類型決定概率分布。切記：別記公式，記不住，也沒用，R語言全能算，自己只需要知道什么時(shí)候套用什么模型就好啦

概率分布也分為兩種：離散型概率分布，連續(xù)型概率分布

大體知道了這兩種分布類型，統(tǒng)計(jì)學(xué)就圍繞著它們開始了研究，并且發(fā)現(xiàn)眾多的數(shù)據(jù)分布中，就有幾種形狀反復(fù)出現(xiàn)，感覺就像一個(gè)“概率模版”一樣，記住這些模版，以后遇到數(shù)據(jù)直接套用

離散型概率分布

想得到一個(gè)特定數(shù)值的概率，還是拿離散型數(shù)據(jù)：拋硬幣來說，正面朝上的概率是p(正面)=50%。包括以下幾種：

伯努利分布

最簡單的離散型隨機(jī)變量分布

只有兩個(gè)可能的結(jié)果，成功（1）、失敗（0），一般就是指單次試驗(yàn)
二項(xiàng)分布

是什么？

“二項(xiàng)”代表一個(gè)事情有2種可能的結(jié)果，“不成功便成仁”。它是重復(fù)n次獨(dú)立的伯努利試驗(yàn)【伯努利試驗(yàn)指的是指在一次試驗(yàn)中只考慮兩種結(jié)果】

特點(diǎn)是啥/如何辨別？
1. 一個(gè)事情發(fā)生的次數(shù)（學(xué)名試驗(yàn)次數(shù)）固定，比如我拋硬幣5次；
2. 每個(gè)試驗(yàn)都有兩種可能結(jié)果——成功或失敗；
3. 每次成功概率相等，比如拋硬幣正面向上每次都是50%；
4. 你的目的是想知道成功n次的概率
涉及一個(gè)詞”期望值“：預(yù)期成功的次數(shù)，它等于發(fā)生的次數(shù)*每次成功的概率
二項(xiàng)分布期望值E(x)=np
二項(xiàng)分布的變體——超幾何分布

它是從有限個(gè)物件中抽出n個(gè)物件，成功抽出指定種類的物件的個(gè)數(shù)（不放回）。它每試驗(yàn)一次，就變一次，比如投飛鏢，這次沒投中就要換個(gè)靶子，但上次結(jié)果保留。它規(guī)定，一件事在每個(gè)維度上都只做一次（有點(diǎn)超脫的意思了；再回想二項(xiàng)分布，就是死活要在那一個(gè)維度證明自己，它就是有放回的抽樣，總想著重復(fù)同樣的過程就有可能會(huì)成功）。特別像當(dāng)今的典型人群，有的人學(xué)習(xí)不行，就轉(zhuǎn)行從商，可能獲得成功，他就是超幾何；有的人呢，學(xué)不好，繼續(xù)拼命學(xué)，總想著有一天能憑借學(xué)習(xí)出人頭地，又可能學(xué)有所成，也有可能一事無成，他就是二項(xiàng)分布。
幾何分布

是什么？

首先，它和二項(xiàng)分布很像，可以說是同卵雙胞胎（今天我和花花還討論了這個(gè)問題??）。

特點(diǎn)是啥/如何辨別？

它最大的特點(diǎn)就是：如果要知道n次伯努利分布試驗(yàn)中第一次就能成功的概率（即前n-1次失敗，第n次成功），那用它就沒錯(cuò)。還是上面飛鏢的例子，向靶子扔飛鏢，無規(guī)則地亂投卻正中耙心的概率（一件事在一個(gè)維度上重復(fù)多次）

區(qū)別二項(xiàng)分布和幾何分布很簡單，就看試驗(yàn)?zāi)康氖遣皇菍ふ业谝淮纬晒Φ母怕?/p>
幾何分布期望值等于E(x)=1/p，比如每次找工作成功的概率是30%，要按照幾何分布來看，期望值為1/0.3=3.3次（約為3次），也就是說大概3次你就會(huì)成功應(yīng)聘【當(dāng)然實(shí)際成功概率并不是不變的】
泊松分布

是什么？

某個(gè)范圍內(nèi)（事件發(fā)生的時(shí)間和地點(diǎn)隨機(jī)分布），某件事情發(fā)生一定次數(shù)的概率，只對(duì)事件發(fā)生的次數(shù)感興趣。
比如說一個(gè)月內(nèi)的售樓量、刊物的每一頁的印刷錯(cuò)誤次數(shù)（這里的次數(shù)無上限）。它的作用可大了，比如店家要辦一個(gè)迎賓抽獎(jiǎng)，準(zhǔn)備慶祝三天，計(jì)算得到第二天中獎(jiǎng)次數(shù)超過20次的概率都接近90%，和成本比較，發(fā)現(xiàn)這樣做會(huì)賠本，就可以未雨綢繆

特點(diǎn)是啥/如何辨別？
1. 事件是相互獨(dú)立的，比如抽獎(jiǎng)的每次試驗(yàn)過程就是相互獨(dú)立的；
  【獨(dú)立事件：一個(gè)事件的概率不以任何方式影響另一個(gè)事件】
2. 任意相同的時(shí)間內(nèi)，發(fā)生概率相同（也就是不受時(shí)間前后的影響），你抽獎(jiǎng)不會(huì)說今天天氣好，你中獎(jiǎng)概率就大；
3. 你的目的是想看特定的時(shí)間范圍內(nèi)，某個(gè)事情發(fā)生的概率

連續(xù)型概率分布

要算出中間每一個(gè)數(shù)值對(duì)應(yīng)的概率是不現(xiàn)實(shí)的，那是隨機(jī)變量。而你關(guān)心的應(yīng)該是連續(xù)變量，也就是隨機(jī)變量在某個(gè)區(qū)間內(nèi)取值的概率，此時(shí)的函數(shù)叫做概率密度函數(shù)。

舉個(gè)例子：比如早上8點(diǎn)上課前學(xué)生們都會(huì)聊會(huì)天，什么時(shí)候安靜取決于老師什么時(shí)候進(jìn)教室，老師可能7點(diǎn)59分59秒進(jìn)來，可能8點(diǎn)2分10秒進(jìn)來，但是這可能不是大家所關(guān)心的，而且也算不完，因?yàn)闀r(shí)間點(diǎn)太多了。學(xué)生們實(shí)際關(guān)心的應(yīng)該是在7點(diǎn)55到8點(diǎn)整老師進(jìn)來的概率，因此來決定自己有多大的聊天機(jī)會(huì)

正態(tài)分布（高斯分布）

生活中絕大多數(shù)的分布都是正態(tài)分布，比如降雨量、人的身高體重等，它就像一條鐘型曲線，中間高，兩邊低，左右對(duì)稱。于是體現(xiàn)的數(shù)據(jù)的分布就是：大部分?jǐn)?shù)據(jù)集中的地方，小部分?jǐn)?shù)據(jù)向兩邊分布。

當(dāng)伯努利試驗(yàn)的次數(shù)接近無窮大時(shí)，他們的分布函數(shù)基本相等。也可以說，正態(tài)分布是二項(xiàng)分布的一個(gè)極限形式

這里有一個(gè)規(guī)律，可以幫助計(jì)算數(shù)據(jù)大體分布：正態(tài)隨機(jī)變量有69.3%的值在均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)，95.4%的值在兩個(gè)標(biāo)準(zhǔn)差內(nèi)，99.7%的值在三個(gè)標(biāo)準(zhǔn)差內(nèi)。因此一般計(jì)算閾值的時(shí)候，采用mean - 2*sd 的方法，就能達(dá)到95%以上的置信度
均勻分布
指數(shù)分布

關(guān)于差異統(tǒng)計(jì)

做實(shí)驗(yàn)的處理和對(duì)照，肯定有差別，但怎么設(shè)定這個(gè)標(biāo)準(zhǔn)，張三說兩組差1叫有差別，李四說兩組得差5才叫有差別。科學(xué)嘛，沒有證據(jù)就沒法證明，于是在統(tǒng)計(jì)學(xué)的基礎(chǔ)上，產(chǎn)生了眾多的檢驗(yàn)方法。怎么選擇檢驗(yàn)方法至關(guān)重要，因?yàn)橛袝r(shí)候自己對(duì)概念的模糊，導(dǎo)致選錯(cuò)方法，得到的結(jié)果是完全不同的

一個(gè)重要的選擇標(biāo)準(zhǔn)就是，數(shù)據(jù)總體分布是否符合正態(tài)分布和方差齊性

Shapiro-Wilk test檢驗(yàn)是否符合正態(tài)分布（p大于0.05是正態(tài)分布）；
Levene's test檢驗(yàn)方差齊性（p大于0.05表示方差齊）

第一類：參數(shù)檢驗(yàn)

總體的分布類型已知，用樣本指標(biāo)對(duì)總體參數(shù)進(jìn)行推斷或者進(jìn)行假設(shè)檢驗(yàn)

前提：方差齊性、正態(tài)分布

比如：T檢驗(yàn)（多數(shù)人鐘愛的檢驗(yàn)方式）【兩組之間比較差異】；

ANOVA (Analysis of Variance方差分析，又稱“變異數(shù)分析”，研究數(shù)據(jù)波動(dòng)情況) 【多組之間比較：如果p值大于0.05，表示各組總體均值相等】

第二類：非參數(shù)檢驗(yàn)

不考慮總體分布類型是否已知，不比較總體參數(shù)，只比較總體的分布位置是否相同，用來檢驗(yàn)數(shù)據(jù)是否來自同一個(gè)總體

前提：總體分布不能確定（不知道是不是正態(tài)分布）

比如：Metastats，Wilcoxon rank sum test，Welch’s t-test等【兩組之間比較差異】；

Kruskal-Wallis【多組之間比較，如果p值大于0.05，表示各組總體均值相等】

更多非參方法：

單樣本泊松分布 poisson.test()
分布一致性檢驗(yàn)
- 離散分布：卡方檢驗(yàn)【根據(jù)樣本數(shù)據(jù)的實(shí)際頻數(shù)推斷總體分布與期望分布或理論分布是否有顯著差異。零假設(shè)H0：樣本來自的總體分布形態(tài)和期望分布或某一理論分布沒有顯著差異】
- 連續(xù)分布：
  Kolmogorov-Smirnov ks.test(x, y)【單樣本，檢驗(yàn)是否符合某種分布；雙樣本，檢驗(yàn)是否屬于同一分布】
  Shapiro-Wilk shapiro.test(x) 【正態(tài)W檢驗(yàn)方法，p值大于a為正態(tài)分布，樣本含量在[3, 5000]之間】
離散一致性檢驗(yàn)
- mood.test(x, y) 【此方法假設(shè)兩樣本中位數(shù)相同，因此需要先將兩個(gè)中位數(shù)差異消除】
- ansari.test(x,y)【兩樣本，需要先將兩個(gè)中位數(shù)差異消除】
- fligner.test(x) 【多樣本，不需要消除中位數(shù)差異】
列聯(lián)表獨(dú)立性檢驗(yàn)

卡方獨(dú)立性檢驗(yàn)chisq.test() 【將數(shù)據(jù)寫成二維表矩陣形式，包括行變量和列變量】
McNemar檢驗(yàn)【針對(duì)配對(duì)數(shù)據(jù)，數(shù)據(jù)不得小于5，總數(shù)要大于100，檢驗(yàn)變化的強(qiáng)度】
符號(hào)檢驗(yàn) binom.test【以中位數(shù)為界，一邊為正，一邊為負(fù)，理論上正負(fù)概率都應(yīng)該是50%。用p=0.5的二項(xiàng)檢驗(yàn)來完成】
秩和檢驗(yàn)【解決了符號(hào)檢驗(yàn)中只考慮了符號(hào)，沒有考慮差異的大小的問題】
wilcoxon.test()【用于單樣本】
Mann-Whitney U檢驗(yàn)【兩個(gè)樣本】或者用wilcoxon.test(paired=TRUE)
kruskal.testKurskal-Wallis檢驗(yàn)【多個(gè)樣本，同樣也適用兩個(gè)樣本】

歡迎關(guān)注我們的公眾號(hào)～_～　　
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩，打造生信星球，想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見請(qǐng)后臺(tái)留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

概率分布讓我又恨又愛

概率分布讓我又恨又愛

數(shù)據(jù)是什么？

離散型數(shù)據(jù)

連續(xù)型數(shù)據(jù)

數(shù)據(jù)集

概率分布是什么？

離散型概率分布

連續(xù)型概率分布

關(guān)于差異統(tǒng)計(jì)

第一類：參數(shù)檢驗(yàn)

第二類：非參數(shù)檢驗(yàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

概率分布讓我又恨又愛

數(shù)據(jù)是什么？

離散型數(shù)據(jù)

連續(xù)型數(shù)據(jù)

數(shù)據(jù)集

概率分布是什么？

離散型概率分布

連續(xù)型概率分布

關(guān)于差異統(tǒng)計(jì)

第一類：參數(shù)檢驗(yàn)

第二類：非參數(shù)檢驗(yàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)是什么？