初學(xué)生信，逐漸開始意識到統(tǒng)計學(xué)的重要性，例如p值、標(biāo)準(zhǔn)誤等概念；回歸建模、深度學(xué)習(xí)等方法都要很好的統(tǒng)計學(xué)基礎(chǔ)。因此現(xiàn)在利用空閑時間系統(tǒng)得補(bǔ)下相關(guān)知識。
目前計劃：打基礎(chǔ)階段先看馮國雙老師的《白話統(tǒng)計》，之后進(jìn)行深入學(xué)習(xí)（李航老師的《統(tǒng)計學(xué)習(xí)方法》蠻多推薦的，之后了解下）
此外遇到示例繪圖等操作，主要基于R(3.61)

要點(diǎn)一：統(tǒng)計資料類型classification

統(tǒng)計離不開數(shù)據(jù)；根據(jù)不同的數(shù)據(jù)類型，會選擇不同的分析方法。

1、定量資料 numeric

最簡單，也是最常見的數(shù)據(jù)類型，即數(shù)字指標(biāo)。

1.1 subclassification

連續(xù)型資料continuous：可以是任意類型的數(shù)字
最常見；例如身高體重值，價格....
離散型資料discrete：只能是整數(shù)
例如基因長度，硬幣個數(shù)等

1.2 其它

由于之后重點(diǎn)學(xué)習(xí)的統(tǒng)計方法主要基于定量資料，就不多做敘述了。

2、分類資料（頻數(shù)）categorical

2.1

二分類 subclassification
例如生死、正反、是否等結(jié)局的數(shù)據(jù)
無序多分類 nominal
例如職業(yè)類型、民族分布等統(tǒng)計
有序多分類 ordinal
例如成績等級(A B C D)、身體評價指標(biāo)(優(yōu)良中差)等

2.2 統(tǒng)計方法

研究一組數(shù)據(jù)的分布
分類資料服從二項(xiàng)分布或多項(xiàng)分布，一般采用二分類或者多項(xiàng)Logistic回歸
研究多組數(shù)據(jù)的比較
根據(jù)有序/無序的差異以及研究目的，有不同的思路，例如：
兩組無序分類資料的比較可用卡方檢驗(yàn)；
兩組有序分類資料的比較可用秩和檢驗(yàn)；

2.3 定量數(shù)據(jù)轉(zhuǎn)換為分類資料

舉一例子就好理解：將全班成績按數(shù)值分為及格與不及格；把考試績點(diǎn)分為A+，A，B等不同的等級。
轉(zhuǎn)換后的資料就可以按照分類資料的統(tǒng)計方法進(jìn)行分析；
如上面的例子，轉(zhuǎn)換的關(guān)鍵就是設(shè)定合理的cut-off，比如及格與否的cut-off一般為60。
cut-off的設(shè)置一般要與自己的研究對象密切相關(guān)，即有實(shí)際意義，不是隨便設(shè)置的。
如果實(shí)在是沒有相關(guān)參考經(jīng)驗(yàn)，也可以按照數(shù)據(jù)特征，采用特定的方法進(jìn)行劃分。

3、計數(shù)資料 count

3.1 特征

類似分類資料，但性質(zhì)有所不同，count data有單位，一般為次數(shù)（1h內(nèi)咳嗽的次數(shù)，1個gene上的reads比對次數(shù)）；
而分類資料沒有單位，即為頻數(shù)。

3.2 相關(guān)統(tǒng)計方法

經(jīng)常是對一組count數(shù)據(jù)進(jìn)行Poisson回歸或者負(fù)二項(xiàng)回歸(Negative binomial regression);
泊松分布一般用于個體之間獨(dú)立情形；負(fù)二項(xiàng)可用于個體間不獨(dú)立的情形
某些情況下，count數(shù)據(jù)也可采用定量資料統(tǒng)計方法，即廣義線性模型(Generalizd Linear Model, GLM)，之后會學(xué)習(xí)到。

要點(diǎn)二：常見統(tǒng)計指標(biāo)

主要是基于定量資料的統(tǒng)計指標(biāo)

1、描述數(shù)據(jù)集中程度

mean均數(shù)μ（mu），適用于正態(tài)分布；
median中位數(shù)，將一組數(shù)據(jù)按大小排序后位于中間的數(shù)，適合偏態(tài)分布的描述，相比均數(shù)更穩(wěn)健（robust）；
mode眾數(shù)：出現(xiàn)次數(shù)最多的數(shù)值，感覺用到的情況不多；

three numbers

2、描述數(shù)據(jù)分布情況

百分位數(shù)

在按數(shù)值大小排序的一組數(shù)據(jù)中，某個數(shù)據(jù)的相對位置（0~100%）
上面的中位數(shù)即指第50百分位數(shù)
Q3：第75百分位數(shù)，也叫上四位數(shù)；
Q1：第25百分位數(shù)，也叫下四位數(shù)；
Q3-Q1稱為四分位距，如果數(shù)據(jù)呈偏態(tài)分布，建議用Q1至Q3進(jìn)行描述。

箱圖boxplot

直觀地反映數(shù)據(jù)分布情況的作圖方法

boxplot

注意有一個小細(xì)節(jié)，圖注不是很清楚。median位置即為陰影矩形的那根豎線。
如上圖所示，基本都能理解，關(guān)鍵是outliers的判斷
如圖左右兩個須長最大為Q1/Q3+1.5(Q3-Q1)，就有下面兩種情況
（1）如果最大值與最小值分別小于上述公式，就把須長拉短即可；
（2）如果超過該最長值就以單獨(dú)點(diǎn)的標(biāo)記為離群點(diǎn)，同時展示公式對應(yīng)的須長。

在正態(tài)分布中，Z值也是反映數(shù)據(jù)位置的方法，具體到時再學(xué)吧

3、描述數(shù)據(jù)變異程度★

3.1 離均差平方和

SS，sum of squares of deviations from mean；
即為一組數(shù)據(jù)中，每個數(shù)與均值差的平方的和。
在后續(xù)回歸建模，方差分析等差異分解中的總變異其實(shí)就是這里的離均差平方和

SS

SS

3.2 方差

variance，σ2（sigma平方），S^2
離均差平方和相對于例數(shù)的平均數(shù)

variance
上述公式是計算總體方差的標(biāo)準(zhǔn)公式，但經(jīng)統(tǒng)計學(xué)家證明：實(shí)際利用抽樣樣本估計總體參數(shù)時，樣本方差的計算公式的分母為n-1，更符合總體方差的估計。

variance

n-1 其實(shí)也就涉及到自由度的概念了，在最后記錄下。

3.3 標(biāo)準(zhǔn)差

方差雖然在很多統(tǒng)計方法中會用到，但是作為統(tǒng)計指標(biāo)的解釋意義不大（平方）
standard deviation 標(biāo)準(zhǔn)差，σ，S：即對方差求平方根

sd

sd

附1：自由度的概念 degree of fredom

定義：計算樣本統(tǒng)計量能夠自由取值的數(shù)值的個數(shù)
直觀的例子：如x+y+z=100，自由度就是2。因?yàn)橐坏┐_定兩個值，第三個值就確定了
規(guī)律：每估計一個參數(shù)，就要消耗一個自由度
實(shí)際統(tǒng)計方法舉例(注意這幾個例子里的n是指所有的樣本的數(shù)據(jù)數(shù)量)
（1）如上樣本方差計算，因?yàn)楣揭呀?jīng)用到均值，自由度就是n-1；
（2）單樣本t檢驗(yàn)，自由度也是n-1；
（3）兩組t檢驗(yàn)，自由度為n-2;
（4）多組(k)方差分析，自由度為n-k

附2：∑符號

∑讀音為sigma，英文意思為Sum，Summation,就是和；
一般為下圖寫法，其中i表示下界，n表示上界；K代表計算式，表示從i開始取數(shù)，一直取到n，全部加起來。

∑符號

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

統(tǒng)計學(xué)習(xí)01：數(shù)據(jù)類型與常見統(tǒng)計指標(biāo)

統(tǒng)計學(xué)習(xí)01：數(shù)據(jù)類型與常見統(tǒng)計指標(biāo)

要點(diǎn)一：統(tǒng)計資料類型classification

1、定量資料 numeric

1.1 subclassification

1.2 其它

2、分類資料（頻數(shù)）categorical

2.1

2.2 統(tǒng)計方法

2.3 定量數(shù)據(jù)轉(zhuǎn)換為分類資料

3、計數(shù)資料 count

3.1 特征

3.2 相關(guān)統(tǒng)計方法

要點(diǎn)二：常見統(tǒng)計指標(biāo)

1、描述數(shù)據(jù)集中程度

2、描述數(shù)據(jù)分布情況

百分位數(shù)

箱圖boxplot

3、描述數(shù)據(jù)變異程度★

3.1 離均差平方和

3.2 方差

3.3 標(biāo)準(zhǔn)差

附1：自由度的概念 degree of fredom

附2：∑符號

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

統(tǒng)計學(xué)習(xí)01：數(shù)據(jù)類型與常見統(tǒng)計指標(biāo)

要點(diǎn)一：統(tǒng)計資料類型classification

1、定量資料 numeric

1.1 subclassification

1.2 其它

2、分類資料（頻數(shù)）categorical

2.1

2.2 統(tǒng)計方法

2.3 定量數(shù)據(jù)轉(zhuǎn)換為分類資料

3、計數(shù)資料 count

3.1 特征

3.2 相關(guān)統(tǒng)計方法

要點(diǎn)二：常見統(tǒng)計指標(biāo)

1、描述數(shù)據(jù)集中程度

2、描述數(shù)據(jù)分布情況

百分位數(shù)

箱圖boxplot

3、描述數(shù)據(jù)變異程度★

3.1 離均差平方和

3.2 方差

3.3 標(biāo)準(zhǔn)差

附1：自由度的概念 degree of fredom

附2：∑符號

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2、分類資料（頻數(shù)）categorical

1、描述數(shù)據(jù)集中程度

2、描述數(shù)據(jù)分布情況

3、描述數(shù)據(jù)變異程度★