統(tǒng)計學(xué)習(xí)01:數(shù)據(jù)類型與常見統(tǒng)計指標(biāo)

初學(xué)生信,逐漸開始意識到統(tǒng)計學(xué)的重要性,例如p值、標(biāo)準(zhǔn)誤等概念;回歸建模、深度學(xué)習(xí)等方法都要很好的統(tǒng)計學(xué)基礎(chǔ)。因此現(xiàn)在利用空閑時間系統(tǒng)得補(bǔ)下相關(guān)知識。
目前計劃:打基礎(chǔ)階段先看馮國雙老師的《白話統(tǒng)計》,之后進(jìn)行深入學(xué)習(xí)(李航老師的《統(tǒng)計學(xué)習(xí)方法》蠻多推薦的,之后了解下)
此外遇到示例繪圖等操作,主要基于R(3.61)

要點(diǎn)一:統(tǒng)計資料類型classification

統(tǒng)計離不開數(shù)據(jù);根據(jù)不同的數(shù)據(jù)類型,會選擇不同的分析方法。

1、定量資料 numeric

最簡單,也是最常見的數(shù)據(jù)類型,即數(shù)字指標(biāo)。

1.1 subclassification
  • 連續(xù)型資料continuous:可以是任意類型的數(shù)字
    最常見;例如身高體重值,價格....
  • 離散型資料discrete:只能是整數(shù)
    例如基因長度,硬幣個數(shù)等
1.2 其它

由于之后重點(diǎn)學(xué)習(xí)的統(tǒng)計方法主要基于定量資料,就不多做敘述了。

2、分類資料(頻數(shù))categorical

2.1
  • 二分類 subclassification
    例如生死、正反、是否等結(jié)局的數(shù)據(jù)
  • 無序多分類 nominal
    例如職業(yè)類型、民族分布等統(tǒng)計
  • 有序多分類 ordinal
    例如成績等級(A B C D)、身體評價指標(biāo)(優(yōu)良中差)等
2.2 統(tǒng)計方法
  • 研究一組數(shù)據(jù)的分布
    分類資料服從二項(xiàng)分布或多項(xiàng)分布,一般采用二分類或者多項(xiàng)Logistic回歸
  • 研究多組數(shù)據(jù)的比較
    根據(jù)有序/無序的差異以及研究目的,有不同的思路,例如:
    兩組無序分類資料的比較可用卡方檢驗(yàn);
    兩組有序分類資料的比較可用秩和檢驗(yàn);
2.3 定量數(shù)據(jù)轉(zhuǎn)換為分類資料
  • 舉一例子就好理解:將全班成績按數(shù)值分為及格與不及格;把考試績點(diǎn)分為A+,A,B等不同的等級。
  • 轉(zhuǎn)換后的資料就可以按照分類資料的統(tǒng)計方法進(jìn)行分析;
  • 如上面的例子,轉(zhuǎn)換的關(guān)鍵就是設(shè)定合理的cut-off,比如及格與否的cut-off一般為60。
  • cut-off的設(shè)置一般要與自己的研究對象密切相關(guān),即有實(shí)際意義,不是隨便設(shè)置的。
  • 如果實(shí)在是沒有相關(guān)參考經(jīng)驗(yàn),也可以按照數(shù)據(jù)特征,采用特定的方法進(jìn)行劃分。

3、計數(shù)資料 count

3.1 特征
  • 類似分類資料,但性質(zhì)有所不同,count data有單位,一般為次數(shù)(1h內(nèi)咳嗽的次數(shù),1個gene上的reads比對次數(shù));
  • 而分類資料沒有單位,即為頻數(shù)。
3.2 相關(guān)統(tǒng)計方法
  • 經(jīng)常是對一組count數(shù)據(jù)進(jìn)行Poisson回歸或者負(fù)二項(xiàng)回歸(Negative binomial regression);
  • 泊松分布一般用于個體之間獨(dú)立情形;負(fù)二項(xiàng)可用于個體間不獨(dú)立的情形
  • 某些情況下,count數(shù)據(jù)也可采用定量資料統(tǒng)計方法,即廣義線性模型(Generalizd Linear Model, GLM),之后會學(xué)習(xí)到。

要點(diǎn)二:常見統(tǒng)計指標(biāo)

主要是基于定量資料的統(tǒng)計指標(biāo)

1、描述數(shù)據(jù)集中程度

  • mean均數(shù)μ(mu),適用于正態(tài)分布;
  • median中位數(shù),將一組數(shù)據(jù)按大小排序后位于中間的數(shù),適合偏態(tài)分布的描述,相比均數(shù)更穩(wěn)健(robust);
  • mode眾數(shù):出現(xiàn)次數(shù)最多的數(shù)值,感覺用到的情況不多;


    three numbers

2、描述數(shù)據(jù)分布情況

百分位數(shù)
  • 在按數(shù)值大小排序的一組數(shù)據(jù)中,某個數(shù)據(jù)的相對位置(0~100%)
  • 上面的中位數(shù)即指第50百分位數(shù)
  • Q3:第75百分位數(shù),也叫上四位數(shù);
  • Q1:第25百分位數(shù),也叫下四位數(shù);
  • Q3-Q1稱為四分位距,如果數(shù)據(jù)呈偏態(tài)分布,建議用Q1至Q3進(jìn)行描述。
箱圖boxplot
  • 直觀地反映數(shù)據(jù)分布情況的作圖方法


    boxplot

    注意有一個小細(xì)節(jié),圖注不是很清楚。median位置即為陰影矩形的那根豎線。

  • 如上圖所示,基本都能理解,關(guān)鍵是outliers的判斷
    如圖左右兩個須長最大為Q1/Q3+1.5(Q3-Q1),就有下面兩種情況
    (1)如果最大值與最小值分別小于上述公式,就把須長拉短即可;
    (2)如果超過該最長值就以單獨(dú)點(diǎn)的標(biāo)記為離群點(diǎn),同時展示公式對應(yīng)的須長。

在正態(tài)分布中,Z值也是反映數(shù)據(jù)位置的方法,具體到時再學(xué)吧

3、描述數(shù)據(jù)變異程度★

3.1 離均差平方和
  • SS,sum of squares of deviations from mean;
  • 即為一組數(shù)據(jù)中,每個數(shù)與均值差的平方的和。
  • 在后續(xù)回歸建模,方差分析等差異分解中的總變異其實(shí)就是這里的離均差平方和


    SS

    SS
3.2 方差
  • variance,σ2(sigma平方),S^2
  • 離均差平方和相對于例數(shù)的平均數(shù)


    variance
  • 上述公式是計算總體方差的標(biāo)準(zhǔn)公式,但經(jīng)統(tǒng)計學(xué)家證明:實(shí)際利用抽樣樣本估計總體參數(shù)時,樣本方差的計算公式的分母為n-1,更符合總體方差的估計。


    variance

n-1 其實(shí)也就涉及到自由度的概念了,在最后記錄下。

3.3 標(biāo)準(zhǔn)差
  • 方差雖然在很多統(tǒng)計方法中會用到,但是作為統(tǒng)計指標(biāo)的解釋意義不大(平方)
  • standard deviation 標(biāo)準(zhǔn)差,σ,S:即對方差求平方根


    sd

    sd

附1:自由度的概念 degree of fredom

  • 定義:計算樣本統(tǒng)計量能夠自由取值的數(shù)值的個數(shù)
    直觀的例子:如x+y+z=100,自由度就是2。因?yàn)橐坏┐_定兩個值,第三個值就確定了
  • 規(guī)律:每估計一個參數(shù),就要消耗一個自由度
    實(shí)際統(tǒng)計方法舉例(注意這幾個例子里的n是指所有的樣本的數(shù)據(jù)數(shù)量)
    (1)如上樣本方差計算,因?yàn)楣揭呀?jīng)用到均值,自由度就是n-1;
    (2)單樣本t檢驗(yàn),自由度也是n-1;
    (3)兩組t檢驗(yàn),自由度為n-2;
    (4)多組(k)方差分析,自由度為n-k

附2:∑符號

  • ∑讀音為sigma,英文意思為Sum,Summation,就是和;
  • 一般為下圖寫法,其中i表示下界,n表示上界;K代表計算式,表示從i開始取數(shù),一直取到n,全部加起來。


    ∑符號
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容