統(tǒng)計學(xué)入門知識點匯總,讓你不再做小白

常關(guān)注『丁點幫你』微信公眾號的小伙伴們應(yīng)該都比較熟悉最近推出的『每日丁點』統(tǒng)計知識系列,我們希望每天給大家呈現(xiàn)精煉又便于理解的知識總結(jié)。

目前,已有10篇入門級知識點的講解短文與大家見面了,這些知識點也是后續(xù)學(xué)習(xí)和實操中必不可少的理論基礎(chǔ)。今天我們就來一起回顧一下,看看每天進步一丁點之后,你的收獲吧!

1. 為什么要學(xué)統(tǒng)計?

按照教科書的定義,統(tǒng)計學(xué)(statistics)是一門關(guān)于數(shù)據(jù)的科學(xué),它包括收集、分析、解釋和表達數(shù)據(jù),目的是獲得可靠的結(jié)論。為什么要學(xué)統(tǒng)計?因為個體之間存在變異,也就是個體間的差異。比如,一個班每個學(xué)生的身高、兩種藥物的療效等幾乎都不可能完全相同的,一定會有“差異”。如果世間萬物都完全一致(比如克隆人),那么個體之間就不存在差異(也就是所謂的變異),到那時統(tǒng)計學(xué)就毫無用武之地,因為我們能以一當(dāng)十,甚至以一當(dāng)所有,不需要抽樣,不需要求平均。

變異代表了什么?答案是信息!身高體重的差異,給了我們誰更高誰更壯的信息;某項生理指標(biāo)的差異,例如血壓,可以獲得健康與非健康的信息;兩種藥物或治療方法的差異,獲得了孰優(yōu)孰劣的信息……為了獲取諸如上面所說的信息,我們開始收集和分析數(shù)據(jù),再對結(jié)果進行解釋和表達,最終得出誰更高、誰更壯、有多少人更健康、哪種藥更好的結(jié)論。

原文:每日丁點 | 統(tǒng)計學(xué)初探

2. 數(shù)據(jù)是統(tǒng)計的基礎(chǔ),變量是數(shù)據(jù)的基礎(chǔ)。

原文:每日丁點|定量和定性變量、連續(xù)和離散變量,到底怎么分?

3. 頻數(shù)表和直方圖

制作頻數(shù)分布表和直方圖的目的是為了快速了解數(shù)據(jù)的分布情況。所謂分布,簡單理解就是想知道,數(shù)據(jù)會主要集中在哪兒。無論什么資料,刨除它的單位(如身高、體重等),它們都是一個一個的數(shù)字,那么從數(shù)軸上看,這些數(shù)字會處在在哪些地方呢?比如身高的數(shù)據(jù),如果以米為單位,根據(jù)常識可以猜測,它會大概集中在1.5-1.8這個區(qū)間內(nèi)。也就是說,雖然每個人的身高不完全相同,但身高的數(shù)據(jù)卻是有規(guī)律的,如何發(fā)現(xiàn)這種規(guī)律,第一步就是畫出它的頻數(shù)分布表和直方圖。

制作頻數(shù)分布表的步驟如下:(1)找出最小值和最大值。(2)計算全距 (range,R) :也就是最大值與最小值之差。(3)確定組距:相鄰兩組之間的距離,組距=全距/組段數(shù),通常組段數(shù)取8~12組。(4)確定組段的上、下限:每個組段的起點為下限(lower limit),終點為上限(upper limit)。每個組段均包含組段的下限值,最后一組的組段寫出上限值。(5)列表整理:計算頻數(shù)、頻率、累計頻數(shù)及累計頻率。頻數(shù)分布直方圖的以橫軸為得分、縱軸為頻數(shù);然后在橫軸上標(biāo)出各個組段(比如40-50),用直條的高度表示各組段的頻數(shù)(也可以用“頻率”),頻數(shù)越大則直條越高。由此可見,制作直方圖就是了解數(shù)據(jù)的第一步,化繁為簡,將具體的數(shù)值轉(zhuǎn)換為一個個組段區(qū)間,從而對數(shù)據(jù)的情況有一個大致的了解。

原文:每日丁點 | 頻數(shù)表和直方圖:走進數(shù)據(jù)的第一步

4. 集中趨勢和離散趨勢

前文我們談到,拿到整理好的數(shù)據(jù)的第一步是制作頻數(shù)表和直方圖,從中我們可以大概知道數(shù)據(jù)的分布情況,也就是說,能看出大多數(shù)的數(shù)會集中在哪兒。

這在統(tǒng)計學(xué)中稱作集中趨勢(central tendency),我的理解就是“數(shù)據(jù)往哪里集中”。

教科書的定義是“指某一組數(shù)據(jù)向某一中心值靠攏的趨勢,反映了一組數(shù)據(jù)中心點的位置,也是頻數(shù)分布表和直方圖中高峰所在的位置,即頻數(shù)最大的組段”。

為什么數(shù)據(jù)會表現(xiàn)出集中趨勢呢?因為具有“同質(zhì)性”。從字面上可以直接理解為調(diào)查對象具有相同點。這些共同點使得個體對某項事物的感知(比如生命質(zhì)量)有趨同的作用,反映在數(shù)據(jù)上就表現(xiàn)為“集中趨勢”。

與集中趨勢相對應(yīng)的另一個特征是“離散趨勢”。大部分數(shù)據(jù)雖然會集中在某個區(qū)間,但并不是所有數(shù)據(jù)都這樣集中。從某數(shù)據(jù)的“集中位置”往左右兩邊延伸,距離越遠,數(shù)據(jù)與集中位置的差異就越大,由此,統(tǒng)計學(xué)上就把數(shù)據(jù)偏離集中位置的程度稱作離散趨勢(dispersion tendency)。

為什么會有離散趨勢呢?答案是存在變異。大家雖然有很多共同點,但畢竟不是一個模子刻出來的,在某些地方存在差異,比如性格溫和還是急躁、生活態(tài)度樂觀還是悲觀等。

原文:每日丁點 | 三張圖看懂集中趨勢和離散趨勢

5. 集中趨勢的數(shù)字表達:均數(shù)和中位數(shù)

前文我們講解了數(shù)據(jù)的集中趨勢和離散趨勢,而均數(shù)和中位數(shù)就是描述數(shù)據(jù)集中趨勢的最常用的指標(biāo),也稱“位置測量指標(biāo)”,因為它們量化的是數(shù)據(jù)的集中位置(center),表示大多數(shù)觀測值所在的中心。

大家平常最熟悉的均數(shù),全稱叫“算術(shù)均數(shù) (arithmetic mean)”計算方法自然不用多講,但需指出的是根據(jù)數(shù)據(jù)資料的形式,均數(shù)一般有兩種算法:除了把所有的觀測值加和再取平均以外,還可以根據(jù)頻數(shù)分布表,用各組的組中值乘以頻數(shù)來計算,比如得分在40~組的頻數(shù)為25,則可以直接用組中值45乘以25得出。當(dāng)然,這是一種近似算法,在可以獲得原始的個體數(shù)據(jù)時,還是應(yīng)基于個體的數(shù)據(jù)用加和平均來算。均數(shù)不能用于偏態(tài)分布的根本原因是它對于特別大或特別小的觀測值十分敏感,尤其是樣本量較小的情況下,均數(shù)其實難以代表總體情況。因此,我們在拿到數(shù)據(jù)后的第一步不是算平均數(shù),而是畫頻數(shù)表和直方圖,直觀地看看原始數(shù)據(jù)的面貌。由此,我們來看看描述集中趨勢的第二個指標(biāo)——中位數(shù)(M),可以說它的出現(xiàn)和使用就是用來彌補上述均數(shù)的這種缺陷的。要計算中位數(shù)很簡單,將所有的數(shù)據(jù)從小到大排列,處于正中間位置的數(shù)就是中位數(shù)。所以在一組數(shù)據(jù)中,有一半的數(shù)據(jù)比它大,另一半比它小。不過這些需要注意的是,當(dāng)樣本量n為奇數(shù)時,中位數(shù)就是最中間那個數(shù),即第(n+1)/2;而當(dāng)樣本量為偶數(shù)時,則中位數(shù)是中間兩個數(shù)的平均數(shù),即第n/2和第n/2 + 1個觀測值的均數(shù),注意不是第n/2 - 1。與均數(shù)相比,中位數(shù)還是存在明顯不足的:1、中位數(shù)沒有考慮大部分觀測值的大小,僅僅納入一個或兩個數(shù)據(jù),而均數(shù)的計算充分利用了全部數(shù)據(jù)的信息;2、兩組數(shù)據(jù)合并時,合并后的中位數(shù)不能用原來兩組的中位數(shù)表達,而均數(shù)可以通過相應(yīng)的公式來計算得到新合并數(shù)據(jù)的平均;3、均數(shù)可以通過去掉極端數(shù)值進行修正(比如所謂的截尾均數(shù)),而中位數(shù)無法進行這樣的修正,同時,當(dāng)樣本量較大時,極端值對均數(shù)的影響會減弱。因此,相比中位數(shù),均數(shù)使用更加廣泛。 通過比較中位數(shù)和均數(shù)的大小,可以幫助我們粗略判斷數(shù)據(jù)的分布類型。具體而言,當(dāng)數(shù)據(jù)呈對稱分布時,均數(shù)和中位數(shù)接近;而當(dāng)數(shù)據(jù)呈右偏態(tài)分布(即右邊有個長尾巴)時,均數(shù)大于中位數(shù);左偏態(tài)分布(尾巴在左),均數(shù)小于中位數(shù)。

原文:每日丁點 | 均數(shù)和中位數(shù),那些你還不知道的事兒

6. 集中趨勢的數(shù)字表達:幾何平均數(shù)

與前文講的算數(shù)平均數(shù)和中位數(shù)一樣,幾何均數(shù)也是描述數(shù)據(jù)集中趨勢的指標(biāo)之一,幾何均數(shù)(geometric mean, G)是n個觀測數(shù)據(jù)乘積的n次方根,常用于描述存在少數(shù)偏大的極端值的正偏態(tài)分布或觀測值之間呈倍數(shù)關(guān)系或近似倍數(shù)關(guān)系數(shù)據(jù)的集中位置。原文:每日丁點 | 你還記得幾何平均數(shù)嗎?

7. 百分位數(shù)

我們對四分位數(shù)間距很熟悉,四分位數(shù)間距就是通過百分位數(shù)計算出來的,這一點我們后文再詳述。除了四分位數(shù)間距,大家熟知的中位數(shù)也是一個百分位數(shù),稱第50百分位數(shù)(P50)。

關(guān)于百分位數(shù)(Percentile, Px),教科書的定義是,是指將所有n個觀測值從小到大排列后,對應(yīng)于x%位的那個數(shù)字。

比如由1~100的所有正整數(shù)組成的一個數(shù)據(jù)(n=100),那么這個數(shù)據(jù)的第50百分位數(shù)就是50,第10百分位數(shù)就是10,第80百分位數(shù)就是80。

也就是說,從理論上講,計算百分位數(shù)(Px)實際上只需將數(shù)據(jù)進行一個排序,然后數(shù)數(shù)就可以。一個百分位數(shù)Px將一組數(shù)據(jù)分成兩部分,有x%的數(shù)小于等于它,(100-x)%的數(shù)大于它。

不過,在現(xiàn)實情況中,我們有時找不到正好有x%的觀測值小于或等于它,此時,百分位數(shù)Px的計算通常只能采用最為接近的一個數(shù)。

原文:每日丁點 | 簡單談?wù)劙俜治粩?shù)

8. 離散趨勢的數(shù)字表達

在這個系列文章的開篇,我們就討論過統(tǒng)計學(xué)研究的核心問題:變異,簡單理解就是差異。那么什么叫變異大、什么叫變異小呢?

變異程度,也可以理解為離散趨勢,與離散趨勢相對應(yīng)的是我們前文講解的集中趨勢,我們知道集中趨勢的主要指標(biāo)是均數(shù)和中位數(shù),而結(jié)合我們今天要講解的離散趨勢的描述指標(biāo),我們就能夠全面地把握數(shù)據(jù)的分布特征。

為什么完整描述數(shù)據(jù)的分布特征就需要加入離散趨勢,即變異程度呢?看看下面這個例子:

有A、B、C三組兒童的身高(cm),A組:92,96,100,104,108;B組:96,97,100,103,104;C組:96,99,100,101,104。

這三組兒童的平均身高都為100cm。但是僅根據(jù)它們的平均數(shù)相等,我們不能說這三組兒童的身高分布就是一致的:

下圖可以一目了然地發(fā)現(xiàn)A組兒童身高的差異程度最大(即數(shù)據(jù)最離散),其次是B組,而C組兒童身高差異程度最小,數(shù)據(jù)都很接近。


雖然這里數(shù)據(jù)量很小,但三組兒童身高在變異程度上如此顯著的差異似乎提示著某些信息,從而可以引領(lǐng)我們進一步探索。

回到今天的主題——變異程度(離散趨勢)的定量描述指標(biāo)。

1. 極差

首先,最簡單的指標(biāo)是極差(range, R),也稱全距,是一組數(shù)據(jù)中最大值與最小值的差值,極差越大說明數(shù)據(jù)的變異程度越大,即數(shù)據(jù)越離散。極差一般可用來反映傳染病、食物中毒的最短和最長潛伏期等。

很明顯,極差是一個比較粗略的指標(biāo),它僅用到最大值和最小值的信息,不能反映組內(nèi)其他數(shù)據(jù)的變異情況。另外,極差與樣本例數(shù)有關(guān)。一般地,樣本量越大,得到較大或較小變量值的可能性越大,極差就可能越大,故樣本量相差較大時,不宜采用極差進行比較。

2. 方差或標(biāo)準(zhǔn)差

最常見的指標(biāo)是方差或標(biāo)準(zhǔn)差,前者是后者的平方。


方差的具體計算我們不需要再多講,不過關(guān)于樣本方差為什么除以(n-1),我們平臺之前發(fā)過文章解釋,大家可以參考:計算樣本方差時為什么是除以(n-1)?。

方差或者標(biāo)準(zhǔn)差越大說明數(shù)據(jù)越離散、變異程度越大。

3. 四分位數(shù)間距

另一個常見的指標(biāo)是四分位數(shù)間距(inter-quartile range, IQR),它是根據(jù)百分位數(shù)計算出來的,計算公式是IQR = P75 - P25,即第75百分位數(shù)與第25百分位數(shù)的差。

這兩個百分位數(shù)與中位數(shù),即P50,將一組數(shù)據(jù)分成四等分,因此這三個百分位數(shù)稱為四分位數(shù)(quartile),可分別記為Q1、Q2、Q3。

Q1和Q3分別稱為下四分位數(shù)(P25)和上四分位數(shù)(P75)。


與極差相比,四分位數(shù)間距不受兩端極大或極小數(shù)據(jù)的影響,因此其更加穩(wěn)定。IQR常與中位數(shù)一起使用,綜合反映數(shù)據(jù)的平均水平和變異程度,寫成M(P25, P75)。

4. 變異系數(shù)

除了上述三個指標(biāo)外,當(dāng)我們希望比較兩組數(shù)據(jù)的變異程度時,還可以使用變異系數(shù)(CV)。

當(dāng)兩組數(shù)據(jù)的測量尺度相差太大,比如希望比較螞蟻和大象的體重變異,直接用標(biāo)準(zhǔn)差顯然是不合理的;另外,如果兩組數(shù)據(jù)單位(量綱)不同,例如希望比較身高和體重的變異,兩者的量綱分別是米和千克,直接使用標(biāo)準(zhǔn)差來進行比較也不合適:3米和4千克,究竟誰更大呢?

由此,我們將樣本標(biāo)準(zhǔn)差除以樣本均數(shù),得到變異系數(shù)(CV),它沒有單位,同時又按照其均數(shù)大小進行了標(biāo)準(zhǔn)化,所以可以進行客觀的比較。

變異系數(shù)的值越大,表示數(shù)據(jù)的變異程度越大。

5. 集中趨勢和離散程度指標(biāo)總結(jié)

原文:每日丁點 | 數(shù)據(jù)離散趨勢的度量

9. 箱式圖

學(xué)習(xí)完描述數(shù)據(jù)集中趨勢和離散趨勢的各種指標(biāo)后,如何用恰當(dāng)?shù)膱D形呈現(xiàn)它們便成了一個重要問題。而今天要談的箱式圖就是來解決這個問題的。

箱式圖,有時也稱箱線圖,因為中間包含一個箱子樣的長方形,兩端有兩根細線,故稱之。

箱子中間的橫線為中位數(shù)、箱體的下端和上端分別是Q1和Q3的位置,由此,箱體的高度則代表四分位數(shù)間距,所以,箱體越高表示數(shù)據(jù)的變異程度越大。

相比直方圖可展示原始數(shù)據(jù)的大體分布形態(tài),箱式圖表達的信息其實也很全面,它能簡潔地呈現(xiàn)數(shù)據(jù)平均水平和變異程度,是探索性分析中最常用的圖形工具。實際應(yīng)用中,往往將幾組數(shù)據(jù)的箱式圖繪在一起,便于組間比較。

一般而言,箱式圖主要呈現(xiàn)5個匯總的統(tǒng)計指標(biāo),包括一組數(shù)據(jù)的最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)、最大值。但是,我們?yōu)榱撕w更全面的信息,故常將均數(shù)也體現(xiàn)在圖中。

如下圖: 該圖繪制了兩個箱式圖,分布代表正常居民中和患有慢性鼻竇炎的患者的精力評分,如圖,在箱體中間還標(biāo)出了均數(shù),用菱形表示;以及離群值,用小空心圓表示。

此時需注意豎線下端和上端表示的不再是整個數(shù)據(jù)最大值和最小值,嚴格來說,應(yīng)該稱為上限和下限。上限是非異常范圍內(nèi)的最大值,計算公式是 Q3 + 1.5 IQR,即第75百分位數(shù)加1.5倍的四分位數(shù)間距。下限是非異常范圍內(nèi)的最小值,等于 Q1 - 1.5 IQR。在上下限范圍之外的數(shù),稱為”離群值(outliers)“,其與其他數(shù)值差異較大,提示數(shù)據(jù)收集過程可能有誤。


原文:每日丁點 | 箱式圖以及SPSS操作視頻

10. 怎么判斷數(shù)據(jù)是否有誤

統(tǒng)計學(xué)是關(guān)于數(shù)據(jù)的科學(xué),因此,準(zhǔn)確地獲取數(shù)據(jù),保證數(shù)據(jù)質(zhì)量也是非常重要的問題。下面,我們就來簡單談?wù)剬τ跀?shù)據(jù)進行邏輯核查的幾種常用策略以及離群值的判斷和處理。

一、邏輯核查的7種策略

1. 檢查變量存儲類型

在軟件中,變量分為數(shù)值型變量、字符型變量等(這里與統(tǒng)計學(xué)中對變量的分類相區(qū)別)。

一般而言,數(shù)值型變量只能包括數(shù)字、小數(shù)點等,而不能含有字母或文字。

這種有時看似十分低級的錯誤有時可能成為分析過程無法順暢進行的絆腳石,所以,也需要要留意。

2. 核查變量值范圍

檢查每個變量的取值范圍。例如:一個人的體重不能為負數(shù);出生月份應(yīng)在1~12之間;某成年男性的身高值低于140cm或者高于210cm也值得懷疑。

3. 有效值檢查

檢查觀測值是否為事先定義的數(shù)值之一。例如:錄入性別時,事先規(guī)定用1表示男性,2表示女性,如果數(shù)據(jù)中出現(xiàn)其他觀測值則說明有誤。

4. 一致性檢查

檢查有無前后矛盾,相關(guān)問題的邏輯是否一致。例如,出院日期早于入院日期、收縮壓小于舒張壓等就不符合邏輯。

5. 唯一性檢查

在錄入數(shù)據(jù)時,一般而言,每個觀察單位通常都設(shè)有一個唯一的標(biāo)識號,如調(diào)查對象編號、住院號、門診號等。

根據(jù)標(biāo)識號檢查是否存在同一個觀察單位的數(shù)據(jù)兩次重復(fù)錄入。

6. 完整性檢查

檢查每一個觀察單位的完整性和整個數(shù)據(jù)庫的完整性。比如,在問卷調(diào)查中,往往根據(jù)問卷的完成情況定義有效問卷,比如完成80%即視為有效問卷。

同時,需要注意每個變量在整個數(shù)據(jù)文件中的缺失比例,這是數(shù)據(jù)質(zhì)量的一個重要方面。

7. 交叉檢查

不同來源的兩個數(shù)據(jù)庫中同一內(nèi)容的信息應(yīng)該一致。通過檢查不同來源的數(shù)據(jù)的一致性,可快速驗證數(shù)據(jù)的可信度。

二、離群值的判斷

前文,我們簡單談過離群值的概念。一組數(shù)據(jù)中如果個別數(shù)值與其他數(shù)值相比差異較大,遠遠偏離大多數(shù)數(shù)據(jù)的平均水平,這樣的數(shù)據(jù)被稱為離群值(outliers)。

對于離群值的探索有時候不能通過上述邏輯核查的方法,由此,需要采用相應(yīng)的統(tǒng)計收到進行核查。

1. 通過頻數(shù)分布表或直方圖初步判斷

如果連續(xù)幾個組段的頻數(shù)均0,之后出現(xiàn)特別大或者特別小的數(shù)據(jù)即可能為離群值。

2. 利用箱式圖判斷

如果觀測值距箱式圖底線(P25)或頂線(P75)的距離為箱體高度(IQR)1.5倍或以上,則可視為離群值。

其中,與箱體距離超過3倍箱體高度,則可視該觀測值為極端離群值或極端值;與箱體距離在1~1.5倍箱體高度的觀測值可稱為可疑離群值;

3. 通過均數(shù)和標(biāo)準(zhǔn)差判斷

當(dāng)數(shù)據(jù)呈近似正態(tài)分布且樣本量較大時(如n>50),若觀測值在均數(shù)±3倍標(biāo)準(zhǔn)差之外則可視為離群值。

4. 結(jié)合其他變量信息判斷

比如,根據(jù)兒童的身高,可初步判斷其體重是否過高或者過低。根據(jù)身高所建立的體重核查規(guī)則比單純只考慮體重的核查更為有效。

三、離群值的處理

離群值是否應(yīng)該直接剔除或者進行調(diào)整是一個具有爭議的問題,處理不當(dāng)可導(dǎo)致分析結(jié)果出現(xiàn)偏差。

測量或者記錄過程中出現(xiàn)錯誤而導(dǎo)致離群值,或者存在明顯的邏輯錯誤,應(yīng)予以剔除。

當(dāng)無明確理由剔除離群值時,可按如下方法處理:

1. 對離群值刪除前后各做一次統(tǒng)計分析,若前后分析結(jié)果矛盾則下結(jié)論需謹慎。

2. 采取一些穩(wěn)健分析(robust analysis)的方法:

如采用中位數(shù)、進行對數(shù)變換(需觀測值大于0,但注意對數(shù)變化可能夸大極小值的影響);

截尾均數(shù):將數(shù)據(jù)按從小到大順序排列后,兩端截掉一定比例的數(shù)據(jù)后計算余下數(shù)據(jù)的均數(shù),大家聽過的“去掉一個最高分、去掉一個最低分”,就是典型的例子。

原文:每日丁點 | 怎么判斷數(shù)據(jù)是否有誤?

注:文章有參考,來源為《衛(wèi)生統(tǒng)計學(xué)》(人衛(wèi)第八版)

推薦閱讀

《講透統(tǒng)計》系列文章合集

丁點幫你公眾號現(xiàn)推出“每日丁點 | 統(tǒng)計系列”,每天給你講透一個統(tǒng)計小問題,讓我們一起每天進步一丁點!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容