生物統(tǒng)計(jì)第一彈之統(tǒng)計(jì)基礎(chǔ)概念
原創(chuàng): 云天明 [生信菜鳥團(tuán)]
在系統(tǒng)學(xué)習(xí)統(tǒng)計(jì)學(xué)之前,有必要了解一些基本的統(tǒng)計(jì)學(xué)概念和術(shù)語(yǔ),現(xiàn)在把這些概率與術(shù)語(yǔ)總結(jié)了一下,可能有不太完善的地方,僅供大家參考。
什么是統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)是收集、分析、展示和解釋數(shù)據(jù)的科學(xué)。這里說的數(shù)據(jù)就是科學(xué)中的事實(shí)和證據(jù),數(shù)據(jù)不僅限于數(shù)字,它也可能是圖像或文字,實(shí)際上,任何信息都可以稱為數(shù)據(jù)。
數(shù)據(jù)和變量
在了解這兩個(gè)術(shù)語(yǔ)之前,先看一組數(shù)據(jù),從這組數(shù)據(jù)出發(fā),說明這幾個(gè)術(shù)語(yǔ)。
這組數(shù)據(jù)是R中自帶的數(shù)據(jù)集,即iris這個(gè)數(shù)據(jù)集,iris數(shù)據(jù)集的中文名是安德森鳶尾花卉數(shù)據(jù)集,英文全稱是Anderson’s Iris data set。iris包含150個(gè)樣本,對(duì)應(yīng)數(shù)據(jù)集的每行數(shù)據(jù)。每行數(shù)據(jù)包含每個(gè)樣本的四個(gè)特征和樣本的類別信息,所以iris數(shù)據(jù)集是一個(gè)150行5列的二維表,我們先看一下這個(gè)數(shù)據(jù)集的結(jié)構(gòu),如下所示:
> str(iris)
'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
再看一下前幾條信息,如下所示:
> head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa6 5.4 3.9 1.7 0.4 setosa
從上面的這兩個(gè)結(jié)果,我們可以得到這些信息:
第一,這個(gè)數(shù)據(jù)集一共有150行,5列。
第二,每1列的名稱分別為Sepal.Length、Sepal.Width、Petal.Length、Petal.Width和Species,它們分別表示鳶尾花的花萼長(zhǎng)度,花萼寬度、花瓣長(zhǎng)度,花瓣寬度,種屬,也就是說第1行中一共有這5個(gè)信息,我們把這5個(gè)信息稱為變量(variable)。這里需要說明一下的是,變量(variable)在計(jì)算機(jī)/數(shù)據(jù)庫(kù)等領(lǐng)域也叫屬性(attribute)、特征(feature)、特性(characteristic)、字段(field)等等。
再回到iris這個(gè)數(shù)據(jù)集中。
其中,我們把種屬(Species)這個(gè)信息稱為定性變量(qualitative variable),定性變量取的值稱為水平(level)或類(class)。定性變量有其它的教材中也會(huì)稱為分類變量(categorical variable)、屬性變量(attributives variable)、名義變量/標(biāo)稱變量(nominal variable)或維度(dimension)。定性變量的例子除了種屬外,還有其他的例子,例如我們常見的性別,顏色等,在有些情況下,定量變量也會(huì)按照定性變量去處理,例如,為了調(diào)查方便,我們?cè)趩柧碇锌梢灾粏柛呤杖搿⒅惺杖脒€是低收入,而不是問具體多少錢,這種定性變量還能進(jìn)行排序,它們也常常稱為定序變量(ordinal variable)。
再看其它的4個(gè)變量,它們是用具體的數(shù)字表示,這些變量稱為定量變量(quantitative variable)。定量變量還能分為連續(xù)型變量(continuous variable)和離散型變量(discrete variable)。
連續(xù)型變量的例子有身高、體重、熱量、速度、長(zhǎng)度等,它們的取值 是實(shí)數(shù)軸的某一個(gè)區(qū)間或者是某些區(qū)間集合中的所有可能點(diǎn)的變量。
離散型變量的例子有,某種事件發(fā)生的次數(shù),例如拋5次硬幣,在描述有幾次正面朝上的時(shí)候,只可能是0次,1次,2次,3次,4次,5次,而不可能是1.5次這種小數(shù),離散型變量只能取正整數(shù)或0。
還看上面的案例,整個(gè)iris這個(gè)數(shù)據(jù)集中,除了第1行的變量名稱外,剩下的內(nèi)容則是與這些變量對(duì)應(yīng)的數(shù)據(jù)(data),可以把數(shù)據(jù)看成變量的觀測(cè)值,或者是試驗(yàn)結(jié)果,例如,身高是一個(gè)變量,測(cè)量一個(gè)人的身高,就好比一次試驗(yàn),可觀測(cè)到一次試驗(yàn)結(jié)果,就是觀測(cè)值(observation)。這里還要提一下,觀測(cè)值(observation)在計(jì)算機(jī)/數(shù)據(jù)庫(kù)領(lǐng)域也叫記錄(record)、對(duì)象(object)、向量(vector)、模式(pattern)、事件(event)、例(case,instance)、樣本(sample)、或項(xiàng)、實(shí)體(entity)等等。
我們一般所說的數(shù)據(jù)是一個(gè)集合名詞,每一個(gè)數(shù)字包含很多觀測(cè)值,每個(gè)觀測(cè)值也稱為一個(gè)數(shù)據(jù)點(diǎn)(data point, point)或例(case)。就以這個(gè)iris的數(shù)據(jù)集為例,它的每1列代表一個(gè)變量,而每1行則為一個(gè)對(duì)象關(guān)于各個(gè)變量的觀測(cè)值,簇也把這種數(shù)據(jù)方陣的每一行叫做一個(gè)觀測(cè)(值),就像下面的樣子,它就是一個(gè)觀測(cè):
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
這也是一個(gè)觀測(cè)值,如下所示:

<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
概率和隨機(jī)變量
在統(tǒng)計(jì)學(xué)研究中,有很多對(duì)象都被認(rèn)為具有隨機(jī)性(randomness),隨機(jī)的事情也有規(guī)律的,例如我們拋一個(gè)硬幣,在硬幣落在地面之前,硬幣朝哪面我們是不知道的,它是隨機(jī)的,事先無法準(zhǔn)確地預(yù)測(cè)。但是,只要這個(gè)硬幣是正常的,沒問題的,那么我們就知道,硬幣朝上與朝下的概率基本上是相等的。
在這里,硬幣的朝上與朝下的這個(gè)變量,它就是隨機(jī)變量(random variable)。而一個(gè)隨機(jī)變量的性質(zhì)則完全被與其相關(guān)的概率或概率分布決定。那什么是概率?
一個(gè)事件(event)的概率(probability)是該事件發(fā)生可能性的一個(gè)數(shù)量度量,它的聚會(huì)范圍是0到1,也可能是0或1.當(dāng)一個(gè)事件的概率接近1時(shí),則說明這個(gè)事件很可能發(fā)生;如果概率接近0,則說明不太可能發(fā)生,如果概率為0.5,那么說明該事件發(fā)生和不發(fā)生的可能性一樣。
簡(jiǎn)單來說,概率稱量某個(gè)事件出現(xiàn)的機(jī)會(huì),有些概率在某種假定條件下可以算出來,例如拋硬幣,得到正面朝上與反面朝上的概率都是0.5,這種可能計(jì)算概率的事件稱為等可能事件(equally likely event),這種可能是假定的,對(duì)于硬幣來說,就是假定正面與反面朝上的?一樣,如果我們拋了一千次,其中得到正面與反面朝上的頻率或相對(duì)頻數(shù)(relative frequency)都接近0.5,那么就說明這個(gè)硬幣是公平的,是正常的,這些事件理論上可能通過重復(fù)試驗(yàn)中出現(xiàn)的頻率來計(jì)算其發(fā)生的概率。
不過有些概率是無法用重復(fù)計(jì)算來估計(jì)的,例如有人認(rèn)為,最近3個(gè)月內(nèi)中東地區(qū)發(fā)生大規(guī)模軍事沖突的概率是80%,這顯著無法用重復(fù)試劑來估計(jì),這只是他們基于過去的經(jīng)合和掌握的信息形成的信息,這種概率稱為主觀概率(subjective probability)。
利用R產(chǎn)生隨機(jī)數(shù)
在進(jìn)行抽樣時(shí),或者是模擬某個(gè)分布時(shí),我們常常要用到隨機(jī)數(shù),現(xiàn)在都是用軟件來生成隨機(jī)數(shù),雖然這種隨機(jī)數(shù)不晃真正的隨機(jī)數(shù),但是已經(jīng)足夠使用了,使用軟件生成的這種隨機(jī)數(shù)稱為偽隨機(jī)數(shù)(pseudo-random number),現(xiàn)在介紹一下用R來如何生成隨機(jī)數(shù)。
現(xiàn)在生成10個(gè)2到3之間的,服從均勻分布的偽隨機(jī)數(shù),如下所示:
> set.seed(1000)> runif(10,2,3) [1] 2.327879 2.758846 2.113936 2.690755 2.516402 2.067738 2.738715 2.583535 [9] 2.215771 2.256122
現(xiàn)在解釋一下,先看runif()這個(gè)函數(shù),在R中,這個(gè)函數(shù)前面的r表示隨機(jī),unif表示服從均勻分布,類似的還有rnorm(),它的功能類似,只是它生成的是服從正態(tài)分布的隨機(jī)數(shù),其中norm就是正態(tài)分布的意思。
現(xiàn)在,再看set.seed(1000)的作用是保證你隨機(jī)生成的數(shù)字前后一致,如果它的參數(shù)就是一個(gè)數(shù)字,這個(gè)數(shù)字可以隨意指定,括號(hào)里的數(shù)字只要一致,那么每次生成的隨機(jī)數(shù)就一致,如果不使用這個(gè)函數(shù),那么我們每次運(yùn)行runif(10,2,3),它生成的隨機(jī)數(shù)就不一樣,現(xiàn)在看一下下面的代碼:
> runif(10,2,3) # 不指定set.seed() [1] 2.567518 2.049710 2.561620 2.966179 2.509945 2.700937 2.020349 2.783569 [9] 2.584397 2.317293> runif(10,2,3) # 再次運(yùn)行runif(10,2,3),生成的結(jié)果就不一樣 [1] 2.996208 2.531047 2.109908 2.633212 2.797929 2.712990 2.702835 2.562833 [9] 2.258873 2.506937> set.seed(1000) # 指定set.seed(1000)> runif(10,2,3) # 生成的結(jié)果就與前面的一樣 [1] 2.327879 2.758846 2.113936 2.690755 2.516402 2.067738 2.738715 2.583535 [9] 2.215771 2.256122
總體(population)
根據(jù)研究目的而確定的同質(zhì)觀察單位的全體,更確切地說,它是同質(zhì)的所有觀察單位某種觀察值的集合,例如調(diào)查某地2008年7歲正常女童的身高,而其中的觀察單位(個(gè)體)則是每個(gè)女童。由于這里的總體明確規(guī)定了空間、時(shí)間、人群范圍內(nèi)有限個(gè)觀察單位,因此稱為有限總體(finite populaton)。而在一些情況下,總體的概念則是設(shè)想的或抽象的,例如研究某治療慢性前列腺增生的藥物的療效,這里的總體的同質(zhì)基礎(chǔ)是慢性前列腺增生患者,該總體應(yīng)包括用該藥治療的所有前列腺增生癥患者的治療結(jié)果,沒有時(shí)間和空間的限制,其觀察單位的全體數(shù)只是理論上存在的,因此可以視為“無限”,稱為無限總體(infinite populaton)。
為了降低成本,因此在醫(yī)學(xué)研究中通常彩從總體中抽取樣本(sample)的方法,根據(jù)樣本信息來推斷總體特征,這種方法叫抽樣研究(sampling research),從總體中抽取部分觀察單位的過程稱為抽樣(sampling)。
為了保證樣本的代表性,抽樣必須遵循隨機(jī)化(randomization)原則。從總體中隨機(jī)抽得的部分觀察單位,其實(shí)際測(cè)量的集合就是樣本,該樣本中包含的觀察單位數(shù)稱為該樣本的樣本含量(sample size)。例中從某地2008年7歲正常女童中,隨機(jī)抽取了110名女童,測(cè)量身高,得到了110名女童的身高測(cè)量值,組成了樣本;也可能從就診的前列腺增生癥患者中隨機(jī)抽取了100名患者,并觀察藥物的治療效果,就組成了治療效果的樣本。
統(tǒng)計(jì)推斷
在實(shí)際研究工作中,受條件所限,在研究中很難得到整個(gè)總體,往往只能得到總體中的一個(gè)子集,即實(shí)際工作中往往按隨機(jī)的方式從總體中抽取若干有代表性的同質(zhì)個(gè)體所構(gòu)成的一個(gè)樣本(sample)進(jìn)行研究,這就需要通過樣本有限的、不確定的信息來歓有關(guān)總體的特征,這就是統(tǒng)計(jì)推斷(statistical inference),簡(jiǎn)言之,統(tǒng)計(jì)推斷是指由樣本所提供的信息對(duì)總體數(shù)量規(guī)律做出推斷。
數(shù)據(jù)整體的一般描述
極差
又叫全距(Range),是用來表示統(tǒng)計(jì)資料中的變異量數(shù)(measures of variation),其最大值與最小值之間的差距;即最大值減最小值后所得之?dāng)?shù)據(jù)。
均值
通常情況下,我們所說的均值都是所有的數(shù)據(jù)之和除以數(shù)據(jù)的數(shù)目,但是,在一些特殊的情況下,會(huì)指明均值的類型,例如是算術(shù)均值,還是幾何均值。
算術(shù)均值(arithmetic mean)
算術(shù)平均數(shù)是對(duì)集中趨勢(shì)的最常用的描述。我們對(duì)某個(gè)量進(jìn)行了n次觀測(cè),把測(cè)量到的數(shù)值分別記為X1, X2,…, Xn,那么要得到算術(shù)平均數(shù),只需把X1到Xn加起來,再除以數(shù)據(jù)的個(gè)數(shù)n。數(shù)學(xué)公式為:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
幾何均值(geometric mean)
幾何平均數(shù)是指n個(gè)觀察值連乘積的n次方根。
中位數(shù)(median)
中位數(shù)是把該變量所有取值從小到大(或從大到?。┡判颍∽钪虚g的一個(gè)(例如總共有21個(gè)數(shù),則取排行第11的)。如果樣本量是偶數(shù),則取中間兩個(gè)數(shù)的平均。
眾數(shù)(mode)
一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,叫眾數(shù),有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。用M表示。 理性理解:簡(jiǎn)單的說,就是一組數(shù)據(jù)中占比例最多的那個(gè)數(shù)。
例如:2,3,3,3,4,5的眾數(shù)是3。 但是,如果有兩個(gè)或兩個(gè)以上個(gè)數(shù)出現(xiàn)次數(shù)都是最多的,那么這幾個(gè)數(shù)都是這組數(shù)據(jù)的眾數(shù)。 例如:2,2,3,3,4,5的眾數(shù)是2和3。 其次,如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣,那么這組數(shù)據(jù)沒有眾數(shù)。 例如:2,3,4,5沒有眾數(shù)。
百分位數(shù)(percentile)
如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值就稱為這一百分位的百分位數(shù)??杀硎緸椋阂唤Mn個(gè)觀測(cè)值按數(shù)值大小排列。如,處于p%位置的值稱第p百分位數(shù)。
百分位數(shù)的計(jì)算
w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0) # 建立向量wquantile(w) # 給出w的四分位數(shù)quantile(w,probs=seq(0,1,0.2),na.rm=FALSE) # 給出向量w的20%,40%分位數(shù)quantile(w,0.80) # 求w的80%分位數(shù)quantile(w,0.75)- quantile(w,0.25) #半極差計(jì)算
結(jié)果如下:
> quantile(w) # 給出w的四分位數(shù) 0% 25% 50% 75% 100% 47.40 57.85 63.50 66.75 75.00 > quantile(w,probs=seq(0,1,0.2),na.rm=FALSE) # 給出向量w的20%,40%分位數(shù) 0% 20% 40% 60% 80% 100% 47.40 56.98 62.20 64.00 67.32 75.00 > quantile(w,0.80) # 求w的80%分位數(shù) 80% 67.32 > quantile(w,0.75)- quantile(w,0.25) #半極差計(jì)算75% 8.9
另外一種方法是用cumsum()函數(shù)來計(jì)算:
cumsum(round(table(w)/length(w)*100,2)) # cumsum表示的是累積之和
結(jié)果如下所示:
> cumsum(round(table(w)/length(w)*100,2)) # cumsum表示的是累積之和 47.4 50 56.9 57 58.7 62.2 63.5 64 66.6 66.9 69 72 75 6.67 13.34 20.01 26.68 33.35 46.68 53.35 66.68 73.35 80.02 86.69 93.36 100.03
四分位數(shù)(Quartile)
統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。第一,四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二,四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。第三,四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。第三,四分位數(shù)與第一四分位數(shù)的差距又稱四分位距(InterQuartile Range,IQR)。四分位距的優(yōu)點(diǎn)在于,與全距(極差)相比,較少受異常值的影響。 R中用來顯示四分位數(shù)的函數(shù)是quantile,另外用boxplot可以繪制出某個(gè)數(shù)據(jù)集的箱線圖。
箱線圖結(jié)果boxplot(w)如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;"></figcaption>
條睛線圖的解讀:最下面是下界,最上面的圓圈是上界,上界的圓圈是異常值,中間矩形的底邊是下分位數(shù),上邊是上四分位數(shù),中間的粗線是中位數(shù),箱體的高是四分位距。
數(shù)據(jù)離散程度的描述
對(duì)于一批數(shù)據(jù)來說,我們有時(shí)候需要看一下這批數(shù)據(jù)的波動(dòng)分散程度如何,這就需要一些指標(biāo)。
變異
醫(yī)學(xué)研究的對(duì)象雖功能復(fù)雜的有機(jī)作整體。不同的個(gè)體在相同的條件下,對(duì)外因環(huán)境因素可以發(fā)生不同的反應(yīng),這種同質(zhì)基礎(chǔ)上個(gè)體特征值之間的差異,稱為變異(variation)(醫(yī)學(xué)統(tǒng)計(jì)學(xué)及SAS應(yīng)用,王炳順)。
離均差
每一個(gè)變量值X與均數(shù)μ的差值,即離均差(X-μ)。
離均差平方和
由于離均差有正有負(fù),最終所有離均差的和即(X-μ)為0,因此離均差的和無法描述一組數(shù)據(jù)的變異大小。因此將離均差平方后相加得到平方和Var(X)=E(X-μ)^2,這就是離均差平方和(sum of squares of deviations from mean)。
總體方差
雖然離均差平方和消除了正負(fù)的影響,但是如果變量值N越大,則離均差平方和也越大,為此,將離均離平方和除以N就得到了方差,方差用δ^2表示,計(jì)算公式為:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
另外,方差(variance)也稱均方差(mean square deviation)
樣本方差
上面的是總體方差,如果是樣本方差,那么總體均值μ是未知的,因此,這個(gè)時(shí)候就要用樣本的均值來替代總體的均值,這個(gè)時(shí)候也不能用δ^2來表示樣本方差,需要用來表示方差,此外,N值也要減去1,公式就如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
樣本方差與總體方差的分母不一樣,這是因?yàn)闃颖痉讲畹姆帜甘褂胣-1才更接近于總體的參數(shù),這是無偏估計(jì)(unbiased estimator),如果直接使用n,那就是有偏估計(jì)(biased estimator ),不過當(dāng)樣本數(shù)量大到一定程度時(shí),分母是n-1和n差別不大,具體的證明過程這里略過,網(wǎng)上很多。
標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差(standard deviation)是方差的正平方根,其單位與原變量值的單位相同,總體標(biāo)準(zhǔn)差用δ表示,計(jì)算公式為:

<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
樣本標(biāo)準(zhǔn)差
樣本標(biāo)準(zhǔn)差的公式如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
標(biāo)準(zhǔn)差計(jì)算函數(shù)
在Excel中計(jì)算方差的公式為STDEV.P和STDEV.S其中,STDEV.P計(jì)算時(shí),認(rèn)為你給出的數(shù)據(jù)是總體,因此它的分母為N,而STDEV.S計(jì)算時(shí),認(rèn)為你給出的數(shù)據(jù)是樣本,因此它的分母為N-1。在R中,用到的函數(shù)為sd,默認(rèn)的就是樣本,因此分母為N-1。
標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差的區(qū)別
在醫(yī)學(xué)統(tǒng)計(jì)中,還經(jīng)常遇到標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤。例如我們要調(diào)查地區(qū)A中10歲男孩的身高。如果全部都統(tǒng)計(jì)下來,直接測(cè)是最準(zhǔn)確的數(shù)據(jù)。但是成本高,不現(xiàn)實(shí)。因此需要進(jìn)行采樣,一次測(cè)量100個(gè)男孩的身高,求這一次的均值M1與標(biāo)準(zhǔn)差S1,如果采樣10次,每次都取100人,我們會(huì)得到10個(gè)均值,分別記為M1,M2,M3…M10,對(duì)這10個(gè)均值再求一個(gè)均值M以及標(biāo)準(zhǔn)差S,其中這個(gè)標(biāo)準(zhǔn)差S就是標(biāo)準(zhǔn)誤(standard error),即均值的標(biāo)準(zhǔn)誤差(standard error of mean)。
變異系數(shù)(coefficient of variation)
簡(jiǎn)稱為CV,標(biāo)準(zhǔn)差與均值的比值。公式為:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
參考資料
醫(yī)學(xué)統(tǒng)計(jì)學(xué).第四版.孫振球
小白統(tǒng)計(jì).馮國(guó)雙
為什么樣本方差(sample variance)的分母是 n-1?
吳喜之. 統(tǒng)計(jì)學(xué):從概念到數(shù)據(jù)分析[M]. 高等教育出版社, 2008.