前言
這個(gè)系列的筆記是StatQuest視頻的學(xué)習(xí)筆記,我的這些筆記有時(shí)候會(huì)使用一些自己以前收錄的數(shù)據(jù),外加自己補(bǔ)充的一些筆記。此篇筆記是基礎(chǔ)知識(shí),視頻教程的1-5。
什么是直方圖
如果我們測(cè)量一批人的身高,他們的身高并不固定,因此我們先做一個(gè)x軸,從左到右身高依次增高,如下所示:

此時(shí),我們開(kāi)始測(cè)量這批人的身高,一個(gè)點(diǎn)代表一個(gè)人,如下所示:

這種圖有個(gè)缺陷,就是一些相同身高的人的點(diǎn)會(huì)重合,并不直觀,因此我們可以轉(zhuǎn)換一下圖形,把相同身高的人的點(diǎn)疊加起來(lái),如下所示:

這樣的話, 我們就能很清楚地看到這批人身高的統(tǒng)計(jì)情況,這種圖形可以叫直方圖(histogram),直方圖的下端(也就是x軸)的數(shù)據(jù)是連續(xù)的,可以自己設(shè)定,從圖中可以明顯看到,中間的人的點(diǎn)數(shù)多,兩邊的人點(diǎn)數(shù)少。再進(jìn)一步,我們可以使用“分布(distribution)”這個(gè)術(shù)語(yǔ)來(lái)表示我們這次測(cè)量的為數(shù)據(jù),將這些數(shù)據(jù)點(diǎn)的頂端用一個(gè)近似曲線連接起來(lái),就成了下面的這個(gè)樣子:

這種圖形類(lèi)似于一個(gè)鐘型(bell)我們可以稱(chēng)它為正態(tài)分布(normal distribution),如果我們測(cè)量出來(lái)的數(shù)據(jù)是下面的這個(gè)樣子,它就呈現(xiàn)一種指數(shù)分布(exponential distribution):

直方圖的特點(diǎn)
如果我們?cè)跍y(cè)量這批人的數(shù)據(jù)時(shí),以0.5英尺(約合30cm)為單位,也就是說(shuō),在繪制直方圖時(shí),x軸的坐標(biāo)上的寬度分布是這個(gè)樣子的:

可以看到,這次測(cè)量把這批人的身高數(shù)據(jù)劃分了4份,分別為小于5,5到5.5,5.5到6,大于6。如果改變一下,把數(shù)據(jù)劃分為8份,也就是說(shuō)最小的單位值是0.25,就是下面的這個(gè)樣子:

如果測(cè)量更多的人,使用更加小的劃分單位,我們就會(huì)得到一個(gè)對(duì)人體身高更加精確的估計(jì)值,下圖是劃分了18份,如下所示:

并且還可以畫(huà)出一條曲線(curve),對(duì)這批數(shù)據(jù)進(jìn)行估計(jì),如下所示:

從這張圖上我們可以得到以下信息:

測(cè)量一個(gè)人,得到這個(gè)低于4.5或高于6.5的概率比較低,而很大的概率會(huì)得到曲線中間凸出來(lái)的部分。使用曲線來(lái)估計(jì)一批人數(shù)據(jù)比直方圖更有優(yōu)勢(shì)。第一,直方圖有時(shí)候并不準(zhǔn),例如上圖右側(cè)藍(lán)箭頭這部分?jǐn)?shù)據(jù)并沒(méi)有測(cè)到,如果換一批人,就有可能測(cè)到;第二,使用曲線時(shí),并不用考慮最小數(shù)據(jù)的分隔單位,就能估計(jì)一個(gè)數(shù)值的概率,例如我們要計(jì)算得到5.021和5.317這個(gè)數(shù)據(jù)的概率有多大,就直接利用曲線就能得到。第三,人的精力與資源有限,直接去測(cè)量大批數(shù)據(jù)并不現(xiàn)實(shí),而估計(jì)一條曲線只需要我們手中少量數(shù)據(jù)的標(biāo)準(zhǔn)差與均值即可。

在這張圖里,直方圖與曲線都表示這批數(shù)據(jù)的分布,其中曲線的最高處以及直方圖的中間地帶,都是最有可能測(cè)量到的部分。除了這種正態(tài)分布的圖形外,還有其他的分布(下圖左上是正態(tài)分布,右上是指數(shù)分頁(yè),左下是均勻分頁(yè)),如下所示:

直方圖與柱狀圖的區(qū)別
直方圖x軸上的組距是連續(xù)的,從上面的圖形可以得知,測(cè)量的身高的不同劃分是小于5,5到5.5,5.5到6,6以上。而柱狀圖的x軸上通常是一些分類(lèi)的數(shù)據(jù)類(lèi)型,看下圖:

這張圖就是一個(gè)柱狀圖(有人也稱(chēng)條形圖),它的x軸是不連續(xù)的,只是一些分類(lèi)變量。
正態(tài)分布
先看一下正態(tài)分布圖形,就是上一部分中的身高分布數(shù)據(jù),如下所示:

從圖形上可以看到正態(tài)分布的特點(diǎn):
- 左右對(duì)稱(chēng),因此也叫鐘型曲線(bell shaped curve);
- 中間凸起,兩側(cè)平緩。
再看另外的兩個(gè)正態(tài)分布圖形:

其中,左側(cè)綠線表示的是出生的嬰兒的身高分布(英寸),右側(cè)的劃線表示的是成人身高的分布,從這兩個(gè)曲線上我們可以得到這些信息:
- 嬰兒的正態(tài)分布曲線比較尖銳,這表示嬰兒身高比較集中,成人身高的正態(tài)分布曲線比較平緩,這表示成人身高比較分散;
- 成人身高的平均值要高于嬰兒身高的平均值。
再看一下嬰兒和成人身高的95%的集中程度:

自然界的很多事物都符合正態(tài)分布,其背后的一個(gè)原理就是中心極限定理(the central limit theorem),以后的筆記會(huì)提到。
模型
模型,英文是指“model”。在統(tǒng)計(jì)學(xué)中,模型是指對(duì)現(xiàn)實(shí)世界中的一些事情的抽象處理,數(shù)據(jù)模型使用一些表格,圖表,公式來(lái)研究現(xiàn)實(shí)世界中的一些規(guī)律,例如下圖就是使用一個(gè)圖表和公式來(lái)表示小鼠的體重與大小的關(guān)系:

有時(shí)候,圖形不一定是直線,也有可能是曲線,如下所示:

抽樣分布
下圖是一個(gè)直方圖,一個(gè)點(diǎn)表示一個(gè)人的身高:

然后用一條曲線來(lái)表示數(shù)據(jù)的分布:

如果我們從這個(gè)分布里面隨機(jī)抽出一個(gè)樣本的話,有很大的概率會(huì)抽到中間的這一部分,就是下圖中黑色圓角矩形表示的區(qū)域:

如果我們使用某個(gè)程序(例如R語(yǔ)言)隨機(jī)地從服從正態(tài)分布的數(shù)據(jù)中挑出許多樣本,然后對(duì)它們進(jìn)行統(tǒng)計(jì)的話,看一下會(huì)發(fā)生哪些事情,例如從下面的這個(gè)正態(tài)分布中隨機(jī)地挑出兩個(gè)樣本,一個(gè)樣本的數(shù)量是3(一個(gè)樣本不一定只是一個(gè)數(shù)據(jù)點(diǎn)),如下所示:

然后對(duì)這兩個(gè)樣本進(jìn)行t檢驗(yàn),由于它們都是來(lái)源于同不一個(gè)分布,因此t檢驗(yàn)結(jié)果的p值會(huì)很大(也就是說(shuō)p很有可能大于0.05)。如果這兩個(gè)樣本是來(lái)源兩個(gè)不同的分布,如下所示:

那么經(jīng)過(guò)t檢驗(yàn),得到的p值就會(huì)很小。如果想到得到較小的p值,這就可能要增加樣本,或者是就此為止(增加樣本涉及到一類(lèi)錯(cuò)誤與二類(lèi)錯(cuò)誤,這里不表)。