97精品人妻在线视频,婷婷日韩一区二区,久在线综合视频

前言

這個(gè)系列的筆記是StatQuest視頻的學(xué)習(xí)筆記，我的這些筆記有時(shí)候會(huì)使用一些自己以前收錄的數(shù)據(jù)，外加自己補(bǔ)充的一些筆記。此篇筆記是基礎(chǔ)知識(shí)，視頻教程的1-5。

什么是直方圖

如果我們測(cè)量一批人的身高，他們的身高并不固定，因此我們先做一個(gè)x軸，從左到右身高依次增高，如下所示：

image

此時(shí)，我們開(kāi)始測(cè)量這批人的身高，一個(gè)點(diǎn)代表一個(gè)人，如下所示：

image

這種圖有個(gè)缺陷，就是一些相同身高的人的點(diǎn)會(huì)重合，并不直觀，因此我們可以轉(zhuǎn)換一下圖形，把相同身高的人的點(diǎn)疊加起來(lái)，如下所示：

image

這樣的話，我們就能很清楚地看到這批人身高的統(tǒng)計(jì)情況，這種圖形可以叫直方圖（histogram），直方圖的下端（也就是x軸）的數(shù)據(jù)是連續(xù)的，可以自己設(shè)定，從圖中可以明顯看到，中間的人的點(diǎn)數(shù)多，兩邊的人點(diǎn)數(shù)少。再進(jìn)一步，我們可以使用“分布（distribution）”這個(gè)術(shù)語(yǔ)來(lái)表示我們這次測(cè)量的為數(shù)據(jù)，將這些數(shù)據(jù)點(diǎn)的頂端用一個(gè)近似曲線連接起來(lái)，就成了下面的這個(gè)樣子：

image

這種圖形類(lèi)似于一個(gè)鐘型（bell）我們可以稱(chēng)它為正態(tài)分布（normal distribution），如果我們測(cè)量出來(lái)的數(shù)據(jù)是下面的這個(gè)樣子，它就呈現(xiàn)一種指數(shù)分布（exponential distribution）：

image

直方圖的特點(diǎn)

如果我們?cè)跍y(cè)量這批人的數(shù)據(jù)時(shí)，以0.5英尺（約合30cm）為單位，也就是說(shuō)，在繪制直方圖時(shí)，x軸的坐標(biāo)上的寬度分布是這個(gè)樣子的：

image

可以看到，這次測(cè)量把這批人的身高數(shù)據(jù)劃分了4份，分別為小于5，5到5.5，5.5到6，大于6。如果改變一下，把數(shù)據(jù)劃分為8份，也就是說(shuō)最小的單位值是0.25，就是下面的這個(gè)樣子：

image

如果測(cè)量更多的人，使用更加小的劃分單位，我們就會(huì)得到一個(gè)對(duì)人體身高更加精確的估計(jì)值，下圖是劃分了18份，如下所示：

image

并且還可以畫(huà)出一條曲線（curve），對(duì)這批數(shù)據(jù)進(jìn)行估計(jì)，如下所示：

image

從這張圖上我們可以得到以下信息：

image

測(cè)量一個(gè)人，得到這個(gè)低于4.5或高于6.5的概率比較低，而很大的概率會(huì)得到曲線中間凸出來(lái)的部分。使用曲線來(lái)估計(jì)一批人數(shù)據(jù)比直方圖更有優(yōu)勢(shì)。第一，直方圖有時(shí)候并不準(zhǔn)，例如上圖右側(cè)藍(lán)箭頭這部分?jǐn)?shù)據(jù)并沒(méi)有測(cè)到，如果換一批人，就有可能測(cè)到；第二，使用曲線時(shí)，并不用考慮最小數(shù)據(jù)的分隔單位，就能估計(jì)一個(gè)數(shù)值的概率，例如我們要計(jì)算得到5.021和5.317這個(gè)數(shù)據(jù)的概率有多大，就直接利用曲線就能得到。第三，人的精力與資源有限，直接去測(cè)量大批數(shù)據(jù)并不現(xiàn)實(shí)，而估計(jì)一條曲線只需要我們手中少量數(shù)據(jù)的標(biāo)準(zhǔn)差與均值即可。

image

在這張圖里，直方圖與曲線都表示這批數(shù)據(jù)的分布，其中曲線的最高處以及直方圖的中間地帶，都是最有可能測(cè)量到的部分。除了這種正態(tài)分布的圖形外，還有其他的分布（下圖左上是正態(tài)分布，右上是指數(shù)分頁(yè)，左下是均勻分頁(yè)），如下所示：

image

直方圖與柱狀圖的區(qū)別

直方圖x軸上的組距是連續(xù)的，從上面的圖形可以得知，測(cè)量的身高的不同劃分是小于5，5到5.5，5.5到6，6以上。而柱狀圖的x軸上通常是一些分類(lèi)的數(shù)據(jù)類(lèi)型，看下圖：

image

這張圖就是一個(gè)柱狀圖（有人也稱(chēng)條形圖），它的x軸是不連續(xù)的，只是一些分類(lèi)變量。

正態(tài)分布

先看一下正態(tài)分布圖形，就是上一部分中的身高分布數(shù)據(jù)，如下所示：

image

從圖形上可以看到正態(tài)分布的特點(diǎn)：

左右對(duì)稱(chēng)，因此也叫鐘型曲線（bell shaped curve）；
中間凸起，兩側(cè)平緩。

再看另外的兩個(gè)正態(tài)分布圖形：

image

其中，左側(cè)綠線表示的是出生的嬰兒的身高分布（英寸），右側(cè)的劃線表示的是成人身高的分布，從這兩個(gè)曲線上我們可以得到這些信息：

嬰兒的正態(tài)分布曲線比較尖銳，這表示嬰兒身高比較集中，成人身高的正態(tài)分布曲線比較平緩，這表示成人身高比較分散；
成人身高的平均值要高于嬰兒身高的平均值。

再看一下嬰兒和成人身高的95%的集中程度：

image

自然界的很多事物都符合正態(tài)分布，其背后的一個(gè)原理就是中心極限定理（the central limit theorem），以后的筆記會(huì)提到。

模型

模型，英文是指“model”。在統(tǒng)計(jì)學(xué)中，模型是指對(duì)現(xiàn)實(shí)世界中的一些事情的抽象處理，數(shù)據(jù)模型使用一些表格，圖表，公式來(lái)研究現(xiàn)實(shí)世界中的一些規(guī)律，例如下圖就是使用一個(gè)圖表和公式來(lái)表示小鼠的體重與大小的關(guān)系：

image

有時(shí)候，圖形不一定是直線，也有可能是曲線，如下所示：

image

抽樣分布

下圖是一個(gè)直方圖，一個(gè)點(diǎn)表示一個(gè)人的身高：

image

然后用一條曲線來(lái)表示數(shù)據(jù)的分布：

image

如果我們從這個(gè)分布里面隨機(jī)抽出一個(gè)樣本的話，有很大的概率會(huì)抽到中間的這一部分，就是下圖中黑色圓角矩形表示的區(qū)域：

image

如果我們使用某個(gè)程序（例如R語(yǔ)言）隨機(jī)地從服從正態(tài)分布的數(shù)據(jù)中挑出許多樣本，然后對(duì)它們進(jìn)行統(tǒng)計(jì)的話，看一下會(huì)發(fā)生哪些事情，例如從下面的這個(gè)正態(tài)分布中隨機(jī)地挑出兩個(gè)樣本，一個(gè)樣本的數(shù)量是3（一個(gè)樣本不一定只是一個(gè)數(shù)據(jù)點(diǎn)），如下所示：

image

然后對(duì)這兩個(gè)樣本進(jìn)行t檢驗(yàn)，由于它們都是來(lái)源于同不一個(gè)分布，因此t檢驗(yàn)結(jié)果的p值會(huì)很大（也就是說(shuō)p很有可能大于0.05）。如果這兩個(gè)樣本是來(lái)源兩個(gè)不同的分布，如下所示：

image

那么經(jīng)過(guò)t檢驗(yàn)，得到的p值就會(huì)很小。如果想到得到較小的p值，這就可能要增加樣本，或者是就此為止（增加樣本涉及到一類(lèi)錯(cuò)誤與二類(lèi)錯(cuò)誤，這里不表）。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

StatQuest學(xué)習(xí)筆記01——統(tǒng)計(jì)學(xué)分布及抽樣

StatQuest學(xué)習(xí)筆記01——統(tǒng)計(jì)學(xué)分布及抽樣

前言

什么是直方圖

直方圖的特點(diǎn)

直方圖與柱狀圖的區(qū)別

正態(tài)分布

模型

抽樣分布

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

StatQuest學(xué)習(xí)筆記01——統(tǒng)計(jì)學(xué)分布及抽樣

前言

什么是直方圖

直方圖的特點(diǎn)

直方圖與柱狀圖的區(qū)別

正態(tài)分布

模型

抽樣分布

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av