大數(shù)據(jù)時代下的統(tǒng)計學(xué)閱讀筆記

這本書前四章主要講了統(tǒng)計的一部分基本概念，我將分章節(jié)來進(jìn)行描述。

第一章：大數(shù)據(jù)時代下的統(tǒng)計學(xué)

什么是統(tǒng)計學(xué)？統(tǒng)計學(xué)就是如何高效、準(zhǔn)確地分析所得數(shù)據(jù)，并把它轉(zhuǎn)化成比數(shù)據(jù)本身更有用的知識。其實再我看來數(shù)據(jù)科學(xué)與統(tǒng)計的關(guān)聯(lián)非常大，因為數(shù)據(jù)科學(xué)與統(tǒng)計都是從數(shù)據(jù)中挖掘有效的信息并有效使用。

知識點： 1、隨機性

隨機性貫穿了統(tǒng)計學(xué)，無論是在抽取樣本、計算概率、參數(shù)估計等都要滿足隨機性。例如隨機事件、樣本從總體中隨機抽取等。

2、概率

概率的取值在(0,1)，反映了某件事發(fā)生的可能性大小。但是在發(fā)生前我們都不知道這件事的結(jié)果，只是說一種可能性。

3、小概率不等于不發(fā)生

概率=0的事件不是不可能發(fā)生，只是發(fā)生的可能性太小了。概率=0與不可能事件不相等。同理，大概率事件不是一定發(fā)生。因為概率只是描述的一種可能性。

4、數(shù)據(jù)類型

無序變量：不能比較大小。

有序變量：有程度的遞進(jìn)。定比變量：有倍數(shù)關(guān)系，例存款。定距變量：變量取值距離相等，例溫度。

數(shù)據(jù)類型案例.png

5、相關(guān)關(guān)系與因果關(guān)系

因果關(guān)系：A發(fā)生就會導(dǎo)致B發(fā)生或B發(fā)生會導(dǎo)致A發(fā)生，事件之間有因果關(guān)系。有原因，有結(jié)果

相關(guān)關(guān)系：

相關(guān)關(guān)系.png

第二章：樣本魅影

樣本，在統(tǒng)計學(xué)中的定義是從總體抽取部分來作為研究對象來反映總體的性質(zhì)。在大數(shù)據(jù)處理中，雖然樣本概念淡化但是對樣本的方法依舊適用。

知識點： 1、隨機樣本、方便樣本和自愿回應(yīng)樣本

隨機樣本：來自總體，能正確反映總體情況

方便樣本：出于方便性的原因選取的樣本

自愿回應(yīng)樣本：指通過來信來電的方式收集的民情民意。

方便樣本和自愿回應(yīng)樣本這兩種方式取得的樣本是有偏差的，從中得到的結(jié)論很難嚴(yán)格推廣到總體。

注：樣本的好壞，是決定性因素

2、簡單隨機抽樣

簡單隨機抽樣是指從總體N個元素中任意抽取n個元素作為樣本，使每個可能的樣本被抽中的概率相等的一種抽樣方式。

簡單隨機抽樣具有如下特點：

總體個數(shù)N是有限的。

樣本數(shù)”不大于總體個數(shù)N。

簡單隨機抽樣是不放回抽樣。

總體中每個個體被選入樣本的可能性均為n/N。

抽樣.png

3、抽樣中存在的錯誤風(fēng)險

抽樣誤差：隨機性帶來的誤差

非抽樣誤差：

抽樣誤差.png

4、不回應(yīng)

不回應(yīng)是指不能夠從樣本中的受訪者取得數(shù)據(jù)。大多數(shù)不回應(yīng)發(fā)生的原因大致分為兩種：

第一種原因是聯(lián)系不到受訪者或者受訪者回答問題時疏漏。

第二種原因是受訪者主觀上拒不合作從而導(dǎo)致數(shù)據(jù)遺漏。

5、響應(yīng)誤差

響應(yīng)誤差是相對應(yīng)不響應(yīng)誤差的一個概念。它是指在問卷調(diào)査的過程中，因為問題在問卷中所處的位置、提問問題的方式和訪問員的個人影響而引入的誤差。問題措辭的不妥是引入響應(yīng)誤差的一個常見因素。

6、有效性和可靠性

有效性和可靠性是衡量問卷中問題質(zhì)量的兩大重要指標(biāo)。有效性，測量的是精度,衡量問題是否成功地測量了它原來想要測量的東西；可靠性，測量的是一致性(Consistency),衡量的是，如果對同一個問題進(jìn)行重復(fù)測量，其結(jié)果間是否能夠保持一致性。

有效性與可靠性.png

7、大數(shù)據(jù)4V特征

big data4V特征.png

第三章：描述數(shù)據(jù)

在數(shù)據(jù)中有許多描述統(tǒng)計量來描述數(shù)據(jù)的大體情況，而選擇一個較好的統(tǒng)計量可以較準(zhǔn)確的反映數(shù)據(jù)特征。反之則會產(chǎn)生誤導(dǎo)。

知識點：

1、均值

均值有很多不同的算法，比較常見的是‘樣本和/樣本個數(shù)’。比較適合描述無極端值和數(shù)據(jù)分布較均勻的數(shù)據(jù)。

均值算法.png

2、分位數(shù)

分位數(shù)表示數(shù)據(jù)由小到大排序，所在的位置。有中位數(shù)、4分位數(shù)等。比較適合描述數(shù)據(jù)分布不均勻的情況。

3、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤

標(biāo)準(zhǔn)差：描述數(shù)據(jù)的波動，全稱標(biāo)準(zhǔn)偏差。

標(biāo)準(zhǔn)差.png

標(biāo)準(zhǔn)誤：標(biāo)準(zhǔn)誤是多個樣本均值的標(biāo)準(zhǔn)差，用來衡量抽樣誤差的大小。

標(biāo)準(zhǔn)誤.png

4、數(shù)據(jù)可視化

用圖表等辦法反映數(shù)據(jù)特點，常用餅圖、條形圖、折線圖、頻率直方圖、散點圖。在網(wǎng)絡(luò)上常用的有地圖云、熱力學(xué)地圖、按照具體需求設(shè)計。

第四章：正態(tài)分布

正態(tài)分布可以說是數(shù)理統(tǒng)計中的最重要的一個分布。在回歸分析中有隨機誤差項，隨機誤差都是服從正態(tài)分布。書中稱正態(tài)分布為正態(tài)女神一點都沒錯。

知識點：

1、概率分布

隨機變量的概率分布有離散型和連續(xù)性兩種。

、

概率分布.png

2、期望

概率分布中期望獲得的收益，也叫均值。下面是離散型和連續(xù)型的公式

期望.png

期望性質(zhì).png

3、方差

方差用來衡量隨機變量和它的期望之間的偏離程度。當(dāng)數(shù)據(jù)比較分散時，各個樣本點偏離期望的程度就越大，數(shù)據(jù)波動越大，方差也就越大；當(dāng)數(shù)據(jù)分布比較集中時，數(shù)據(jù)的波動越小，方差就越小。方差的常用公式如下：

方差.png

4、大數(shù)定律

在重復(fù)次數(shù)足夠多的條件下，隨機事件往往呈現(xiàn)幾乎必然的統(tǒng)計特性。大數(shù)定律是以確切的數(shù)學(xué)形式表達(dá)了大量重復(fù)出現(xiàn)的隨機現(xiàn)象的統(tǒng)計規(guī)律性，即頻率的穩(wěn)定性和平均結(jié)果的穩(wěn)定性。