大數(shù)據(jù)時代下的統(tǒng)計學(xué)閱讀筆記
這本書前四章主要講了統(tǒng)計的一部分基本概念,我將分章節(jié)來進(jìn)行描述。
第一章:大數(shù)據(jù)時代下的統(tǒng)計學(xué)
什么是統(tǒng)計學(xué)?統(tǒng)計學(xué)就是如何高效、準(zhǔn)確地分析所得數(shù)據(jù),并把它轉(zhuǎn)化成比數(shù)據(jù)本身更有用的知識。其實再我看來數(shù)據(jù)科學(xué)與統(tǒng)計的關(guān)聯(lián)非常大,因為數(shù)據(jù)科學(xué)與統(tǒng)計都是從數(shù)據(jù)中挖掘有效的信息并有效使用。
知識點: 1、隨機性
隨機性貫穿了統(tǒng)計學(xué),無論是在抽取樣本、計算概率、參數(shù)估計等都要滿足隨機性。例如隨機事件、樣本從總體中隨機抽取等。
2、概率
概率的取值在(0,1),反映了某件事發(fā)生的可能性大小。但是在發(fā)生前我們都不知道這件事的結(jié)果,只是說一種可能性。
3、小概率不等于不發(fā)生
概率=0的事件不是不可能發(fā)生,只是發(fā)生的可能性太小了。概率=0與不可能事件不相等。同理,大概率事件不是一定發(fā)生。因為概率只是描述的一種可能性。
4、數(shù)據(jù)類型
無序變量:不能比較大小。
有序變量:有程度的遞進(jìn)。 定比變量:有倍數(shù)關(guān)系,例存款。 定距變量:變量取值距離相等,例溫度。

5、相關(guān)關(guān)系與因果關(guān)系
因果關(guān)系:A發(fā)生就會導(dǎo)致B發(fā)生或B發(fā)生會導(dǎo)致A發(fā)生,事件之間有因果關(guān)系。有原因,有結(jié)果
相關(guān)關(guān)系:

第二章:樣本魅影
樣本,在統(tǒng)計學(xué)中的定義是從總體抽取部分來作為研究對象來反映總體的性質(zhì)。在大數(shù)據(jù)處理中,雖然樣本概念淡化但是對樣本的方法依舊適用。
知識點: 1、隨機樣本、方便樣本和自愿回應(yīng)樣本
隨機樣本:來自總體,能正確反映總體情況
方便樣本:出于方便性的原因選取的樣本
自愿回應(yīng)樣本:指通過來信來電的方式收集的民情民意。
方便樣本和自愿回應(yīng)樣本這兩種方式取得的樣本是有偏差的,從中得到的結(jié)論很難嚴(yán)格推廣到總體。
注:樣本的好壞,是決定性因素
2、簡單隨機抽樣
簡單隨機抽樣是指從總體N個元素中任意抽取n個元素作為樣本,使每個可能的樣本被抽中的概率相等的一種抽樣方式。
簡單隨機抽樣具有如下特點:
總體個數(shù)N是有限的。
樣本數(shù)”不大于總體個數(shù)N。
簡單隨機抽樣是不放回抽樣。
總體中每個個體被選入樣本的可能性均為n/N。

3、抽樣中存在的錯誤風(fēng)險
抽樣誤差:隨機性帶來的誤差
非抽樣誤差:
4、不回應(yīng)
不回應(yīng)是指不能夠從樣本中的受訪者取得數(shù)據(jù)。大多數(shù)不回應(yīng)發(fā)生的原因大致分為兩種:
第一種原因是聯(lián)系不到受訪者或者受訪者回答問題時疏漏。
第二種原因是受訪者主觀上拒不合作從而導(dǎo)致數(shù)據(jù)遺漏。
5、響應(yīng)誤差
響應(yīng)誤差是相對應(yīng)不響應(yīng)誤差的一個概念。它是指在問卷調(diào)査的過程中,因為問題在問卷中所處的位置、提問問題的方式和訪問員的個人影響而引入的誤差。問題措辭的不妥是引入響應(yīng)誤差的一個常見因素。
6、有效性和可靠性
有效性和可靠性是衡量問卷中問題質(zhì)量的兩大重要指標(biāo)。有效性,測量的是精度,衡量問題是否成功地測量了它原來想要測量的東西;可靠性,測量的是一致性(Consistency),衡量的是,如果對同一個問題進(jìn)行重復(fù)測量,其結(jié)果間是否能夠保持一致性。

7、大數(shù)據(jù)4V特征

第三章:描述數(shù)據(jù)
在數(shù)據(jù)中有許多描述統(tǒng)計量來描述數(shù)據(jù)的大體情況,而選擇一個較好的統(tǒng)計量可以較準(zhǔn)確的反映數(shù)據(jù)特征。反之則會產(chǎn)生誤導(dǎo)。
知識點:
1、均值
均值有很多不同的算法,比較常見的是‘樣本和/樣本個數(shù)’。比較適合描述無極端值和數(shù)據(jù)分布較均勻的數(shù)據(jù)。

2、分位數(shù)
分位數(shù)表示數(shù)據(jù)由小到大排序,所在的位置。有中位數(shù)、4分位數(shù)等。比較適合描述數(shù)據(jù)分布不均勻的情況。
3、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤
標(biāo)準(zhǔn)差:描述數(shù)據(jù)的波動,全稱標(biāo)準(zhǔn)偏差。

標(biāo)準(zhǔn)誤:標(biāo)準(zhǔn)誤是多個樣本均值的標(biāo)準(zhǔn)差,用來衡量抽樣誤差的大小。

4、數(shù)據(jù)可視化
用圖表等辦法反映數(shù)據(jù)特點,常用餅圖、條形圖、折線圖、頻率直方圖、散點圖。在網(wǎng)絡(luò)上常用的有地圖云、熱力學(xué)地圖、按照具體需求設(shè)計。
第四章:正態(tài)分布
正態(tài)分布可以說是數(shù)理統(tǒng)計中的最重要的一個分布。在回歸分析中有隨機誤差項,隨機誤差都是服從正態(tài)分布。書中稱正態(tài)分布為正態(tài)女神一點都沒錯。
知識點:
1、概率分布
隨機變量的概率分布有離散型和連續(xù)性兩種。
、
2、期望
概率分布中期望獲得的收益,也叫均值。下面是離散型和連續(xù)型的公式


3、方差
方差用來衡量隨機變量和它的期望之間的偏離程度。當(dāng)數(shù)據(jù)比較分散時,各個樣本點偏離期望的程度就越大,數(shù)據(jù)波動越大,方差也就越大;當(dāng)數(shù)據(jù)分布比較集中時,數(shù)據(jù)的波動越小,方差就越小。方差的常用公式如下:

4、大數(shù)定律
在重復(fù)次數(shù)足夠多的條件下,隨機事件往往呈現(xiàn)幾乎必然的統(tǒng)計特性。大數(shù)定律是以確切的數(shù)學(xué)形式表達(dá)了大量重復(fù)出現(xiàn)的隨機現(xiàn)象的統(tǒng)計規(guī)律性,即頻率的穩(wěn)定性和平均結(jié)果的穩(wěn)定性。

5、正態(tài)分布
概率分布函數(shù):

6、中心極限定理
當(dāng)獨立的隨機變量個數(shù)不斷增加時,其和的分布趨于正態(tài)分布。這就是中心極限定理的大意。中心極限定理中最重要的定理之一是林德貝爾格(Lindeberg)——勒維(Levy)中心極限定理:
