大數(shù)據(jù)時代下的統(tǒng)計學(xué)

大數(shù)據(jù)時代下的統(tǒng)計學(xué)閱讀筆記

這本書前四章主要講了統(tǒng)計的一部分基本概念,我將分章節(jié)來進(jìn)行描述。

第一章:大數(shù)據(jù)時代下的統(tǒng)計學(xué)

什么是統(tǒng)計學(xué)?統(tǒng)計學(xué)就是如何高效、準(zhǔn)確地分析所得數(shù)據(jù),并把它轉(zhuǎn)化成比數(shù)據(jù)本身更有用的知識。其實再我看來數(shù)據(jù)科學(xué)與統(tǒng)計的關(guān)聯(lián)非常大,因為數(shù)據(jù)科學(xué)與統(tǒng)計都是從數(shù)據(jù)中挖掘有效的信息并有效使用。

知識點: 1、隨機性

隨機性貫穿了統(tǒng)計學(xué),無論是在抽取樣本、計算概率、參數(shù)估計等都要滿足隨機性。例如隨機事件、樣本從總體中隨機抽取等。

2、概率

概率的取值在(0,1),反映了某件事發(fā)生的可能性大小。但是在發(fā)生前我們都不知道這件事的結(jié)果,只是說一種可能性。

3、小概率不等于不發(fā)生

概率=0的事件不是不可能發(fā)生,只是發(fā)生的可能性太小了。概率=0與不可能事件不相等。同理,大概率事件不是一定發(fā)生。因為概率只是描述的一種可能性。

4、數(shù)據(jù)類型

無序變量:不能比較大小。

有序變量:有程度的遞進(jìn)。 定比變量:有倍數(shù)關(guān)系,例存款。 定距變量:變量取值距離相等,例溫度。

數(shù)據(jù)類型案例.png

5、相關(guān)關(guān)系與因果關(guān)系

因果關(guān)系:A發(fā)生就會導(dǎo)致B發(fā)生或B發(fā)生會導(dǎo)致A發(fā)生,事件之間有因果關(guān)系。有原因,有結(jié)果

相關(guān)關(guān)系:

相關(guān)關(guān)系.png

第二章:樣本魅影

樣本,在統(tǒng)計學(xué)中的定義是從總體抽取部分來作為研究對象來反映總體的性質(zhì)。在大數(shù)據(jù)處理中,雖然樣本概念淡化但是對樣本的方法依舊適用。

知識點: 1、隨機樣本、方便樣本和自愿回應(yīng)樣本

隨機樣本:來自總體,能正確反映總體情況

方便樣本:出于方便性的原因選取的樣本

自愿回應(yīng)樣本:指通過來信來電的方式收集的民情民意。

方便樣本和自愿回應(yīng)樣本這兩種方式取得的樣本是有偏差的,從中得到的結(jié)論很難嚴(yán)格推廣到總體。

注:樣本的好壞,是決定性因素

2、簡單隨機抽樣

簡單隨機抽樣是指從總體N個元素中任意抽取n個元素作為樣本,使每個可能的樣本被抽中的概率相等的一種抽樣方式。

簡單隨機抽樣具有如下特點:

總體個數(shù)N是有限的。

樣本數(shù)”不大于總體個數(shù)N。

簡單隨機抽樣是不放回抽樣。

總體中每個個體被選入樣本的可能性均為n/N。


抽樣.png

3、抽樣中存在的錯誤風(fēng)險

抽樣誤差:隨機性帶來的誤差

非抽樣誤差:
抽樣誤差.png

4、不回應(yīng)

不回應(yīng)是指不能夠從樣本中的受訪者取得數(shù)據(jù)。大多數(shù)不回應(yīng)發(fā)生的原因大致分為兩種:

第一種原因是聯(lián)系不到受訪者或者受訪者回答問題時疏漏。

第二種原因是受訪者主觀上拒不合作從而導(dǎo)致數(shù)據(jù)遺漏。

5、響應(yīng)誤差

響應(yīng)誤差是相對應(yīng)不響應(yīng)誤差的一個概念。它是指在問卷調(diào)査的過程中,因為問題在問卷中所處的位置、提問問題的方式和訪問員的個人影響而引入的誤差。問題措辭的不妥是引入響應(yīng)誤差的一個常見因素。

6、有效性和可靠性

有效性和可靠性是衡量問卷中問題質(zhì)量的兩大重要指標(biāo)。有效性,測量的是精度,衡量問題是否成功地測量了它原來想要測量的東西;可靠性,測量的是一致性(Consistency),衡量的是,如果對同一個問題進(jìn)行重復(fù)測量,其結(jié)果間是否能夠保持一致性。

有效性與可靠性.png

7、大數(shù)據(jù)4V特征

big data4V特征.png

第三章:描述數(shù)據(jù)

在數(shù)據(jù)中有許多描述統(tǒng)計量來描述數(shù)據(jù)的大體情況,而選擇一個較好的統(tǒng)計量可以較準(zhǔn)確的反映數(shù)據(jù)特征。反之則會產(chǎn)生誤導(dǎo)。

知識點:

1、均值

均值有很多不同的算法,比較常見的是‘樣本和/樣本個數(shù)’。比較適合描述無極端值和數(shù)據(jù)分布較均勻的數(shù)據(jù)。


均值算法.png

2、分位數(shù)

分位數(shù)表示數(shù)據(jù)由小到大排序,所在的位置。有中位數(shù)、4分位數(shù)等。比較適合描述數(shù)據(jù)分布不均勻的情況。

3、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤

標(biāo)準(zhǔn)差:描述數(shù)據(jù)的波動,全稱標(biāo)準(zhǔn)偏差。

標(biāo)準(zhǔn)差.png

標(biāo)準(zhǔn)誤:標(biāo)準(zhǔn)誤是多個樣本均值的標(biāo)準(zhǔn)差,用來衡量抽樣誤差的大小。

標(biāo)準(zhǔn)誤.png

4、數(shù)據(jù)可視化

用圖表等辦法反映數(shù)據(jù)特點,常用餅圖、條形圖、折線圖、頻率直方圖、散點圖。在網(wǎng)絡(luò)上常用的有地圖云、熱力學(xué)地圖、按照具體需求設(shè)計。

第四章:正態(tài)分布

正態(tài)分布可以說是數(shù)理統(tǒng)計中的最重要的一個分布。在回歸分析中有隨機誤差項,隨機誤差都是服從正態(tài)分布。書中稱正態(tài)分布為正態(tài)女神一點都沒錯。

知識點:

1、概率分布

隨機變量的概率分布有離散型和連續(xù)性兩種。

、
概率分布.png

2、期望

概率分布中期望獲得的收益,也叫均值。下面是離散型和連續(xù)型的公式

期望.png
期望性質(zhì).png

3、方差

方差用來衡量隨機變量和它的期望之間的偏離程度。當(dāng)數(shù)據(jù)比較分散時,各個樣本點偏離期望的程度就越大,數(shù)據(jù)波動越大,方差也就越大;當(dāng)數(shù)據(jù)分布比較集中時,數(shù)據(jù)的波動越小,方差就越小。方差的常用公式如下:

方差.png

4、大數(shù)定律

在重復(fù)次數(shù)足夠多的條件下,隨機事件往往呈現(xiàn)幾乎必然的統(tǒng)計特性。大數(shù)定律是以確切的數(shù)學(xué)形式表達(dá)了大量重復(fù)出現(xiàn)的隨機現(xiàn)象的統(tǒng)計規(guī)律性,即頻率的穩(wěn)定性和平均結(jié)果的穩(wěn)定性。

大數(shù)定律.png

5、正態(tài)分布

概率分布函數(shù):
正態(tài).png
正態(tài)性質(zhì).png

6、中心極限定理

當(dāng)獨立的隨機變量個數(shù)不斷增加時,其和的分布趨于正態(tài)分布。這就是中心極限定理的大意。中心極限定理中最重要的定理之一是林德貝爾格(Lindeberg)——勒維(Levy)中心極限定理:

中心極限.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容