統(tǒng)計(jì)學(xué)基本概念

統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)筆記

內(nèi)容來(lái)源:《統(tǒng)計(jì)學(xué)基本概念和方法》

統(tǒng)計(jì)學(xué)家做的許多工作都是關(guān)注一個(gè)變量是否影響另一個(gè)變量,把這種關(guān)注概括為四個(gè)問(wèn)題:

(1) 在數(shù)據(jù)中,變量之間是否有關(guān)系
(2) 變量之間的關(guān)系有多強(qiáng)
(3) 總體中是否有關(guān)系
(4) 觀測(cè)到的關(guān)系是一種因果關(guān)系嗎

1、隨機(jī)性和規(guī)律性

統(tǒng)計(jì)工作的三個(gè)部分:

數(shù)據(jù)收集、數(shù)據(jù)分析和由數(shù)據(jù)做推斷

統(tǒng)計(jì)學(xué)可以被定義為一組由(1)收集數(shù)據(jù)(2)分析數(shù)據(jù)(3)由數(shù)據(jù)得出結(jié)論而組成的概念、原則和方法

隨機(jī)性和規(guī)律性是統(tǒng)計(jì)的兩個(gè)重要概念。

數(shù)據(jù)的收集分為兩個(gè)步驟:
第一步選擇用于度量待考察的元素
第二步是實(shí)際的收集數(shù)據(jù)

2、數(shù)據(jù)的收集

觀測(cè)值=真值+非統(tǒng)計(jì)錯(cuò)誤+隨機(jī)性

好數(shù)據(jù)是指根據(jù)合理、正確的統(tǒng)計(jì)原理收集到的數(shù)據(jù)

抽樣誤差:收集數(shù)據(jù)時(shí)帶來(lái)的誤差

未響應(yīng)誤差:缺失數(shù)據(jù)

響應(yīng)誤差:收的結(jié)果不一定正確、完整

3、數(shù)據(jù)的描述:圖和表

數(shù)據(jù)的可視化

圖優(yōu)性:
是指圖能夠在最短的時(shí)間內(nèi):用最少的筆墨,在最小的空間內(nèi),給觀眾最多的思想

數(shù)據(jù)分析通常包括下列三種中的一種或多種:

(1) 圖
(2) 表
(3) 計(jì)算

分類變量:觀測(cè)值不能被排序。

餅圖或條形圖

度量變量:值可以用數(shù)值表示

點(diǎn)圖和直方圖,箱型圖,莖葉圖,時(shí)間序列圖,點(diǎn)線圖等

箱形圖:


箱型圖

雙峰:直方圖有兩個(gè)頂峰,這告訴我們數(shù)值存在兩極化

用于兩種廣泛的目的:

(1) 一種是伴隨文章以支持其中的觀點(diǎn)
(2) 組織數(shù)據(jù)

圖與表的選擇:如果精準(zhǔn)數(shù)字很重要,那么表比圖好;想對(duì)數(shù)據(jù)有一個(gè)較快的印象,圖就比表好。

4、數(shù)據(jù)的描述:計(jì)算匯總統(tǒng)計(jì)量

集中趨勢(shì)的衡量(均值、中位數(shù)、眾數(shù))

二眾數(shù)分布:一個(gè)變量有兩個(gè)值經(jīng)常出現(xiàn)

差異的衡量(標(biāo)準(zhǔn)差和方差)

匯總值有一個(gè)主要的有點(diǎn)和缺點(diǎn):

優(yōu)點(diǎn):匯總值會(huì)使數(shù)據(jù)高度的簡(jiǎn)單化
缺點(diǎn):任何的簡(jiǎn)單化都意味著某些數(shù)據(jù)的丟失

極差:最大值-最小值(缺點(diǎn)是對(duì)極端值非常敏感)

標(biāo)準(zhǔn)差:重要的偏差,是到均值的一種平均距離

標(biāo)準(zhǔn)差&標(biāo)準(zhǔn)誤差

由原始觀察值算出的叫做標(biāo)準(zhǔn)差,由一組均值算出的叫做標(biāo)準(zhǔn)誤差

標(biāo)準(zhǔn)誤差:是很多不同樣本的均值的標(biāo)準(zhǔn)差

均值的標(biāo)準(zhǔn)誤差要比觀察值的標(biāo)準(zhǔn)差小,這是因?yàn)榫档淖兓潭纫扔^察值的變化程度小

5、概率

四個(gè)主要理論統(tǒng)計(jì)量:z t X2 F

P值意味著什么和人們?cè)鯓踊谑录l(fā)生的概率來(lái)對(duì)數(shù)據(jù)做出決策這樣問(wèn)題為假設(shè)檢驗(yàn)提供了舞臺(tái)。

二項(xiàng)分布:只兩種結(jié)果

Poisson分布:小概率事件,例如無(wú)安打比賽

超幾何分布:當(dāng)樣本很少時(shí),能用與分析兩個(gè)分類變量

Z分布:標(biāo)準(zhǔn)正太分布(鐘形分布),均值為0,標(biāo)準(zhǔn)差為1,鐘型,中點(diǎn)兩邊各有50%的觀察值,曲線下面有95%的面積在-1.96到1.96之間

T分布:與z分布曲線基本一致,但是正太分布的中部較高,T分布在水平軸上的收斂不像正太分布那么快。這個(gè)區(qū)別表明T分布在其均值周圍的聚集程度要比正太分布要差一些

T分布的自由度越大,T分布曲線越接近正太分布,在自由度50時(shí)這兩條曲線就幾乎相同

自由度: 不同自由度有不同的分布

正態(tài)分布和t分布區(qū)分:

區(qū)別的方法是將兩種分布的曲線重疊在一張圖中,這兩個(gè)曲線的基本形狀相同,但是正態(tài)分布的中部比較高,他分布在水平的收斂不像正態(tài)分布那么快。這個(gè)區(qū)別表明t分布在其均值周圍的聚集程度 比正態(tài)分布要差一些。
T分布的自由度越大,則該t分布的曲線就越接近正態(tài)分布,在自由度等于50時(shí)這兩種曲線就幾乎相同了。

正態(tài)分布是與自由度無(wú)關(guān)的曲線。

X2分布:分布是偏斜的,非對(duì)稱的,非負(fù)的

F分布:也是非負(fù)的,F(xiàn)取值大部分在0-5之間變化

注意:t X2 F變量都是從z變量中衍生出來(lái)的,所以使用這三種變量時(shí),都已經(jīng)事先假定了數(shù)據(jù)服從正太分布

P值:是在有關(guān)總體的某些假設(shè)下,觀察值或更極端值出現(xiàn)的概率。
α顯著性水平:檢驗(yàn)統(tǒng)計(jì)量落在拒絕域內(nèi)的概率(即拒絕零假設(shè)的概率)
若P<=α,則拒絕零假設(shè)
α一般取的很小,說(shuō)明拒絕它的概率很小,但得到的P值比阿爾法還小,所以認(rèn)為假設(shè)不正確。
α通常選0.05,顯著水平是0.05的意思是:在零假設(shè)正確的情況下進(jìn)行1000次抽樣,會(huì)有5次錯(cuò)誤拒絕了零假設(shè)。

6、做出結(jié)論:估計(jì)

辨明了樣本統(tǒng)計(jì)量與總體參數(shù)之間的差別和從樣本統(tǒng)計(jì)量中估計(jì)參數(shù)的方法。

點(diǎn)估計(jì)——》無(wú)偏估計(jì)&有偏估計(jì)

無(wú)偏估計(jì):統(tǒng)計(jì)量的均值等于總體參數(shù)的真值

區(qū)間估計(jì):是用于參數(shù)估計(jì)值的一個(gè)范圍,一個(gè)區(qū)間比一個(gè)單值能提供更多的信息

7、做出結(jié)論:假設(shè)檢驗(yàn)

零假設(shè)&備擇假設(shè)

零假設(shè):通過(guò)一個(gè)或多個(gè)參數(shù)來(lái)表示的;而且他設(shè)定這些參數(shù)等于某個(gè)特殊值

H0零假設(shè) H1備擇假設(shè)

一般吧要驗(yàn)證的問(wèn)題作為H0,然后驗(yàn)證H1

因?yàn)镠1有嚴(yán)格的檢驗(yàn)

第一類錯(cuò)誤(α錯(cuò)誤):零假設(shè)正確時(shí)卻認(rèn)為他錯(cuò)了

拒絕H0|H0為真|、,棄真錯(cuò)誤

第二類錯(cuò)誤(β錯(cuò)誤):零假設(shè)錯(cuò)誤卻認(rèn)為他對(duì)了

拒絕H0|H0為假,取偽錯(cuò)誤

當(dāng)數(shù)據(jù)導(dǎo)致拒絕零假設(shè)時(shí),這個(gè)經(jīng)驗(yàn)就是統(tǒng)計(jì)顯著的,換句話說(shuō),當(dāng)P值很小,經(jīng)驗(yàn)結(jié)果就是統(tǒng)計(jì)顯著的

自由度:觀測(cè)個(gè)數(shù)的概念抽象,并記為DF

8、變量間的關(guān)系

對(duì)于問(wèn)題一:考量樣本數(shù)據(jù)的模式,如果發(fā)現(xiàn)某種關(guān)系,則提出問(wèn)題二

對(duì)于問(wèn)題二:計(jì)算變量之間關(guān)系的強(qiáng)度

對(duì)于問(wèn)題三:建立一個(gè)變量之間沒(méi)有關(guān)系的零假設(shè)并檢驗(yàn)這個(gè)假設(shè)看是否拒絕它

問(wèn)題四:兩個(gè)變量之間

9、兩個(gè)分類變量的X2分析

10、兩個(gè)數(shù)值型變量的回歸分析和相關(guān)分析

散點(diǎn)圖表明變量之間是正相關(guān)還是負(fù)相關(guān),相關(guān)洗漱室衡量關(guān)系的強(qiáng)度

11、Anova:一個(gè)分類變量和一個(gè)數(shù)量變量的方差分析

12、兩個(gè)順序變量的秩方法

13、多元分析

14、日常生活中的統(tǒng)計(jì)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容