1

數(shù)據(jù)類型:

分類變量:(在分析分類變量時,我們通常只看屬于一個類別之級別的計數(shù)或比例。例如,如果狗類別有兩個級別: 拉布拉多和非拉布拉多。我們可以說,32% 的狗是拉布拉多(百分比),或者可以說我看到的 100 只狗中,有 32 只是拉布拉多(計數(shù))。)

定類變量

定序變量

數(shù)值變量:(1、集中趨勢測量2、離散程度測量3、分布的形狀 4、異常值)

連續(xù)數(shù)值

離散數(shù)值

集中程度的度量:1、均值 2、中位數(shù) 3、眾數(shù)

離散程度的度量:1、值域 2、四分位差 3、標準差 4、方差

方差的計算方法:

1、離散程度測量告訴我們數(shù)據(jù)之間的分散程度。常見的離散程度測量有:

1、值域

2、四分位差(IQR)

3、標準差

4、方差

2、直方圖:對于了解數(shù)值數(shù)據(jù)的不同方面是非常有用的,可以幫助我們理解有關(guān)數(shù)值變量的4個方面:

1、集中趨勢

2、離散程度

3、形狀

4、異常值

3、五數(shù)概括法:

1、最小值:數(shù)據(jù)集中的最小值

2、Q1(第一個四分位數(shù)):排序后數(shù)據(jù)第25%處的值。

3、Q2(中位數(shù)):排序后數(shù)據(jù)第50%處的值。

4、Q3(第三四分位數(shù)):排序后數(shù)據(jù)第75%處的值。

5、最大值:數(shù)據(jù)集中的最大值。

值域:

值域為最大值和最小值之間的差值。

四分位差:

四分位差為Q3和Q1之間的差值

4、標準差和方差

標準差是最常見的數(shù)據(jù)離散程度度量之一。它的定義為每個觀察值與均值之間的平均差異。

1、方差用于比較兩組不同數(shù)據(jù)的離散程度。方差較高的一組數(shù)據(jù)相比方差較低的一組數(shù)據(jù),其分布更為廣泛。但是注意,有可能只有一個(或者多個)異常值提高了方差,而大多數(shù)數(shù)據(jù)實際上比較集中。

2、在比較兩個數(shù)據(jù)集之間的離散程度時,每個數(shù)據(jù)集的單位必須相同

3、當數(shù)據(jù)與貨幣或者經(jīng)濟有關(guān)時,方差(或者標準差)更高表示風險更高

4、在實踐中,標準差比方差更常用,因為它使用原始數(shù)據(jù)集的單位。

我們使用以下方式計算方差:

方差是每個觀察值與均值之差的平方值的平均數(shù)。標準差是方差的平方根。因此,標準差的計算如下所示:

標準差是與我們的其余數(shù)據(jù)具有相同單位的度量,方差的單位是原始數(shù)據(jù)的平方。

△兩組數(shù)據(jù)對比時,數(shù)據(jù)的單位必須一致

5、分布形狀:

直方圖形狀:

1、右偏態(tài)

2、左偏態(tài)

3、對稱分布(通常是正態(tài)分布)

形狀均值與中位數(shù)現(xiàn)實世界中的應用

6、異常值

常用技術(shù)

1、注意到他們的存在以及對概括性度量的影響。

2、如果打印錯誤--刪除或者改正。

3、了解他們?yōu)槭裁磿嬖?,以及對我們要回答的關(guān)于異常值的問題的影響。

4、當有異常值時,報告五數(shù)概括法的值通常能比均值和標準差等度量更好地體現(xiàn)異常值的存在。

5、報告時要小心。知道如何提出正確的問題。

異常值處理建議:

1、繪制你的數(shù)據(jù)已確定是否有異常值。

2、通過以上方法處理異常值。

3、如果無異常值,且數(shù)據(jù)遵循正態(tài)分布,使用均值和標準差來描述數(shù)據(jù)集,并報告數(shù)據(jù)為正態(tài)分布。

4、如果有偏態(tài)數(shù)據(jù)或異常值,則使用五數(shù)概括法來概括數(shù)據(jù)并報告異常值。

邊注

如果你不確定你的數(shù)據(jù)是否是正態(tài)分布,有一種稱為正態(tài)分位圖 normal quantile plots 的圖,以及類似Kolmogorov-Smirnov 檢驗的統(tǒng)計方法可以幫助你理解你的數(shù)據(jù)是否是正態(tài)分布。實現(xiàn)這個檢驗不是本課程的教學內(nèi)容,但可以稍作了解。

7、描述統(tǒng)計與推論統(tǒng)計

描述統(tǒng)計:

描述統(tǒng)計是用來描述收集的數(shù)據(jù)。

推論統(tǒng)計:

推論統(tǒng)計在于使用我們收集的數(shù)據(jù)對更大的總體數(shù)據(jù)得出結(jié)論。

1、總體---我們想要研究的整個群體

2、參數(shù)---描述總體的數(shù)據(jù)摘要

3、樣本---總體的子集

4、統(tǒng)計量---描述樣本的數(shù)值摘要

5、根據(jù)統(tǒng)計量得出關(guān)于參數(shù)的結(jié)論成為推論

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容