數(shù)據(jù)類型:
分類變量:(在分析分類變量時,我們通常只看屬于一個類別之級別的計數(shù)或比例。例如,如果狗類別有兩個級別: 拉布拉多和非拉布拉多。我們可以說,32% 的狗是拉布拉多(百分比),或者可以說我看到的 100 只狗中,有 32 只是拉布拉多(計數(shù))。)
定類變量
定序變量
數(shù)值變量:(1、集中趨勢測量2、離散程度測量3、分布的形狀 4、異常值)
連續(xù)數(shù)值
離散數(shù)值
集中程度的度量:1、均值 2、中位數(shù) 3、眾數(shù)
離散程度的度量:1、值域 2、四分位差 3、標準差 4、方差
方差的計算方法:

1、離散程度測量告訴我們數(shù)據(jù)之間的分散程度。常見的離散程度測量有:
1、值域
2、四分位差(IQR)
3、標準差
4、方差
2、直方圖:對于了解數(shù)值數(shù)據(jù)的不同方面是非常有用的,可以幫助我們理解有關(guān)數(shù)值變量的4個方面:
1、集中趨勢
2、離散程度
3、形狀
4、異常值
3、五數(shù)概括法:
1、最小值:數(shù)據(jù)集中的最小值
2、Q1(第一個四分位數(shù)):排序后數(shù)據(jù)第25%處的值。
3、Q2(中位數(shù)):排序后數(shù)據(jù)第50%處的值。
4、Q3(第三四分位數(shù)):排序后數(shù)據(jù)第75%處的值。
5、最大值:數(shù)據(jù)集中的最大值。
值域:
值域為最大值和最小值之間的差值。
四分位差:
四分位差為Q3和Q1之間的差值
4、標準差和方差
標準差是最常見的數(shù)據(jù)離散程度度量之一。它的定義為每個觀察值與均值之間的平均差異。
1、方差用于比較兩組不同數(shù)據(jù)的離散程度。方差較高的一組數(shù)據(jù)相比方差較低的一組數(shù)據(jù),其分布更為廣泛。但是注意,有可能只有一個(或者多個)異常值提高了方差,而大多數(shù)數(shù)據(jù)實際上比較集中。
2、在比較兩個數(shù)據(jù)集之間的離散程度時,每個數(shù)據(jù)集的單位必須相同
3、當數(shù)據(jù)與貨幣或者經(jīng)濟有關(guān)時,方差(或者標準差)更高表示風險更高
4、在實踐中,標準差比方差更常用,因為它使用原始數(shù)據(jù)集的單位。
我們使用以下方式計算方差:

方差是每個觀察值與均值之差的平方值的平均數(shù)。標準差是方差的平方根。因此,標準差的計算如下所示:

標準差是與我們的其余數(shù)據(jù)具有相同單位的度量,方差的單位是原始數(shù)據(jù)的平方。
△兩組數(shù)據(jù)對比時,數(shù)據(jù)的單位必須一致
5、分布形狀:
直方圖形狀:
1、右偏態(tài)
2、左偏態(tài)
3、對稱分布(通常是正態(tài)分布)
形狀均值與中位數(shù)現(xiàn)實世界中的應用

6、異常值
常用技術(shù)
1、注意到他們的存在以及對概括性度量的影響。
2、如果打印錯誤--刪除或者改正。
3、了解他們?yōu)槭裁磿嬖?,以及對我們要回答的關(guān)于異常值的問題的影響。
4、當有異常值時,報告五數(shù)概括法的值通常能比均值和標準差等度量更好地體現(xiàn)異常值的存在。
5、報告時要小心。知道如何提出正確的問題。
異常值處理建議:
1、繪制你的數(shù)據(jù)已確定是否有異常值。
2、通過以上方法處理異常值。
3、如果無異常值,且數(shù)據(jù)遵循正態(tài)分布,使用均值和標準差來描述數(shù)據(jù)集,并報告數(shù)據(jù)為正態(tài)分布。
4、如果有偏態(tài)數(shù)據(jù)或異常值,則使用五數(shù)概括法來概括數(shù)據(jù)并報告異常值。
邊注
如果你不確定你的數(shù)據(jù)是否是正態(tài)分布,有一種稱為正態(tài)分位圖 normal quantile plots 的圖,以及類似Kolmogorov-Smirnov 檢驗的統(tǒng)計方法可以幫助你理解你的數(shù)據(jù)是否是正態(tài)分布。實現(xiàn)這個檢驗不是本課程的教學內(nèi)容,但可以稍作了解。
7、描述統(tǒng)計與推論統(tǒng)計
描述統(tǒng)計:
描述統(tǒng)計是用來描述收集的數(shù)據(jù)。
推論統(tǒng)計:
推論統(tǒng)計在于使用我們收集的數(shù)據(jù)對更大的總體數(shù)據(jù)得出結(jié)論。
1、總體---我們想要研究的整個群體
2、參數(shù)---描述總體的數(shù)據(jù)摘要
3、樣本---總體的子集
4、統(tǒng)計量---描述樣本的數(shù)值摘要
5、根據(jù)統(tǒng)計量得出關(guān)于參數(shù)的結(jié)論成為推論