3.1.1 定量變量的圖表示:直方圖、盒形圖、莖葉圖、散點圖。
3.1.2 定性變量的圖表示:餅圖和條形圖。
3.1.3 其它圖描述法:Chernoff面孔圖、星圖、Lorenz曲線
3.2如何用少量數(shù)字來概括數(shù)據(jù)
由于定性變量主要是計數(shù),比較簡單,最常用的概括就是比例或百分比,所以下面主要介紹關(guān)于定量變量的數(shù)字描述。
除了圖表,還可以用匯總統(tǒng)計量或概括統(tǒng)計量來描述定量變量的數(shù)據(jù)。
3.2.1 數(shù)據(jù)的“位置”
與“位置”有關(guān)的統(tǒng)計量被稱為位置統(tǒng)計量。
最常用的位置統(tǒng)計量為小學學到的算數(shù)平均值,在統(tǒng)計學中被稱為均值,更嚴格叫樣本均值。
均值容易被少數(shù)極端值影響,但不會對中位數(shù)影響太大(因此次稱中位數(shù)比均值穩(wěn)健)。(樣本)中位數(shù)是數(shù)據(jù)按大小排列后位于中間的那個數(shù)(若為偶數(shù),則為其兩個的平均值)。
除了中位數(shù)之外,還有上下四分位數(shù)。
在樣本中出現(xiàn)最多的某一數(shù)目被稱為眾數(shù)。在定性變量中,由于記錄的是頻數(shù),因此眾數(shù)比較常用。
3.2.2 數(shù)據(jù)的尺度
理解數(shù)據(jù)的尺度:不患寡而患不均。
尺度統(tǒng)計量是描述數(shù)據(jù)散布,即描述數(shù)據(jù)集中與分散程度或變化的度量。
最簡單的尺度統(tǒng)計量是極差,即極大值和極小值之間的差。由此可以推出四分位數(shù)極差或四分位數(shù)間距的定義,它描述了中間半數(shù)觀測值的散布情況。
另一個常用的統(tǒng)計量為(樣本)標準差。它度量樣本中各個數(shù)值到均值距離的一種平均。標準差實際上是方差的平方根。樣本方差是各觀測值到均值距離的平方和除以減去1的樣本量。
顯然,如果標準差越大,數(shù)據(jù)中的觀測值就越分散,如果還左右對稱,則是單峰數(shù)據(jù)對稱。
即便出于同一個總體,樣本量相同的不同樣本也會有不同的均值,這種來自許多不同樣本的均值的標準差稱為標準誤差,也叫均值的標準誤差。
標準誤差定義為標準差除以樣本量的平方根。
3.2.3 數(shù)據(jù)的標準得分
標準化Normalizition,又稱為數(shù)據(jù)歸一化。
均值和標準差不同的數(shù)據(jù)不能直接比較,但是可以把它們進行標準化之后,在比較標準化后的數(shù)據(jù)。
標準化的方法有很多,需要依據(jù)意圖而選用。一個標準化最常見的標準化方法是把某樣本原始觀測值(亦稱得分,score)和該樣本之差除以該樣本的標準差,把各個樣本的觀測值轉(zhuǎn)換為標準得分,就可以進行比較了。
標準化之后,數(shù)據(jù)總的尺度和位置會變化,但是數(shù)據(jù)內(nèi)部點的相對位置沒有變化。
數(shù)據(jù)標準化是有確切的理論基礎(chǔ)和實際目的,不能隨意進行。