第三章:數(shù)據(jù)的描述

3.1.1 定量變量的圖表示:直方圖、盒形圖、莖葉圖、散點圖。
3.1.2 定性變量的圖表示:餅圖和條形圖。
3.1.3 其它圖描述法:Chernoff面孔圖、星圖、Lorenz曲線

3.2如何用少量數(shù)字來概括數(shù)據(jù)

由于定性變量主要是計數(shù),比較簡單,最常用的概括就是比例或百分比,所以下面主要介紹關(guān)于定量變量的數(shù)字描述。
除了圖表,還可以用匯總統(tǒng)計量概括統(tǒng)計量來描述定量變量的數(shù)據(jù)。

3.2.1 數(shù)據(jù)的“位置”

與“位置”有關(guān)的統(tǒng)計量被稱為位置統(tǒng)計量
最常用的位置統(tǒng)計量為小學學到的算數(shù)平均值,在統(tǒng)計學中被稱為均值,更嚴格叫樣本均值
均值容易被少數(shù)極端值影響,但不會對中位數(shù)影響太大(因此次稱中位數(shù)比均值穩(wěn)健)。(樣本)中位數(shù)是數(shù)據(jù)按大小排列后位于中間的那個數(shù)(若為偶數(shù),則為其兩個的平均值)。
除了中位數(shù)之外,還有上下四分位數(shù)。
在樣本中出現(xiàn)最多的某一數(shù)目被稱為眾數(shù)。在定性變量中,由于記錄的是頻數(shù),因此眾數(shù)比較常用。

3.2.2 數(shù)據(jù)的尺度

理解數(shù)據(jù)的尺度:不患寡而患不均。
尺度統(tǒng)計量是描述數(shù)據(jù)散布,即描述數(shù)據(jù)集中與分散程度或變化的度量。
最簡單的尺度統(tǒng)計量是極差,即極大值和極小值之間的差。由此可以推出四分位數(shù)極差四分位數(shù)間距的定義,它描述了中間半數(shù)觀測值的散布情況。
另一個常用的統(tǒng)計量為(樣本)標準差。它度量樣本中各個數(shù)值到均值距離的一種平均。標準差實際上是方差的平方根。樣本方差是各觀測值到均值距離的平方和除以減去1的樣本量。
顯然,如果標準差越大,數(shù)據(jù)中的觀測值就越分散,如果還左右對稱,則是單峰數(shù)據(jù)對稱。
即便出于同一個總體,樣本量相同的不同樣本也會有不同的均值,這種來自許多不同樣本的均值的標準差稱為標準誤差,也叫均值的標準誤差
標準誤差定義為標準差除以樣本量的平方根。

3.2.3 數(shù)據(jù)的標準得分

標準化Normalizition,又稱為數(shù)據(jù)歸一化。
均值和標準差不同的數(shù)據(jù)不能直接比較,但是可以把它們進行標準化之后,在比較標準化后的數(shù)據(jù)。
標準化的方法有很多,需要依據(jù)意圖而選用。一個標準化最常見的標準化方法是把某樣本原始觀測值(亦稱得分,score)和該樣本之差除以該樣本的標準差,把各個樣本的觀測值轉(zhuǎn)換為標準得分,就可以進行比較了。
標準化之后,數(shù)據(jù)總的尺度和位置會變化,但是數(shù)據(jù)內(nèi)部點的相對位置沒有變化。
數(shù)據(jù)標準化是有確切的理論基礎(chǔ)和實際目的,不能隨意進行。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容