來自于Simple Learning Pro的系列課程
上一章介紹了如何用圖標來表示數(shù)值的分布;有些統(tǒng)計型數(shù)值通常也用來描述數(shù)據(jù)的分布:
眾數(shù)
中位數(shù)
平均值
范圍
標準差(方差)

眾數(shù)、中位數(shù)、均值
這三者一般用于描述中心量數(shù)(measures of center)
眾數(shù):一組數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù)
中位數(shù):按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù);對于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數(shù)。如果觀察值有偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)
當N為奇數(shù)時,M(0.5)=X(N+1)/2
當N為偶數(shù)時,M(0.5)=[X(N)/2+X(N+1)/2]/2
均值:是表示一組數(shù)據(jù)集中趨勢的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)

范圍、標準差
以上兩指標分散程度的度量:
范圍:一組數(shù)據(jù)中,最大值-最小值
標準差:總體各單位標準值與其平均數(shù)離差平方的算術平均數(shù)的平方根

四則運算對描述分布的數(shù)值計算的影響
中心度量值(中位數(shù),眾數(shù),平均值)受任何加減乘除的影響;
分散度量值(范圍,標準差)僅受乘除的影響;
假設一組數(shù)值每個基礎變量均增量相同的量,相當于整體分布右移,但其分散程度并未發(fā)生變化;
若基礎變量同時發(fā)生多項運算,均值的計算同時發(fā)生多項運算,方差的計算僅針對乘除有效。


離群值對描述分布的數(shù)值計算的影響
離群值(outlier)是指數(shù)據(jù)中有一個或幾個數(shù)值與其他數(shù)值相比差異較大;
在描述分布的數(shù)值中,均值、范圍、標準差均會受到離群值的影響;而眾數(shù)和中位數(shù)則相對穩(wěn)定

5數(shù)概括法及箱形圖
五數(shù)概括法即用下面的五個數(shù)來概括數(shù)據(jù):
最小值;
第1四分位數(shù)(Q1): 位置= (n+1) × 0.25
中位數(shù)(Q2):?位置= (n+1) × 0.5
第3四分位數(shù)(Q3):?位置= (n+1) × 0.75
最大值。
箱形圖提供了五數(shù)概括法的視覺展示,同時箱形圖也可展示異常值。
異常值的判斷標準如下:數(shù)值<Q1-1.5*IQR? 或者? 數(shù)值>Q3+1.5*IQR
其中,IQR為四分位間距=Q3-Q1

對稱性與偏度
當我們在說對稱性(symmetry)和偏度(skewness)時,我們主要看的是分布圖形的形狀(在此主要涉及到三種圖形:直方圖、莖葉圖、箱形圖)
對稱式分布,圖形左右完全對稱;中位數(shù)=均值
非對稱式分布
左偏態(tài):左側尾部拖得很長;此時數(shù)據(jù)位于均值左邊的比位于右邊的少,直觀表現(xiàn)為左邊的尾部相對于與右邊的尾部要長;中位數(shù)>平均數(shù)
右偏態(tài):右側尾部拖得很長,此時數(shù)據(jù)位于均值右邊的比位于左邊的少,直觀表現(xiàn)為右邊的尾部相對于與左邊的尾部要長;平均值>中位數(shù)
