第3章 描述統(tǒng)計學Ⅱ:數(shù)值方法
如果數(shù)據(jù)來自樣本,計算的度量稱為樣本統(tǒng)計量。如果數(shù)據(jù)來自總體,計算的度量稱為總體參數(shù)。在統(tǒng)計推斷中,樣本統(tǒng)計量被稱為是相應總體參數(shù)的點估計量。
3.1 位置的度量
3.1.1 平均數(shù)(mean)
3.1.2 ?加權平均數(shù)(weighted mean) 舉例子大學生的平均等級分(grade point average)。
3.1.3 中位數(shù)(median)
將數(shù)據(jù)按升序(從小到大的順序)排列:
(a)對奇數(shù)個觀測值,中位數(shù)是中間的數(shù)值。
(b)對偶數(shù)個觀測值,中位數(shù)是中間兩個數(shù)值的平均值。
雖然在度量數(shù)據(jù)的中心位置時,更常用的是平均數(shù)。但在數(shù)據(jù)集含有異常值的情況下,中位數(shù)往往更適合于度量數(shù)據(jù)的中心位置。
3.1.4 幾何平均數(shù)(geometric mean)
n個數(shù)值乘積的n次方根。幾何平均數(shù)常常用于分析財務數(shù)據(jù)的增長率。股票年收益率,對于乘法過程,諸如增長率的應用,幾何平均數(shù)是合適的位置度量。
在財務、投資和銀行業(yè)的問題中,幾何平均數(shù)的應用尤為常見,當你任何時候想確定過去幾個月連續(xù)時期的平均變化率時,都能應用幾何平均數(shù)。
3.1.5 眾數(shù)(mode)
出現(xiàn)次數(shù)最多的數(shù)據(jù)。會有兩個或者以上的眾數(shù)。
3.1.6 百分位數(shù)(percentile)
提供了數(shù)據(jù)如何散布在從最小值到最大值的區(qū)間上的信息。
第P百分位數(shù)是滿足下列條件的一個數(shù)值:至少有P%的觀測值小于或等于該值,且至少有(100-P)%的觀測值大于等于該值。
高等院校經(jīng)常以百分位數(shù)的形式報告入學考試的成績。

3.1.7 四分位數(shù)(quartiles)
人們經(jīng)常需要將數(shù)據(jù)劃分為四部分,每一部分大約包含25%的觀測值。四分位數(shù)有3個。
第一四分位數(shù)=第25百分位數(shù)
第二四分位數(shù)=第50百分位數(shù),中位數(shù)
第三四分位數(shù)=第75百分位數(shù)
注釋和評論:
調(diào)整平均數(shù)(trimmed mean):從數(shù)據(jù)中刪除一定比例最大值和最小值,然后計算剩余數(shù)據(jù)的平均值。
其他常用的百分位數(shù)是五分位數(shù)(第20百分位數(shù)、第40百分位數(shù)、第60百分位數(shù)、第80百分位數(shù))和十分位數(shù)(第10百分位數(shù)、第20百分位數(shù)、第30百分位數(shù)、第40百分位數(shù)等等)
3.2 變異程度的度量
離散程度的度量
3.2.1 極差
極差=最大值-最小值
它很少被單獨用來度量變異程度。原因是僅僅以兩個觀測值為依據(jù),因此極易受到異常值的影響。
3.2.2 四分位數(shù)間距
作為變異程度的一種度量,能夠克服異常值的影響。第三四分位數(shù)與第一四分位數(shù)的差值,是在中間的50%的數(shù)據(jù)的極差。
3.2.3 方差(variance)
如果數(shù)據(jù)來自總體,則離差平方的平均值稱為總體方差。
方差的平方單位使得人們對于方差的數(shù)值很難找到直觀的理解和詮釋。在變量的比較中,擁有較大方差的變量顯示其變異程度也較大。
平均數(shù)的離差之和等于0.
3.2.4 標準差
方差的正平方根。
3.2.5 標準差系數(shù)
(標準差/平均數(shù)*100)%
一般地,在比較具有不同標準差和不同平均數(shù)的變量的變異程度時,標準差系數(shù)是一個很有用的統(tǒng)計量。
3.3 分布形態(tài)、相對位置的度量以及異常值的檢測
直方圖對分布的形態(tài)提供了一種很好的圖形描述。
3.3.1 分布形態(tài)
對于左偏的數(shù)據(jù),偏度是負數(shù),對于右偏的數(shù)據(jù),偏度是正直。如果數(shù)據(jù)是對稱的,則偏度為0.
偏度為正值時,通常平均數(shù)比中位數(shù)大。如婦女服飾店購物,平均購物金額是77.06美元,中位數(shù)是59.70美元。少數(shù)較大的購物金額將平均數(shù)拉大,但中位數(shù)不受影響。當數(shù)據(jù)嚴重偏離時,中位數(shù)是位置的首選度量。
3.3.2 z-分數(shù)
對一個數(shù)據(jù)集,除了位置、變異程度和形態(tài)的度量外,我們還對數(shù)據(jù)集中的數(shù)值的相對位置感興趣。
與平均數(shù)的距離有z個標準差。
3.3.3 切比雪夫定理
與平均數(shù)的距離在Z個標準差之內(nèi)的數(shù)據(jù)項所占比例至少為(1-1/z的平方)。
3.3.4 經(jīng)驗法則
切比雪夫定理的優(yōu)點之一就是它適用于任何數(shù)據(jù)集而不論其數(shù)據(jù)分布的形狀。
符合正態(tài)分布時應用經(jīng)驗法則。
3.3.5 異常值的檢測
標準化數(shù)值(z-分數(shù))可以用來確認異常值。我們建議把z分數(shù)小于-3或大于+3的任何數(shù)值都視為異常值。然后,對它們的準確性進行檢查,以確定它們是否屬于數(shù)據(jù)集。
確定異常值的另一種方法是以第一四分位數(shù)、第三四分位數(shù)、四分位數(shù)間距(IQR)
下限=Q1-1.5*IQR
上限=Q3+1.5*IQR
在上下限之外的數(shù)據(jù)就是異常值。
檢測異常值是檢查數(shù)據(jù)有效性的一個工具。
3.4 五數(shù)概括法和箱形圖
五數(shù)概括法:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)、最大值。
箱形圖是基于五數(shù)概括法的數(shù)據(jù)圖形匯總。
3.5 兩變量間關系的度量
3.5.1 協(xié)方差
似乎協(xié)方差是一個大的正值就表示強的正線性相關關系,一個大的負數(shù)就表示強的負線性相關關系。但是,在使用協(xié)方差作為線性關系強度的度量時,依賴于變量的計量單位,如身高用英寸時比用英尺的數(shù)值要大。避免這種情況,用相關系數(shù)。
3.5.3 相關系數(shù)
注意相關系數(shù)提供了線性但不是因果關系的一個度量。兩個變量之間較高的相關系數(shù),并不意味著一個變量的變化會引起另一個變量的變化。如飯店的質(zhì)量等級和代表性餐價是正相關的,但是簡單地增加飯店的餐價不會提高飯店的質(zhì)量等級。
相關系數(shù)的范圍是-1至+1,當相關系數(shù)接近于-1或+1,表示強的線性關系,相關系數(shù)越接近于0,線性關系越弱。
3.6 數(shù)據(jù)儀表板:增加數(shù)值度量以提高有效性