統(tǒng)計學包括描述性統(tǒng)計和推論統(tǒng)計。
描述性統(tǒng)計的含義——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information."
中文翻譯:描述性統(tǒng)計是一種匯總統(tǒng)計,用于定量描述或總結(jié)信息集合的特征。
推論統(tǒng)計:根據(jù)數(shù)據(jù)的形態(tài)建立出一個用以解釋其隨機性和不確定性的數(shù)學模型,以之來推論研究中的步驟及母體。
本文主要介紹描述性統(tǒng)計,描述性統(tǒng)計又分為集中趨勢和離散趨勢。
一、集中趨勢(Measures of central tendency)
能夠?qū)傮w的某一特征具有代表性,表明所研究的對象在一定時間、空間條件下的共同性質(zhì)和一般水平。
1. 眾數(shù)(Mode)
用于定性的數(shù)據(jù),表示一組數(shù)據(jù)中出現(xiàn)頻次最高的數(shù)。
優(yōu)點:不受極端值影響;當數(shù)據(jù)具有明顯的集中趨勢時,代表性好;
缺點:缺乏唯一性。
2. 分位數(shù)(Quantile)
亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點,常用的有中位數(shù)(即二分位數(shù))、四分位數(shù)、百分位數(shù)等。
2.1 中位數(shù)(Median)
用于定量的數(shù)據(jù),表示數(shù)值大小位于中間(奇偶總量處理不同)的值。
優(yōu)點:不受極端值影響;缺點:缺乏敏感性。


2.2 四分位數(shù)
第一四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
第二四分位數(shù) (Q2),又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
第三四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距。
3. 平均數(shù)(Mean)
3.1 算術(shù)平均數(shù):
優(yōu)點:充分利用所有數(shù)據(jù),適用性強;缺點:易受極值影響。

3.2 加權(quán)平均數(shù):根據(jù)權(quán)重比例來求平均值

3.3 幾何平均數(shù)

python實現(xiàn):
import numpy as np
import pandas as pd
from scipy.stats import mode
data=[1,2,2,3,2,4]
a=np.mean(data)
b=np.median(data)
print('均值:%s' %a)
print('中位數(shù):%s' %b)
#眾數(shù) 法一
c=mode(data)
print('眾數(shù)為{},出現(xiàn)了{}次'.format(c[0][0],c[1][0]))
#眾數(shù) 法二 (只適用于非負數(shù)據(jù)集)
counts = np.bincount(data) #返回一個長度為data最大值+1的數(shù)組,統(tǒng)計data升序排列后對應索引的頻數(shù)
np.argmax(counts) #返回眾數(shù)
#分位數(shù) 法一 (np.percentile)
q1=np.percentile(data,25) #四分位
q2=np.percentile(data,95) #95%位數(shù)
#分位數(shù) 法二 (df.quantile)
df=pd.Series(data)
df.quantile(.25)
二、離散趨勢(Measures of Dispersion)
1. 極差
一組數(shù)值型數(shù)據(jù)中最大值和最小值之差,max(x)-min(x),反映了數(shù)值樣本的數(shù)據(jù)范圍。
2. 方差和標準差
方差用于衡量數(shù)據(jù)的分散程度,常見的有總體方差和樣本方差,計算方法類似。標準差為方差的平方根。
3. 平均差
是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差絕對值的算術(shù)平均數(shù)。

4. 分位差
其數(shù)值越小表明數(shù)據(jù)越集中,數(shù)值越大表明數(shù)據(jù)越離散。常用的四分位差為:四分位差=(第三個四分位數(shù)-第一個四分位數(shù))/2
5. 異眾比率
異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性就越差;異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。
6. 離散系數(shù)
離散系數(shù)又稱變異系數(shù),CV(Coefficient of Variance)表示。CV(Coefficient of Variance):標準差與均值的比值。離散系數(shù)越小,數(shù)據(jù)的離散程度就越小。
python實現(xiàn):
import numpy as np
data=[1,2,2,3,2,4]
print('極差:{}'.format(np.ptp(data)))
print('方差:%s' % np.var(data) )
print('標準差:%s'% np.std(data) )
#平均差
a=np.mean(data)
print(np.sum(abs(data-a))/len(data))
#四分位差
print('四分位差',np.percentile(data,75)-np.percentile(data,25)) #0.75
#離散系數(shù)
print(np.std(data)/a)
三、分布形態(tài)
1. 偏態(tài)系數(shù)(Skewness)
偏態(tài)系數(shù)又稱偏差系數(shù)(deviation coefficient),偏態(tài)系數(shù)以平均值與中位數(shù)之差對標準差之比率來衡量偏斜的程度,用SK表示偏斜系數(shù):偏態(tài)系數(shù)小于0,因為平均數(shù)在眾數(shù)之左,是一種左偏的分布,又稱為負偏。偏態(tài)系數(shù)大于0,因為均值在眾數(shù)之右,是一種右偏的分布,又稱為正偏。
偏態(tài)系數(shù)是根據(jù)眾數(shù)、中位數(shù)與均值各自的性質(zhì),通過比較眾數(shù)或中位數(shù)與均值來衡量偏斜度的。
| 數(shù)據(jù)狀態(tài) | 描述 | 圖示 |
|---|---|---|
| mean>median>mode | 正偏態(tài)、右偏態(tài) | |
| mean<median<mode | 負偏態(tài)、左偏態(tài) | |
| mode=median=mean | 對稱分布 |
2. 峰態(tài)系數(shù)(Kurtosis)
峰度系數(shù)是用來反映頻數(shù)分布曲線頂端尖峭或扁平程度的指標,用于衡量離群數(shù)據(jù)離群度,峰度系數(shù)越大,說明該數(shù)據(jù)集中的極端值越多。在正態(tài)分布情況下,峰度系數(shù)值是3。>3的峰度系數(shù)說明觀察量更集中,有比正態(tài)分布更短的尾部;<3的峰度系數(shù)說明觀測量不那么集中,有比正態(tài)分布更長的尾部,類似于矩形的均勻分布。峰度系數(shù)的標準誤用來判斷分布的正態(tài)性。峰度系數(shù)與其標準誤的比值用來檢驗正態(tài)性。如果該比值絕對值大于2,將拒絕正態(tài)性。
from scipy import stats
print('偏度:',stats.skew(data))
print('峰度:',stats.kurtosis(data))