數(shù)據(jù)分析之描述性統(tǒng)計

統(tǒng)計學包括描述性統(tǒng)計推論統(tǒng)計。

描述性統(tǒng)計的含義——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information."

中文翻譯:描述性統(tǒng)計是一種匯總統(tǒng)計,用于定量描述或總結(jié)信息集合的特征。

推論統(tǒng)計:根據(jù)數(shù)據(jù)的形態(tài)建立出一個用以解釋其隨機性和不確定性的數(shù)學模型,以之來推論研究中的步驟及母體。

本文主要介紹描述性統(tǒng)計,描述性統(tǒng)計又分為集中趨勢離散趨勢。


一、集中趨勢(Measures of central tendency)
能夠?qū)傮w的某一特征具有代表性,表明所研究的對象在一定時間、空間條件下的共同性質(zhì)和一般水平。

1. 眾數(shù)(Mode)
用于定性的數(shù)據(jù),表示一組數(shù)據(jù)中出現(xiàn)頻次最高的數(shù)。
優(yōu)點:不受極端值影響;當數(shù)據(jù)具有明顯的集中趨勢時,代表性好;
缺點:缺乏唯一性。

2. 分位數(shù)(Quantile)
亦稱分位點,是指將一個隨機變量概率分布范圍分為幾個等份的數(shù)值點,常用的有中位數(shù)(即二分位數(shù))、四分位數(shù)、百分位數(shù)等。

2.1 中位數(shù)(Median)
用于定量的數(shù)據(jù),表示數(shù)值大小位于中間(奇偶總量處理不同)的值。
優(yōu)點:不受極端值影響;缺點:缺乏敏感性。

n為奇數(shù):

n為偶數(shù):

2.2 四分位數(shù)
第一四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

第二四分位數(shù) (Q2),又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

第三四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距。

3. 平均數(shù)(Mean)
3.1 算術(shù)平均數(shù):
優(yōu)點:充分利用所有數(shù)據(jù),適用性強;缺點:易受極值影響。

算術(shù)平均數(shù)

3.2 加權(quán)平均數(shù):根據(jù)權(quán)重比例來求平均值

加權(quán)平均數(shù)

3.3 幾何平均數(shù)

幾何平均數(shù)

python實現(xiàn):

import numpy as np
import pandas as pd
from scipy.stats import mode
data=[1,2,2,3,2,4]
a=np.mean(data)
b=np.median(data)
print('均值:%s' %a)
print('中位數(shù):%s' %b)
#眾數(shù) 法一
c=mode(data)
print('眾數(shù)為{},出現(xiàn)了{}次'.format(c[0][0],c[1][0])) 
#眾數(shù) 法二 (只適用于非負數(shù)據(jù)集)
counts = np.bincount(data) #返回一個長度為data最大值+1的數(shù)組,統(tǒng)計data升序排列后對應索引的頻數(shù)
np.argmax(counts) #返回眾數(shù)
#分位數(shù) 法一 (np.percentile)
q1=np.percentile(data,25)  #四分位
q2=np.percentile(data,95) #95%位數(shù)
#分位數(shù) 法二 (df.quantile)
df=pd.Series(data)
df.quantile(.25)

二、離散趨勢(Measures of Dispersion)
1. 極差
一組數(shù)值型數(shù)據(jù)中最大值和最小值之差,max(x)-min(x),反映了數(shù)值樣本的數(shù)據(jù)范圍。

2. 方差和標準差
方差用于衡量數(shù)據(jù)的分散程度,常見的有總體方差和樣本方差,計算方法類似。標準差為方差的平方根。

3. 平均差
是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差絕對值的算術(shù)平均數(shù)。

4. 分位差
其數(shù)值越小表明數(shù)據(jù)越集中,數(shù)值越大表明數(shù)據(jù)越離散。常用的四分位差為:四分位差=(第三個四分位數(shù)-第一個四分位數(shù))/2

5. 異眾比率
異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性就越差;異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。

6. 離散系數(shù)
離散系數(shù)又稱變異系數(shù),CV(Coefficient of Variance)表示。CV(Coefficient of Variance):標準差與均值的比值。離散系數(shù)越小,數(shù)據(jù)的離散程度就越小。

python實現(xiàn):

import numpy as np
data=[1,2,2,3,2,4]
print('極差:{}'.format(np.ptp(data)))
print('方差:%s' % np.var(data) )
print('標準差:%s'% np.std(data) )
#平均差
a=np.mean(data)
print(np.sum(abs(data-a))/len(data))
#四分位差
print('四分位差',np.percentile(data,75)-np.percentile(data,25))  #0.75
#離散系數(shù)
print(np.std(data)/a)

三、分布形態(tài)
1. 偏態(tài)系數(shù)(Skewness)
偏態(tài)系數(shù)又稱偏差系數(shù)(deviation coefficient),偏態(tài)系數(shù)以平均值與中位數(shù)之差對標準差之比率來衡量偏斜的程度,用SK表示偏斜系數(shù):偏態(tài)系數(shù)小于0,因為平均數(shù)在眾數(shù)之左,是一種左偏的分布,又稱為負偏。偏態(tài)系數(shù)大于0,因為均值在眾數(shù)之右,是一種右偏的分布,又稱為正偏。

偏態(tài)系數(shù)是根據(jù)眾數(shù)、中位數(shù)與均值各自的性質(zhì),通過比較眾數(shù)或中位數(shù)與均值來衡量偏斜度的。

數(shù)據(jù)狀態(tài) 描述 圖示
mean>median>mode 正偏態(tài)、右偏態(tài)
mean<median<mode 負偏態(tài)、左偏態(tài)
mode=median=mean 對稱分布

2. 峰態(tài)系數(shù)(Kurtosis)
峰度系數(shù)是用來反映頻數(shù)分布曲線頂端尖峭或扁平程度的指標,用于衡量離群數(shù)據(jù)離群度,峰度系數(shù)越大,說明該數(shù)據(jù)集中的極端值越多。在正態(tài)分布情況下,峰度系數(shù)值是3。>3的峰度系數(shù)說明觀察量更集中,有比正態(tài)分布更短的尾部;<3的峰度系數(shù)說明觀測量不那么集中,有比正態(tài)分布更長的尾部,類似于矩形的均勻分布。峰度系數(shù)的標準誤用來判斷分布的正態(tài)性。峰度系數(shù)與其標準誤的比值用來檢驗正態(tài)性。如果該比值絕對值大于2,將拒絕正態(tài)性。

from scipy import stats
print('偏度:',stats.skew(data))  
print('峰度:',stats.kurtosis(data))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)的集中趨勢 眾數(shù) 是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有可能沒有也有可能有多個。 中位數(shù) 中位數(shù),又稱中點數(shù),中值...
    當_下閱讀 5,768評論 5 8
  • 描述性統(tǒng)計描述性統(tǒng)計是用來概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計方法。通過統(tǒng)計處理可以簡潔地用幾個統(tǒng)...
    AnthRax閱讀 25,896評論 -1 5
  • 最近加入一個數(shù)據(jù)挖掘?qū)W習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統(tǒng)計學和機器學習兩大知識點。學習完要提交...
    諾馨閱讀 1,927評論 0 6
  • 寫在前面的話 平靜心湖起漣漪,開始新的挑戰(zhàn)。我會根據(jù)每周工作繁忙程度來完成作業(yè),時間充裕的時候盡量高質(zhì)量完成...
    魚百里閱讀 1,373評論 0 0
  • 數(shù)據(jù)分析的對象主要是結(jié)構(gòu)化數(shù)據(jù),雖然數(shù)據(jù)的類型有很多,但是所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個維度進行描述,這三個維度就是...
    Vicky_1ecd閱讀 3,189評論 0 0

友情鏈接更多精彩內(nèi)容