久久撸国产在线视频,亚洲色欧美色另类在线,91人妻一区二区

統(tǒng)計學包括描述性統(tǒng)計和推論統(tǒng)計。

描述性統(tǒng)計的含義——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information."

中文翻譯：描述性統(tǒng)計是一種匯總統(tǒng)計，用于定量描述或總結(jié)信息集合的特征。

推論統(tǒng)計：根據(jù)數(shù)據(jù)的形態(tài)建立出一個用以解釋其隨機性和不確定性的數(shù)學模型，以之來推論研究中的步驟及母體。

本文主要介紹描述性統(tǒng)計，描述性統(tǒng)計又分為集中趨勢和離散趨勢。

一、集中趨勢(Measures of central tendency)
能夠?qū)傮w的某一特征具有代表性，表明所研究的對象在一定時間、空間條件下的共同性質(zhì)和一般水平。

1. 眾數(shù)(Mode)
用于定性的數(shù)據(jù)，表示一組數(shù)據(jù)中出現(xiàn)頻次最高的數(shù)。
優(yōu)點：不受極端值影響；當數(shù)據(jù)具有明顯的集中趨勢時，代表性好；
缺點：缺乏唯一性。

2. 分位數(shù)(Quantile)
亦稱分位點，是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點，常用的有中位數(shù)（即二分位數(shù)）、四分位數(shù)、百分位數(shù)等。

2.1 中位數(shù)（Median）
用于定量的數(shù)據(jù)，表示數(shù)值大小位于中間（奇偶總量處理不同）的值。
優(yōu)點：不受極端值影響；缺點：缺乏敏感性。

n為奇數(shù)：

n為偶數(shù)：

2.2 四分位數(shù)
第一四分位數(shù) (Q1)，又稱“較小四分位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

第二四分位數(shù) (Q2)，又稱中位數(shù)，等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

第三四分位數(shù) (Q3)，又稱“較大四分位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距。

3. 平均數(shù)(Mean)
3.1 算術(shù)平均數(shù)：
優(yōu)點：充分利用所有數(shù)據(jù)，適用性強；缺點：易受極值影響。

算術(shù)平均數(shù)

3.2 加權(quán)平均數(shù)：根據(jù)權(quán)重比例來求平均值

加權(quán)平均數(shù)

3.3 幾何平均數(shù)

幾何平均數(shù)

python實現(xiàn)：

import numpy as np
import pandas as pd
from scipy.stats import mode
data=[1,2,2,3,2,4]
a=np.mean(data)
b=np.median(data)
print('均值:%s' %a)
print('中位數(shù):%s' %b)
#眾數(shù) 法一
c=mode(data)
print('眾數(shù)為{}，出現(xiàn)了{}次'.format(c[0][0],c[1][0])) 
#眾數(shù) 法二 （只適用于非負數(shù)據(jù)集）
counts = np.bincount(data) #返回一個長度為data最大值+1的數(shù)組，統(tǒng)計data升序排列后對應索引的頻數(shù)
np.argmax(counts) #返回眾數(shù)
#分位數(shù) 法一 （np.percentile）
q1=np.percentile(data,25)  #四分位
q2=np.percentile(data,95) #95%位數(shù)
#分位數(shù) 法二 （df.quantile）
df=pd.Series(data)
df.quantile(.25)

二、離散趨勢(Measures of Dispersion)
1. 極差
一組數(shù)值型數(shù)據(jù)中最大值和最小值之差，max(x)-min(x)，反映了數(shù)值樣本的數(shù)據(jù)范圍。

2. 方差和標準差
方差用于衡量數(shù)據(jù)的分散程度，常見的有總體方差和樣本方差，計算方法類似。標準差為方差的平方根。

3. 平均差
是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差絕對值的算術(shù)平均數(shù)。

4. 分位差
其數(shù)值越小表明數(shù)據(jù)越集中，數(shù)值越大表明數(shù)據(jù)越離散。常用的四分位差為：四分位差=（第三個四分位數(shù)-第一個四分位數(shù)）/2

5. 異眾比率
異眾比率越大，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大，眾數(shù)的代表性就越差；異眾比率越小，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小，眾數(shù)的代表性越好。

6. 離散系數(shù)
離散系數(shù)又稱變異系數(shù)，CV(Coefficient of Variance)表示。CV(Coefficient of Variance)：標準差與均值的比值。離散系數(shù)越小，數(shù)據(jù)的離散程度就越小。

python實現(xiàn):

import numpy as np
data=[1,2,2,3,2,4]
print('極差:{}'.format(np.ptp(data)))
print('方差:%s' % np.var(data) )
print('標準差:%s'% np.std(data) )
#平均差
a=np.mean(data)
print(np.sum(abs(data-a))/len(data))
#四分位差
print('四分位差',np.percentile(data,75)-np.percentile(data,25))  #0.75
#離散系數(shù)
print(np.std(data)/a)

三、分布形態(tài)
1. 偏態(tài)系數(shù)(Skewness)
偏態(tài)系數(shù)又稱偏差系數(shù)(deviation coefficient)，偏態(tài)系數(shù)以平均值與中位數(shù)之差對標準差之比率來衡量偏斜的程度，用SK表示偏斜系數(shù):偏態(tài)系數(shù)小于0，因為平均數(shù)在眾數(shù)之左，是一種左偏的分布，又稱為負偏。偏態(tài)系數(shù)大于0，因為均值在眾數(shù)之右，是一種右偏的分布，又稱為正偏。

偏態(tài)系數(shù)是根據(jù)眾數(shù)、中位數(shù)與均值各自的性質(zhì)，通過比較眾數(shù)或中位數(shù)與均值來衡量偏斜度的。

數(shù)據(jù)狀態(tài)	描述	圖示
mean>median>mode	正偏態(tài)、右偏態(tài)
mean<median<mode	負偏態(tài)、左偏態(tài)
mode=median=mean	對稱分布

2. 峰態(tài)系數(shù)(Kurtosis)
峰度系數(shù)是用來反映頻數(shù)分布曲線頂端尖峭或扁平程度的指標，用于衡量離群數(shù)據(jù)離群度，峰度系數(shù)越大，說明該數(shù)據(jù)集中的極端值越多。在正態(tài)分布情況下，峰度系數(shù)值是3。>3的峰度系數(shù)說明觀察量更集中，有比正態(tài)分布更短的尾部；<3的峰度系數(shù)說明觀測量不那么集中，有比正態(tài)分布更長的尾部，類似于矩形的均勻分布。峰度系數(shù)的標準誤用來判斷分布的正態(tài)性。峰度系數(shù)與其標準誤的比值用來檢驗正態(tài)性。如果該比值絕對值大于2，將拒絕正態(tài)性。

from scipy import stats
print('偏度:',stats.skew(data))  
print('峰度:',stats.kurtosis(data))

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)分析之描述性統(tǒng)計

數(shù)據(jù)分析之描述性統(tǒng)計

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)分析之描述性統(tǒng)計

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av