導(dǎo)語:數(shù)據(jù)分析師日常工作接觸離不開數(shù)據(jù),甚至大部分工作時(shí)間都會(huì)面對(duì)數(shù)據(jù)所體現(xiàn)的各種問題,單純看數(shù)據(jù)并沒有具體作用,帶著業(yè)務(wù)目的去挖掘分析才會(huì)讓數(shù)據(jù)顯得更有價(jià)值,就需要學(xué)習(xí)描述統(tǒng)計(jì)分析的一些知識(shí)。
本篇內(nèi)容主要根據(jù)3大主題,去深入了解一下描述統(tǒng)計(jì)分析:
1、學(xué)習(xí)統(tǒng)計(jì)對(duì)我有什么意義
(1)首當(dāng)其沖的是,轉(zhuǎn)行數(shù)據(jù)分析師必要懂統(tǒng)計(jì)學(xué)原理:描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)
(2)職場、生活、娛樂、創(chuàng)業(yè)都離不開統(tǒng)計(jì)學(xué)的魅力,例如
你工作2年了,工資處于行業(yè)的什么水平;
你一生中每年摔倒的次數(shù)分布;
手機(jī)記錄著你一天使用每個(gè)APP的分布時(shí)間(該時(shí)候提高一下學(xué)習(xí)軟件占用的時(shí)間);
人的一生中平均所遇到的失敗次數(shù);
(3)進(jìn)一步了解世界變化的原理,看世界的視角會(huì)有所變化
2、描述統(tǒng)計(jì)中常用描述數(shù)據(jù)集的指標(biāo)(平均數(shù)、四分位數(shù)、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)分)
學(xué)習(xí)這些指標(biāo)前,先來了解什么是描述統(tǒng)計(jì)學(xué):
描述統(tǒng)計(jì)學(xué)是研究如何取得反映客觀現(xiàn)象的數(shù)據(jù) ,并通過圖表形式對(duì)所搜集的數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過綜合概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征的一門學(xué)科。描述統(tǒng)計(jì)學(xué)內(nèi)容包括統(tǒng)計(jì)數(shù)據(jù)的收集方法、數(shù)據(jù)的加工處理方法、數(shù)據(jù)的顯示方法、數(shù)據(jù)分布特征的概括與分析方法等。
平均數(shù)
平均數(shù)是統(tǒng)計(jì)學(xué)中最常用的統(tǒng)計(jì)量,用來表明資料中各觀測值相對(duì)集中較多的中心位置。
優(yōu)勢:在統(tǒng)計(jì)中算術(shù)平均數(shù)常用于表示統(tǒng)計(jì)對(duì)象的一般水平,它是描述數(shù)據(jù)集中位置的一個(gè)統(tǒng)計(jì)量。既可以用它來反映一組數(shù)據(jù)的一般情況、和平均水平,也可以用它進(jìn)行不同組數(shù)據(jù)的比較,以看出組與組之間的差別。
局限性:易受極端值的影響,這里的極端值是指偏大或偏小數(shù),當(dāng)出現(xiàn)偏大數(shù)時(shí),平均數(shù)將會(huì)被抬高,當(dāng)出現(xiàn)偏小數(shù)時(shí),平均數(shù)會(huì)降低,例如:一間企業(yè)里,有老板,高層,中層和基層,如果算這間企業(yè)平均月薪水平在30000,高層月薪100000,而作為基層的你拿著4000月薪,直接跟企業(yè)平均工資來對(duì)比,并無太大意義;同時(shí)單純看企業(yè)平均月薪,也體現(xiàn)不到一個(gè)平均水平情況
公式:

四分位數(shù)
四分位數(shù)也稱四分位點(diǎn),是指在統(tǒng)計(jì)學(xué)中把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值。多應(yīng)用于統(tǒng)計(jì)學(xué)中的箱線圖繪制。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值。四分位數(shù)是通過3個(gè)點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。很顯然,中間的四分位數(shù)就是中位數(shù)(Q2),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(稱為下四分位數(shù),Q1)和處在75%位置上的數(shù)值(稱為上四分位數(shù),Q3)


優(yōu)勢:與數(shù)據(jù)的排列位置有關(guān),某些數(shù)據(jù)的變動(dòng)對(duì)它沒有影響;它是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響,常用于比較不同類別數(shù)據(jù)的整體情況和識(shí)別出可能的異常值。
局限性:作為一組數(shù)據(jù)的代表,可靠性比較差,因?yàn)樗焕昧瞬糠謹(jǐn)?shù)據(jù);
實(shí)例1(當(dāng)項(xiàng)數(shù)為奇數(shù)時(shí))-數(shù)據(jù)總量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的結(jié)果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49,一共11項(xiàng)
Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9
Q1 = 15,Q2 = 40,Q3 = 43
實(shí)例2(當(dāng)項(xiàng)數(shù)為偶數(shù)時(shí))-數(shù)據(jù)總量: 7, 15, 36, 39, 40, 41
由小到大排列的結(jié)果: 7, 15, 36, 39, 40, 41,一共6項(xiàng)
數(shù)列項(xiàng)為偶數(shù)項(xiàng)時(shí),Q2為該組數(shù)列中間兩個(gè)數(shù)字和的平均值,Q1在第一與第二個(gè)數(shù)字之間, Q3在第五與第六個(gè)數(shù)字之間,
Q1 = 0.75*15+0.25*7 = 13,Q2 = (36+39)/2= 37.5,Q3 = 0.25*41+0.75*40 = 40.25.
實(shí)例3(當(dāng)項(xiàng)數(shù)為偶數(shù)時(shí))-分析就餐人員與餐館的距離,數(shù)據(jù)單位為公里


標(biāo)準(zhǔn)差
簡單來說,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。
優(yōu)勢:告訴我們數(shù)據(jù)的波動(dòng)性有多大,例如兩個(gè)班的學(xué)生分?jǐn)?shù),標(biāo)準(zhǔn)差的大小能說明兩個(gè)班的學(xué)生成權(quán)績誰的波動(dòng)大,也就是哪個(gè)班的學(xué)生成績穩(wěn)定些,標(biāo)準(zhǔn)差大的不穩(wěn)定些,標(biāo)準(zhǔn)差小的穩(wěn)定些
局限性:如果兩個(gè)數(shù)據(jù)差別比較大,那么就無法比較,這時(shí)可以用變異系數(shù)可以彌補(bǔ)這個(gè)缺點(diǎn)
什么是變異系數(shù)呢?
當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時(shí)候,如果兩組數(shù)據(jù)的測量尺度相差太大,或者數(shù)據(jù)量綱的不同,直接使用標(biāo)準(zhǔn)差來進(jìn)行比較不合適,此時(shí)就應(yīng)當(dāng)消除測量尺度和量綱的影響,而變異系數(shù)可以做到這一點(diǎn),它是原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均數(shù)的比。
標(biāo)準(zhǔn)差計(jì)算方式:
數(shù)據(jù)集:?

平均值:?

標(biāo)準(zhǔn)差?

變異系數(shù)計(jì)算方式:

標(biāo)準(zhǔn)分
也叫z分?jǐn)?shù),是一種具有相等單位的量數(shù)。它是將原始分?jǐn)?shù)與團(tuán)體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù),是以標(biāo)準(zhǔn)差為單位度量原始分?jǐn)?shù)離開其平均數(shù)的分?jǐn)?shù)之上多少個(gè)標(biāo)準(zhǔn)差,或是在平均數(shù)之下多少個(gè)標(biāo)準(zhǔn)差。
數(shù)據(jù)集:?

平均值:?

標(biāo)準(zhǔn)差:?

標(biāo)準(zhǔn)分:?

?(? 為具體的某個(gè)數(shù)值)
最后一張圖總結(jié)剛才所介紹4個(gè)指標(biāo)的大致描述

3、熟悉數(shù)據(jù)集,嘗試從數(shù)據(jù)集中分析哪些業(yè)務(wù)問題?
數(shù)據(jù)集鏈接:騰訊文檔?docs.qq.com
購買信息表:

(1)每個(gè)商品一級(jí)分類下,哪個(gè)二級(jí)分類的商品賣得更多
(2)每個(gè)分類下,爆款商品是哪一個(gè)(購買數(shù)量越大,就是爆款)
(3)每個(gè)一級(jí)分類、二級(jí)分類、商品,在不同時(shí)間段購買情況的分布
(4)每個(gè)商品一級(jí)分類下,二級(jí)分類的銷售分布情況
(5)找出每個(gè)分類下的淡旺季購買情況
嬰兒信息表:

(1)嬰兒總體的男女占比
(2)嬰兒不同年齡段的數(shù)量分布情況