我的轉(zhuǎn)行數(shù)據(jù)分析師專欄-2描述統(tǒng)計(jì)分析

導(dǎo)語:數(shù)據(jù)分析師日常工作接觸離不開數(shù)據(jù),甚至大部分工作時(shí)間都會(huì)面對(duì)數(shù)據(jù)所體現(xiàn)的各種問題,單純看數(shù)據(jù)并沒有具體作用,帶著業(yè)務(wù)目的去挖掘分析才會(huì)讓數(shù)據(jù)顯得更有價(jià)值,就需要學(xué)習(xí)描述統(tǒng)計(jì)分析的一些知識(shí)。

本篇內(nèi)容主要根據(jù)3大主題,去深入了解一下描述統(tǒng)計(jì)分析:

1、學(xué)習(xí)統(tǒng)計(jì)對(duì)我有什么意義

(1)首當(dāng)其沖的是,轉(zhuǎn)行數(shù)據(jù)分析師必要懂統(tǒng)計(jì)學(xué)原理:描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)

(2)職場、生活、娛樂、創(chuàng)業(yè)都離不開統(tǒng)計(jì)學(xué)的魅力,例如

你工作2年了,工資處于行業(yè)的什么水平;

你一生中每年摔倒的次數(shù)分布;

手機(jī)記錄著你一天使用每個(gè)APP的分布時(shí)間(該時(shí)候提高一下學(xué)習(xí)軟件占用的時(shí)間);

人的一生中平均所遇到的失敗次數(shù);

(3)進(jìn)一步了解世界變化的原理,看世界的視角會(huì)有所變化


2、描述統(tǒng)計(jì)中常用描述數(shù)據(jù)集的指標(biāo)(平均數(shù)、四分位數(shù)、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)分)

學(xué)習(xí)這些指標(biāo)前,先來了解什么是描述統(tǒng)計(jì)學(xué):

描述統(tǒng)計(jì)學(xué)是研究如何取得反映客觀現(xiàn)象的數(shù)據(jù) ,并通過圖表形式對(duì)所搜集的數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過綜合概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征的一門學(xué)科。描述統(tǒng)計(jì)學(xué)內(nèi)容包括統(tǒng)計(jì)數(shù)據(jù)的收集方法、數(shù)據(jù)的加工處理方法、數(shù)據(jù)的顯示方法、數(shù)據(jù)分布特征的概括與分析方法等。

平均數(shù)

平均數(shù)是統(tǒng)計(jì)學(xué)中最常用的統(tǒng)計(jì)量,用來表明資料中各觀測值相對(duì)集中較多的中心位置。

優(yōu)勢:在統(tǒng)計(jì)中算術(shù)平均數(shù)常用于表示統(tǒng)計(jì)對(duì)象的一般水平,它是描述數(shù)據(jù)集中位置的一個(gè)統(tǒng)計(jì)量。既可以用它來反映一組數(shù)據(jù)的一般情況、和平均水平,也可以用它進(jìn)行不同組數(shù)據(jù)的比較,以看出組與組之間的差別。

局限性:易受極端值的影響,這里的極端值是指偏大或偏小數(shù),當(dāng)出現(xiàn)偏大數(shù)時(shí),平均數(shù)將會(huì)被抬高,當(dāng)出現(xiàn)偏小數(shù)時(shí),平均數(shù)會(huì)降低,例如:一間企業(yè)里,有老板,高層,中層和基層,如果算這間企業(yè)平均月薪水平在30000,高層月薪100000,而作為基層的你拿著4000月薪,直接跟企業(yè)平均工資來對(duì)比,并無太大意義;同時(shí)單純看企業(yè)平均月薪,也體現(xiàn)不到一個(gè)平均水平情況

公式:

四分位數(shù)

四分位數(shù)也稱四分位點(diǎn),是指在統(tǒng)計(jì)學(xué)中把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值。多應(yīng)用于統(tǒng)計(jì)學(xué)中的箱線圖繪制。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值。四分位數(shù)是通過3個(gè)點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。很顯然,中間的四分位數(shù)就是中位數(shù)(Q2),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(稱為下四分位數(shù),Q1)和處在75%位置上的數(shù)值(稱為上四分位數(shù),Q3)

優(yōu)勢:與數(shù)據(jù)的排列位置有關(guān),某些數(shù)據(jù)的變動(dòng)對(duì)它沒有影響;它是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響,常用于比較不同類別數(shù)據(jù)的整體情況和識(shí)別出可能的異常值。

局限性:作為一組數(shù)據(jù)的代表,可靠性比較差,因?yàn)樗焕昧瞬糠謹(jǐn)?shù)據(jù);

實(shí)例1(當(dāng)項(xiàng)數(shù)為奇數(shù)時(shí))-數(shù)據(jù)總量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列的結(jié)果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49,一共11項(xiàng)

Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9

Q1 = 15,Q2 = 40,Q3 = 43

實(shí)例2(當(dāng)項(xiàng)數(shù)為偶數(shù)時(shí))-數(shù)據(jù)總量: 7, 15, 36, 39, 40, 41

由小到大排列的結(jié)果: 7, 15, 36, 39, 40, 41,一共6項(xiàng)

數(shù)列項(xiàng)為偶數(shù)項(xiàng)時(shí),Q2為該組數(shù)列中間兩個(gè)數(shù)字和的平均值,Q1在第一與第二個(gè)數(shù)字之間, Q3在第五與第六個(gè)數(shù)字之間,

Q1 = 0.75*15+0.25*7 = 13,Q2 = (36+39)/2= 37.5,Q3 = 0.25*41+0.75*40 = 40.25.

實(shí)例3(當(dāng)項(xiàng)數(shù)為偶數(shù)時(shí))-分析就餐人員與餐館的距離,數(shù)據(jù)單位為公里

標(biāo)準(zhǔn)差

簡單來說,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。

優(yōu)勢:告訴我們數(shù)據(jù)的波動(dòng)性有多大,例如兩個(gè)班的學(xué)生分?jǐn)?shù),標(biāo)準(zhǔn)差的大小能說明兩個(gè)班的學(xué)生成權(quán)績誰的波動(dòng)大,也就是哪個(gè)班的學(xué)生成績穩(wěn)定些,標(biāo)準(zhǔn)差大的不穩(wěn)定些,標(biāo)準(zhǔn)差小的穩(wěn)定些

局限性:如果兩個(gè)數(shù)據(jù)差別比較大,那么就無法比較,這時(shí)可以用變異系數(shù)可以彌補(bǔ)這個(gè)缺點(diǎn)

什么是變異系數(shù)呢

當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時(shí)候,如果兩組數(shù)據(jù)的測量尺度相差太大,或者數(shù)據(jù)量綱的不同,直接使用標(biāo)準(zhǔn)差來進(jìn)行比較不合適,此時(shí)就應(yīng)當(dāng)消除測量尺度和量綱的影響,而變異系數(shù)可以做到這一點(diǎn),它是原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均數(shù)的比。

標(biāo)準(zhǔn)差計(jì)算方式:

數(shù)據(jù)集:?

平均值:?

標(biāo)準(zhǔn)差?

變異系數(shù)計(jì)算方式:

標(biāo)準(zhǔn)分

也叫z分?jǐn)?shù),是一種具有相等單位的量數(shù)。它是將原始分?jǐn)?shù)與團(tuán)體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù),是以標(biāo)準(zhǔn)差為單位度量原始分?jǐn)?shù)離開其平均數(shù)的分?jǐn)?shù)之上多少個(gè)標(biāo)準(zhǔn)差,或是在平均數(shù)之下多少個(gè)標(biāo)準(zhǔn)差。

數(shù)據(jù)集:?

平均值:?

標(biāo)準(zhǔn)差:?

標(biāo)準(zhǔn)分:?

?(? 為具體的某個(gè)數(shù)值)

最后一張圖總結(jié)剛才所介紹4個(gè)指標(biāo)的大致描述

3、熟悉數(shù)據(jù)集,嘗試從數(shù)據(jù)集中分析哪些業(yè)務(wù)問題?

數(shù)據(jù)集鏈接:騰訊文檔?docs.qq.com

購買信息表

(1)每個(gè)商品一級(jí)分類下,哪個(gè)二級(jí)分類的商品賣得更多

(2)每個(gè)分類下,爆款商品是哪一個(gè)(購買數(shù)量越大,就是爆款)

(3)每個(gè)一級(jí)分類、二級(jí)分類、商品,在不同時(shí)間段購買情況的分布

(4)每個(gè)商品一級(jí)分類下,二級(jí)分類的銷售分布情況

(5)找出每個(gè)分類下的淡旺季購買情況

嬰兒信息表:

(1)嬰兒總體的男女占比

(2)嬰兒不同年齡段的數(shù)量分布情況

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 統(tǒng)計(jì)學(xué)是人工智能的基礎(chǔ)知識(shí),也是投資領(lǐng)域的核心技能。 描述統(tǒng)計(jì)學(xué)即對(duì)大量信息進(jìn)行歸納。數(shù)據(jù)越多,事實(shí)越模糊,所以需...
    Doraay閱讀 1,942評(píng)論 0 1
  • 數(shù)據(jù)的集中趨勢 眾數(shù) 是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有可能沒有也有可能有多個(gè)。 中位數(shù) 中位數(shù),又稱中點(diǎn)數(shù),中值...
    當(dāng)_下閱讀 5,761評(píng)論 5 8
  • 描述性統(tǒng)計(jì)描述性統(tǒng)計(jì)是用來概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計(jì)方法。通過統(tǒng)計(jì)處理可以簡潔地用幾個(gè)統(tǒng)...
    AnthRax閱讀 25,889評(píng)論 -1 5
  • 前言 第一周是用的腦圖寫的,等有時(shí)間把第一周的也轉(zhuǎn)化為筆記。話不多說,直接上第二周的知識(shí)點(diǎn)概括圖: 1.集中趨勢 ...
    超神的喬巴丶閱讀 1,919評(píng)論 0 1
  • 形容一個(gè)人在某方面的成就,我們最長用到的一個(gè)詞便是天賦,天賦到底是什么呢?怎么才能知道自己擁有什么樣的天賦呢?擁有...
    三石姑娘閱讀 510評(píng)論 0 1

友情鏈接更多精彩內(nèi)容