走進(jìn)數(shù)據(jù)分析

資料分析-導(dǎo)論

隨著互聯(lián)網(wǎng)的發(fā)展,任何崗位都離不開(kāi)資料分析。隨著互聯(lián)網(wǎng)的發(fā)展,每天都在產(chǎn)生大量的數(shù)據(jù)。同時(shí),這些數(shù)據(jù)也會(huì)反向產(chǎn)生價(jià)值。比如,用戶在互聯(lián)網(wǎng)上購(gòu)物時(shí),可以通過(guò)評(píng)價(jià),購(gòu)買(mǎi)量,和價(jià)格來(lái)選擇一件商品。反之,網(wǎng)絡(luò)商家也可以通過(guò)用戶行為,進(jìn)一步挑選什么樣的商品更好賣(mài),如何對(duì)商品進(jìn)行定價(jià),抑或如何對(duì)商品進(jìn)行宣傳推廣。通過(guò)這些例子,我們可以看到資料分析在工作中的重要性。那么,資料分析的具體技能包括哪些呢?

資料分析的技能可以大致分為兩類:硬技能和軟技能。硬技能是指硬性資料分析和工具的使用,比如Excel,SQL,Tableau,Python處理大規(guī)模數(shù)據(jù)。軟技能是指對(duì)事物的認(rèn)知方式和經(jīng)驗(yàn)積累,即為透過(guò)現(xiàn)象,能否看清楚導(dǎo)致這一現(xiàn)象的本質(zhì)?對(duì)于同一組數(shù)據(jù),不同層次的人的解讀會(huì)大不相同。這時(shí)候,經(jīng)驗(yàn)的積累會(huì)對(duì)未來(lái)的決策產(chǎn)生積極影響,犯錯(cuò)誤的概率會(huì)對(duì)應(yīng)減少。

互聯(lián)網(wǎng)資料分析

互聯(lián)網(wǎng)通常指信息傳輸?shù)囊环N載體,通過(guò)電子化的方式留存信息,與傳統(tǒng)線下基于實(shí)物的傳輸方式相對(duì)應(yīng)。比如,紙幣和數(shù)字貨幣,他們的作用都是用來(lái)交易,但交易的方式是不同的。紙幣是線下、實(shí)物的交易載體,數(shù)字貨幣是線上的,以一種虛擬的形式進(jìn)行交易。紙幣和數(shù)字貨幣通常是等值的,只是交易方式有所不同。

資料分析是指對(duì)數(shù)據(jù)的規(guī)律進(jìn)行總結(jié)、提煉,從而進(jìn)行最后的決策。比如,在研究數(shù)據(jù)分析崗位人才需求時(shí),首先我們需要獲取招聘信息,基于數(shù)據(jù)對(duì)職位數(shù)進(jìn)行統(tǒng)計(jì)。為了進(jìn)行同類別比較,還需要統(tǒng)計(jì)其他崗位的信息,從而確定數(shù)據(jù)分析崗位在整個(gè)市場(chǎng)中的地位。由于這些資料都是從互聯(lián)網(wǎng)獲取的,所以整個(gè)流程是基于互聯(lián)網(wǎng)的資料分析。

認(rèn)識(shí)數(shù)據(jù)

數(shù)據(jù)是對(duì)事物的描述和記錄。根據(jù)數(shù)據(jù)的計(jì)量層次,我們可以進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分類。對(duì)于以下這一組數(shù)據(jù):黃瓜、番茄、森林、書(shū),他們都屬于文字描述類數(shù)據(jù),我們無(wú)法對(duì)其進(jìn)行排序、比較,因此他們的計(jì)量層次比較低。對(duì)于數(shù)值型數(shù)據(jù):1,2,3,4,5,這些數(shù)據(jù)可以進(jìn)行排序、計(jì)算差異、做加減乘除、做比較,因此他們的計(jì)量層次比較高。

下面我們來(lái)具體看數(shù)據(jù)的分類。

定類數(shù)據(jù) (Nominal Data)

舉例來(lái)說(shuō),

  • 顏色: 紅色、白色、黃色
  • 性別:男性、女性
  • 職位:產(chǎn)品經(jīng)理、運(yùn)營(yíng)、市場(chǎng)營(yíng)銷

這些數(shù)據(jù)有什么特點(diǎn)呢?我們可以發(fā)現(xiàn),這幾組數(shù)據(jù)都是按照類別屬性進(jìn)行分類,各個(gè)類別之間是平等并列的關(guān)系。這種數(shù)據(jù)不帶有數(shù)量的信息,并且不能在各個(gè)類別之間進(jìn)行排序。對(duì)于這種數(shù)據(jù),主要的數(shù)值計(jì)算是計(jì)算其每一類別中的項(xiàng)目的頻數(shù)和頻率。

定序數(shù)據(jù) (Ordinal Data)

舉例來(lái)說(shuō),

  • 受教育程度:小學(xué)、初中、高中、大學(xué)、碩士、博士
  • 季度:春、夏、秋、冬
  • 登記:合格、良好、優(yōu)秀

可以觀察到,定序數(shù)據(jù)和定類數(shù)據(jù)有相似的地方,就是都是文字描述型數(shù)據(jù)。不同的是,定序數(shù)據(jù)是可以進(jìn)行排序、比較優(yōu)劣。在使用過(guò)程中,可以通過(guò)將編碼進(jìn)行排序,表示之間的高低差異。

定距數(shù)據(jù)(Interval Data)

舉例來(lái)說(shuō):

  • 溫度:20°,50°,100°
  • 成績(jī): 50, 65, 70, 100
  • 年齡:8, 25, 40, 60

定距數(shù)據(jù)和前兩種數(shù)據(jù)相比,是數(shù)值型數(shù)據(jù),它具有一定單位的實(shí)際測(cè)量值。定距數(shù)據(jù)的準(zhǔn)確性比定類和定序數(shù)據(jù)更高。通過(guò)定距數(shù)據(jù),我們可以計(jì)算出各個(gè)變量之間的實(shí)際差距(加、減)

定比數(shù)據(jù)(Ratio Data)

舉例來(lái)說(shuō):

  • 利潤(rùn):10萬(wàn),20萬(wàn),30萬(wàn)
  • 薪酬:3000,6000, 9000, 12000
  • 用戶數(shù):210, 3500, 49000

相比定距數(shù)據(jù),定比數(shù)據(jù)不但可以進(jìn)行大小比較、排序、加減法,還可以進(jìn)行乘除運(yùn)算。在定距尺度中,0表示數(shù)值;在定比尺度中,0表示“沒(méi)有”。定比數(shù)據(jù)中存在絕對(duì)零點(diǎn),而定距數(shù)據(jù)不存在。有了絕對(duì)零點(diǎn),即可進(jìn)行乘除運(yùn)算。

總結(jié)

綜上來(lái)看,我們可以將數(shù)據(jù)分為定性、定量數(shù)據(jù)。定性數(shù)據(jù)是一組表示事務(wù)性質(zhì)、規(guī)定實(shí)物類別的文字表屬性數(shù)據(jù),包括定類數(shù)據(jù)和定序數(shù)據(jù)。定量數(shù)據(jù)是指以數(shù)量形式存在著的屬性,并因此可以對(duì)其進(jìn)行測(cè)量,包括定距數(shù)據(jù)和定比數(shù)據(jù)。

統(tǒng)計(jì)指標(biāo)

總體指標(biāo)、相對(duì)指標(biāo)

統(tǒng)計(jì)指標(biāo)是體現(xiàn)總體數(shù)量特征的概念和數(shù)值,根據(jù)分析目的不同,統(tǒng)計(jì)指標(biāo)會(huì)隨之變化。在進(jìn)行房屋設(shè)計(jì)相關(guān)的分析時(shí),統(tǒng)計(jì)指標(biāo)可以涉及到建筑面積、竣工面積、技術(shù)裝備率。在進(jìn)行提升用戶轉(zhuǎn)化率分析時(shí),涉及網(wǎng)站瀏覽量、著陸頁(yè)、跳失率的指標(biāo)。在選擇理財(cái)產(chǎn)品的時(shí)候,往期業(yè)績(jī),風(fēng)險(xiǎn)系數(shù),年化收益等都會(huì)成為統(tǒng)計(jì)指標(biāo)。

統(tǒng)計(jì)指標(biāo)根據(jù)它體現(xiàn)的內(nèi)容可以分為總體和相對(duì)兩大類別??偭恐笜?biāo)是在特定條件下的總規(guī)模、總水平或工作總量。比如,在計(jì)算GDP(國(guó)內(nèi)生產(chǎn)總值)、總?cè)丝凇N售總額時(shí),會(huì)用到總量指標(biāo)(總和SUM)。如果考慮總體的平均水平,可以考慮平均指標(biāo),也稱作集中趨勢(shì)指標(biāo),平均數(shù)是其中一種指標(biāo)。

和總體指標(biāo)相對(duì)應(yīng)的相對(duì)指標(biāo),是兩個(gè)有聯(lián)系的現(xiàn)象數(shù)值相比得到的比率。它描述的是相對(duì)關(guān)系,而不是總體情況。

下面的表格給出了1-12月的銷售額情況和占比。經(jīng)過(guò)計(jì)算,銷售總量為78,000元,占比即為各個(gè)數(shù)據(jù)/總量指標(biāo),占比就是比例,反映出各個(gè)部分占總體的比重,反映了總體的構(gòu)成和比例。如果想要觀察每月相對(duì)的比例,可以將每月的數(shù)據(jù)/公約數(shù),得到1:2:3:...:10:11:12,即為比率,比率是數(shù)據(jù)項(xiàng):數(shù)據(jù)項(xiàng)之間的比較,反映了相對(duì)關(guān)系??梢钥闯?,年末/年初=12,可以突出上升、增長(zhǎng)幅度。在銷售分析過(guò)程中,更多關(guān)注的是增長(zhǎng)率,環(huán)比、同比。比如,我們想要了解最近2個(gè)月的銷售情況,是增長(zhǎng)還是下跌?以11月和12月的數(shù)據(jù)為例,用 (本期數(shù) - 上期數(shù))/上期數(shù) * 100%
得到環(huán)比。具體的 (12000 - 11000)/11000=9.09%,為當(dāng)前12月周期環(huán)比增長(zhǎng)率。

月份 銷售額 占比
1月 1,000 1.28%
2月 2,000 2.56%
3月 3,000 3.85%
4月 4,000 5.13%
5月 5,000 6.41%
6月 6,000 7.69%
7月 7,000 8.97%
8月 8,000 10.26%
9月 9,000 11.54%
10月 10,000 12.82%
11月 11,000 14.10%
12月 12,000 15.38%

如果我們想要了解長(zhǎng)期的增長(zhǎng)率,比如近2年來(lái)的銷售表現(xiàn),可以使用同比增長(zhǎng)率,即為(本期數(shù) - 同期數(shù))/同期數(shù) * 100%。
在以下例子中,可以算出12月份的同比增長(zhǎng)率:(3450 - 2300) / 2300 = 50%。

第一年 銷售額 第二年 銷售額
1月 1,200 1月 1,800
2月 1,300 2月 1,950
3月 1,400 3月 2,100
4月 1,500 4月 2,250
5月 1,600 5月 2,400
6月 1,700 6月 2,550
7月 1,800 7月 2,700
8月 1,900 8月 2,850
9月 2,000 9月 3,000
10月 2,100 10月 3,150
11月 2,200 11月 3,300
12月 2,300 12月 3,450

綜上,環(huán)比更注重短期的漲幅表現(xiàn),而同比更注重長(zhǎng)期的表現(xiàn)。

集中趨勢(shì)指標(biāo)

在分析過(guò)程中,我們經(jīng)常遇到這樣一些問(wèn)題:那個(gè)營(yíng)銷渠道引流效果最好?什么崗位的薪資待遇最高?哪一個(gè)產(chǎn)品最受歡迎?一個(gè)簡(jiǎn)單的方法就是利用平均值來(lái)描述不同選擇的平均水平如何,以便得到初步結(jié)論。平均值就是集中趨勢(shì)指標(biāo)的一種。集中趨勢(shì)指標(biāo)體現(xiàn)的是數(shù)據(jù)的一般水平的指標(biāo),可以幫助我們快速了解樣本數(shù)據(jù)的概況,最常用的集中趨勢(shì)指標(biāo)就是平均值。平均值的計(jì)算非常簡(jiǎn)單,即為所有數(shù)據(jù)相加/數(shù)據(jù)的個(gè)數(shù)。但平均值極為容易受到異常值的影響而變得失去意義,所以,在利用平均值之前,可以去除異常值,這樣可以更準(zhǔn)確的得到指標(biāo)。當(dāng)然,我們可以利用另外一個(gè)集中趨勢(shì)指標(biāo),中位數(shù)。

中位數(shù)是按照順序排列后居于中間位置的數(shù)。如果數(shù)據(jù)的個(gè)數(shù)為奇數(shù)時(shí),中位數(shù)是位于(n+1)/2位置的數(shù);如果是偶數(shù)時(shí),中位數(shù)是最中間的兩位數(shù)相加/2。在以下這個(gè)表格中,中位數(shù)是11000??梢钥闯?,11000相比收到65,000影響的平均數(shù)更具有代表性。

工號(hào) 薪資
20200103 7,500
20200104 8,600
20200101 9,000
20200106 9,500
20200105 11,000
20200102 12,500
20200107 13,500
20200108 14,500
20200109 65,000

另外一個(gè)集中趨勢(shì)指標(biāo)是眾數(shù),是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。眾數(shù)反映的是局部特征和密集度。注意,眾數(shù)是可以有多個(gè)的。

離散趨勢(shì)指標(biāo)

離散趨勢(shì)指標(biāo)是體現(xiàn)內(nèi)部差異度的指標(biāo),主要有三類可以表示:極差、平均差、標(biāo)準(zhǔn)差。極差為距離最遠(yuǎn)的兩個(gè)點(diǎn)之間的距離,在下面的收盤(pán)價(jià)表中,極差為11.67-10.12=1.55。極差體現(xiàn)了數(shù)據(jù)內(nèi)部最大的差異情況。

收盤(pán)價(jià)
10.12
10.22
10.38
11.67
10.61
10.44
10.38
10.7
10.85

但是極差大就代表數(shù)據(jù)離散程度高嗎?其實(shí)不一定,因?yàn)闃O差只關(guān)注了2個(gè)值,會(huì)受到個(gè)別因素干擾。為了能夠真正了解數(shù)據(jù)的離散程度,我們可以使用平均差。平均差代表一組數(shù)據(jù)與平均值差異的平均差異。平均差用數(shù)學(xué)公式表示為:|每個(gè)數(shù)據(jù)項(xiàng)-均值|的總和/數(shù)據(jù)項(xiàng)個(gè)數(shù)。早知道收盤(pán)價(jià)數(shù)據(jù)表中,我們可以計(jì)算出平均值為10.59,所以收盤(pán)價(jià)表的平均差可以用:|收盤(pán)價(jià)-10.59|的總和/9來(lái)計(jì)算(這里||指絕對(duì)值),最后可以算出平均差為0.32。我們可以看出,數(shù)據(jù)項(xiàng)與平均值差距越大,數(shù)據(jù)就會(huì)越分散,反之越集中。為了進(jìn)一步觀察數(shù)據(jù)的離散程度,我們給出收盤(pán)價(jià)與漲跌幅表格。可以看出,11.67為一個(gè)明顯的異常值。這個(gè)異常值的產(chǎn)生原因可能有很多,比如股東回購(gòu)、政策利好、供需失衡。對(duì)于事件驅(qū)動(dòng)型數(shù)據(jù),在樣本量較小時(shí),容易導(dǎo)致誤差。為了突出對(duì)于異常值的敏感程度,我們可以使用標(biāo)準(zhǔn)差來(lái)代替平均差。

收盤(pán)價(jià) 漲跌幅
10.12 0.00%
10.22 0.99%
10.38 1.57%
11.67 12.43%
10.61 -9.09%
10.44 -1.60%
10.38 -0.57%
10.7 3.08%
10.85 1.40%

標(biāo)準(zhǔn)差的公式和平均差很類似,為sqrt(|每個(gè)數(shù)據(jù)項(xiàng)-均值|^2的總和/數(shù)據(jù)項(xiàng)個(gè)數(shù))。這里我們可以看出,分母還是和數(shù)據(jù)項(xiàng)個(gè)數(shù)有關(guān),但分子變?yōu)椴钪灯椒降目偤?。分子的平方?xiàng)會(huì)放大數(shù)據(jù)的離散程度,所以標(biāo)準(zhǔn)差比平均差更有代表性。

分布形態(tài)

給定了數(shù)據(jù),我們用點(diǎn)、線、面的方式將數(shù)據(jù)呈現(xiàn)出來(lái)。假設(shè)我們需要統(tǒng)計(jì)與數(shù)據(jù)相關(guān)的工作中,企業(yè)對(duì)工作經(jīng)驗(yàn)的要求。我們可以將要求大致分成以下幾類:應(yīng)屆畢業(yè)生,經(jīng)驗(yàn)1年以下、經(jīng)驗(yàn)1-3年,經(jīng)驗(yàn)3-5年、經(jīng)驗(yàn)5-10年,和經(jīng)驗(yàn)不限。有了這樣一些類別,按照經(jīng)驗(yàn)要去年限,可以統(tǒng)計(jì)對(duì)應(yīng)職位數(shù)量的頻次。

經(jīng)驗(yàn) 頻數(shù)
經(jīng)驗(yàn)應(yīng)屆畢業(yè)生 1
經(jīng)驗(yàn)1年以下 1
經(jīng)驗(yàn)1-3年 101
經(jīng)驗(yàn)3-5年 240
經(jīng)驗(yàn)5-10年 77
經(jīng)驗(yàn)不限 26

我們畫(huà)出對(duì)應(yīng)的直方圖,就可以大致看出其分布。


image.png

得到了分布,我們可以將集中趨勢(shì)指標(biāo)和離散趨勢(shì)指標(biāo)對(duì)應(yīng)到分布圖中。分布圖的高度對(duì)應(yīng)數(shù)據(jù)的一般水平,可以使平均值、中位數(shù)、眾數(shù)。分布圖的寬度對(duì)應(yīng)了數(shù)據(jù)的離散程度。下圖展示了著名的正態(tài)分布:

image.png

可以看出,正態(tài)分布是一個(gè)對(duì)稱的、中心為平均值的分布。離中心0點(diǎn)距離不同倍數(shù)的標(biāo)準(zhǔn)差點(diǎn)可以將整個(gè)數(shù)據(jù)分布分成幾塊。比如(-2s,2s)中間區(qū)域占整個(gè)分布大約95%,這里s指標(biāo)準(zhǔn)差。

除了正態(tài)分布,還有左偏分布和右偏分布,下圖展示了一般情況下不同分布中平均值、中位數(shù)和眾數(shù)的大小關(guān)系。

image.png

異常值

在之前的平均值例子中,我們可以發(fā)現(xiàn)異常值對(duì)于一些統(tǒng)計(jì)指標(biāo)有一定的干擾。異常值是指與平均值偏差極大或極小的值,也可以稱之為離群點(diǎn)。如何通過(guò)科學(xué)的手段來(lái)識(shí)別異常值呢?主要的思路是觀察檢測(cè)值與整體數(shù)據(jù)的差異度。比如,我們可以計(jì)算與平均值的倍數(shù)。在下面的薪資表中,大部分的薪資與平均數(shù)的倍數(shù)是在0-1之間的,但最后一條數(shù)據(jù)的倍數(shù)為3.87,即可能為異常值。

工號(hào) 薪資 倍數(shù)
20200103 7,500 0.45
20200104 8,600 0.51
20200101 9,000 0.54
20200106 9,500 0.57
20200105 11,000 0.66
20200102 12,500 0.74
20200107 13,500 0.80
20200108 14,500 0.86
20200109 65,000 3.87

在實(shí)際分析中,異常值的判斷需要具體情況具體分析。舉一個(gè)例子,假設(shè)一個(gè)基金業(yè)績(jī)走勢(shì)在某一天突然下跌3%,能否立刻判斷當(dāng)天的值為異常呢?實(shí)際上,當(dāng)年基金進(jìn)行了分紅派息,導(dǎo)致公司的錢(qián)會(huì)相對(duì)變少,基金業(yè)績(jī)隨之下降,這屬于正常的現(xiàn)象。所以,不能簡(jiǎn)單通過(guò)數(shù)據(jù)直接判斷異常值。

異常值的產(chǎn)生是有幾種場(chǎng)景的。第一種是錯(cuò)誤記錄。比如說(shuō),數(shù)據(jù)在錄入的時(shí)候,由于人員的手誤(筆誤),導(dǎo)致數(shù)據(jù)錯(cuò)誤。在薪酬表例子中,錄入人員可能在數(shù)據(jù)前多輸入一個(gè)負(fù)號(hào),導(dǎo)致結(jié)果為負(fù)數(shù)。這種情況下,我們可以直接將負(fù)號(hào)刪除。第二種情況時(shí)錯(cuò)誤添加。比如在薪酬表中錯(cuò)誤地添加了一行為年齡=20的記錄,這樣的數(shù)據(jù)可以直接刪除。還有一種情況是異常值是正確并且真是存在。對(duì)于這樣的情況,我們需要判斷這樣的異常值是否反映特殊事件,例如之前提到的分紅的情況。在這種情況下,不能武斷通過(guò)數(shù)據(jù)反映的異常而得出結(jié)論,需要對(duì)應(yīng)不同的特殊事件,對(duì)判斷結(jié)果進(jìn)行修正。對(duì)于周期性數(shù)據(jù)(旅游業(yè)銷售數(shù)據(jù),某些月份的數(shù)據(jù)比其他月份普遍高),我們不需要進(jìn)行處理,因?yàn)閿?shù)據(jù)本身就是如此。

那么對(duì)于那些需要處理的異常值,有幾種方法可以參考。我們可以對(duì)錯(cuò)誤數(shù)據(jù)填充空值,或者填充樣本平均值。對(duì)于正確、真實(shí),需要做調(diào)整的數(shù)據(jù),可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。處理方式為數(shù)值 * 需要調(diào)整的比率。假設(shè)分紅數(shù)據(jù)導(dǎo)致當(dāng)天基金數(shù)據(jù)下降3%,我們可以將當(dāng)天收盤(pán)價(jià) * (1+0.03),之后再做統(tǒng)計(jì)時(shí)是基于調(diào)整后的數(shù)據(jù)進(jìn)行的。

資料分析流程

主要包括一下流程

  • 目標(biāo)確定
  • 數(shù)據(jù)獲取
  • 數(shù)據(jù)清洗
  • 數(shù)據(jù)整理
  • 描述分析
  • 洞察結(jié)論
  • 撰寫(xiě)報(bào)告

目標(biāo)確定

在這一步,需要明確解決什么問(wèn)題,達(dá)到什么目的。主要有兩個(gè)方向,一個(gè)是針對(duì)現(xiàn)有情況進(jìn)行分析(描述型分析),第二類是基于現(xiàn)狀對(duì)未來(lái)進(jìn)行預(yù)測(cè)(預(yù)測(cè)型分析)。

數(shù)據(jù)獲取

包含兩個(gè)部分:(1)字段設(shè)計(jì),(2)數(shù)據(jù)提取。

假設(shè)我們現(xiàn)在分析銷售額數(shù)據(jù),對(duì)于字段設(shè)計(jì),基礎(chǔ)的指標(biāo)有平均銷售額、銷售總額、增減幅度。這些指標(biāo)在數(shù)據(jù)表中實(shí)際上并不存在。所以我們需要對(duì)指標(biāo)進(jìn)行拆分,得到基礎(chǔ)數(shù)據(jù),比如訂單號(hào)、交易日期、交易金額。我們可以根據(jù)基礎(chǔ)數(shù)據(jù)計(jì)算得到指標(biāo)型數(shù)據(jù)。針對(duì)字段,我們應(yīng)該如何提取數(shù)據(jù)呢?小企業(yè)會(huì)采取銷售管理軟件進(jìn)行數(shù)據(jù)導(dǎo)入導(dǎo)出。對(duì)于互聯(lián)網(wǎng)企業(yè),大部分業(yè)務(wù)是在線上完成,所以會(huì)使用SQL從數(shù)據(jù)庫(kù)中提取。

數(shù)據(jù)清洗

在獲取數(shù)據(jù)之后,為了保證數(shù)據(jù)的可用性,我們需要對(duì)數(shù)據(jù)進(jìn)行清洗,否則之后的計(jì)算統(tǒng)計(jì)結(jié)果可能是錯(cuò)誤的。數(shù)據(jù)清洗主要針對(duì)4類情況:(1)異常值,(2)空白值,(3)無(wú)效值,(4)重復(fù)值。對(duì)于異常值的識(shí)別、判斷和處理,我們之前已經(jīng)提到。對(duì)于空白值、無(wú)效值、重復(fù)值,我們可以對(duì)其進(jìn)行修正、平均值填補(bǔ)、或刪除。

數(shù)據(jù)整理

在數(shù)據(jù)清理之后,我們需要對(duì)數(shù)據(jù)進(jìn)行整理,格式化和指標(biāo)計(jì)算。格式化處理可能包括對(duì)日期的處理、行列的格式化,最終生成一個(gè)二維表。同時(shí),我們也會(huì)對(duì)一些指標(biāo)進(jìn)行計(jì)算,比如平均值、總額等。

描述分析

對(duì)于整理后的數(shù)據(jù),我們可以進(jìn)行挖掘、描述分析。描述分析包含對(duì)數(shù)據(jù)的描述和指標(biāo)統(tǒng)計(jì)的描述。數(shù)據(jù)的描述指的是對(duì)數(shù)據(jù)的基本情況進(jìn)行描述,比如數(shù)據(jù)總數(shù)、時(shí)間跨度、數(shù)據(jù)來(lái)源等。對(duì)于指標(biāo)統(tǒng)計(jì),首先要分析實(shí)際情況的數(shù)據(jù)指標(biāo)(比如網(wǎng)站流量設(shè)計(jì)網(wǎng)頁(yè)跳轉(zhuǎn)率,每個(gè)網(wǎng)頁(yè)的登錄率;用戶的轉(zhuǎn)化需要計(jì)算用戶注冊(cè)率,用戶轉(zhuǎn)化率,用戶購(gòu)買(mǎi)率,用戶活躍率等)。針對(duì)這些指標(biāo),有4類主要的描述分析場(chǎng)景:變化、分布、對(duì)比、預(yù)測(cè)。變化指的是隨著時(shí)間變動(dòng)而增加(近期銷售額表現(xiàn))。分布指的是不同層次上的表現(xiàn)(地域分布、人群分布、內(nèi)容分布、點(diǎn)擊量分布)。對(duì)比指的是數(shù)據(jù)項(xiàng)之間的比較(產(chǎn)品線對(duì)比、用戶數(shù)對(duì)比)。預(yù)測(cè)指的是根據(jù)現(xiàn)有的增減幅度預(yù)測(cè)未來(lái)數(shù)據(jù)變化。

洞察結(jié)論

在進(jìn)行分析之后,我們可以得到相應(yīng)的結(jié)論。這是數(shù)據(jù)報(bào)告的核心,可以體現(xiàn)分析能力。

撰寫(xiě)報(bào)告

數(shù)據(jù)報(bào)告主要包含以下幾個(gè)部分:報(bào)告背景(業(yè)務(wù)現(xiàn)狀),報(bào)告目的(解決什么問(wèn)題),數(shù)據(jù)基本情況(數(shù)據(jù)可信度),可視化圖表(數(shù)據(jù)的可理解程度),策略選擇(提出解決方案)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容