資料分析-導(dǎo)論
隨著互聯(lián)網(wǎng)的發(fā)展,任何崗位都離不開(kāi)資料分析。隨著互聯(lián)網(wǎng)的發(fā)展,每天都在產(chǎn)生大量的數(shù)據(jù)。同時(shí),這些數(shù)據(jù)也會(huì)反向產(chǎn)生價(jià)值。比如,用戶在互聯(lián)網(wǎng)上購(gòu)物時(shí),可以通過(guò)評(píng)價(jià),購(gòu)買(mǎi)量,和價(jià)格來(lái)選擇一件商品。反之,網(wǎng)絡(luò)商家也可以通過(guò)用戶行為,進(jìn)一步挑選什么樣的商品更好賣(mài),如何對(duì)商品進(jìn)行定價(jià),抑或如何對(duì)商品進(jìn)行宣傳推廣。通過(guò)這些例子,我們可以看到資料分析在工作中的重要性。那么,資料分析的具體技能包括哪些呢?
資料分析的技能可以大致分為兩類:硬技能和軟技能。硬技能是指硬性資料分析和工具的使用,比如Excel,SQL,Tableau,Python處理大規(guī)模數(shù)據(jù)。軟技能是指對(duì)事物的認(rèn)知方式和經(jīng)驗(yàn)積累,即為透過(guò)現(xiàn)象,能否看清楚導(dǎo)致這一現(xiàn)象的本質(zhì)?對(duì)于同一組數(shù)據(jù),不同層次的人的解讀會(huì)大不相同。這時(shí)候,經(jīng)驗(yàn)的積累會(huì)對(duì)未來(lái)的決策產(chǎn)生積極影響,犯錯(cuò)誤的概率會(huì)對(duì)應(yīng)減少。
互聯(lián)網(wǎng)資料分析
互聯(lián)網(wǎng)通常指信息傳輸?shù)囊环N載體,通過(guò)電子化的方式留存信息,與傳統(tǒng)線下基于實(shí)物的傳輸方式相對(duì)應(yīng)。比如,紙幣和數(shù)字貨幣,他們的作用都是用來(lái)交易,但交易的方式是不同的。紙幣是線下、實(shí)物的交易載體,數(shù)字貨幣是線上的,以一種虛擬的形式進(jìn)行交易。紙幣和數(shù)字貨幣通常是等值的,只是交易方式有所不同。
資料分析是指對(duì)數(shù)據(jù)的規(guī)律進(jìn)行總結(jié)、提煉,從而進(jìn)行最后的決策。比如,在研究數(shù)據(jù)分析崗位人才需求時(shí),首先我們需要獲取招聘信息,基于數(shù)據(jù)對(duì)職位數(shù)進(jìn)行統(tǒng)計(jì)。為了進(jìn)行同類別比較,還需要統(tǒng)計(jì)其他崗位的信息,從而確定數(shù)據(jù)分析崗位在整個(gè)市場(chǎng)中的地位。由于這些資料都是從互聯(lián)網(wǎng)獲取的,所以整個(gè)流程是基于互聯(lián)網(wǎng)的資料分析。
認(rèn)識(shí)數(shù)據(jù)
數(shù)據(jù)是對(duì)事物的描述和記錄。根據(jù)數(shù)據(jù)的計(jì)量層次,我們可以進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分類。對(duì)于以下這一組數(shù)據(jù):黃瓜、番茄、森林、書(shū),他們都屬于文字描述類數(shù)據(jù),我們無(wú)法對(duì)其進(jìn)行排序、比較,因此他們的計(jì)量層次比較低。對(duì)于數(shù)值型數(shù)據(jù):1,2,3,4,5,這些數(shù)據(jù)可以進(jìn)行排序、計(jì)算差異、做加減乘除、做比較,因此他們的計(jì)量層次比較高。
下面我們來(lái)具體看數(shù)據(jù)的分類。
定類數(shù)據(jù) (Nominal Data)
舉例來(lái)說(shuō),
- 顏色: 紅色、白色、黃色
- 性別:男性、女性
- 職位:產(chǎn)品經(jīng)理、運(yùn)營(yíng)、市場(chǎng)營(yíng)銷
這些數(shù)據(jù)有什么特點(diǎn)呢?我們可以發(fā)現(xiàn),這幾組數(shù)據(jù)都是按照類別屬性進(jìn)行分類,各個(gè)類別之間是平等并列的關(guān)系。這種數(shù)據(jù)不帶有數(shù)量的信息,并且不能在各個(gè)類別之間進(jìn)行排序。對(duì)于這種數(shù)據(jù),主要的數(shù)值計(jì)算是計(jì)算其每一類別中的項(xiàng)目的頻數(shù)和頻率。
定序數(shù)據(jù) (Ordinal Data)
舉例來(lái)說(shuō),
- 受教育程度:小學(xué)、初中、高中、大學(xué)、碩士、博士
- 季度:春、夏、秋、冬
- 登記:合格、良好、優(yōu)秀
可以觀察到,定序數(shù)據(jù)和定類數(shù)據(jù)有相似的地方,就是都是文字描述型數(shù)據(jù)。不同的是,定序數(shù)據(jù)是可以進(jìn)行排序、比較優(yōu)劣。在使用過(guò)程中,可以通過(guò)將編碼進(jìn)行排序,表示之間的高低差異。
定距數(shù)據(jù)(Interval Data)
舉例來(lái)說(shuō):
- 溫度:20°,50°,100°
- 成績(jī): 50, 65, 70, 100
- 年齡:8, 25, 40, 60
定距數(shù)據(jù)和前兩種數(shù)據(jù)相比,是數(shù)值型數(shù)據(jù),它具有一定單位的實(shí)際測(cè)量值。定距數(shù)據(jù)的準(zhǔn)確性比定類和定序數(shù)據(jù)更高。通過(guò)定距數(shù)據(jù),我們可以計(jì)算出各個(gè)變量之間的實(shí)際差距(加、減)
定比數(shù)據(jù)(Ratio Data)
舉例來(lái)說(shuō):
- 利潤(rùn):10萬(wàn),20萬(wàn),30萬(wàn)
- 薪酬:3000,6000, 9000, 12000
- 用戶數(shù):210, 3500, 49000
相比定距數(shù)據(jù),定比數(shù)據(jù)不但可以進(jìn)行大小比較、排序、加減法,還可以進(jìn)行乘除運(yùn)算。在定距尺度中,0表示數(shù)值;在定比尺度中,0表示“沒(méi)有”。定比數(shù)據(jù)中存在絕對(duì)零點(diǎn),而定距數(shù)據(jù)不存在。有了絕對(duì)零點(diǎn),即可進(jìn)行乘除運(yùn)算。
總結(jié)
綜上來(lái)看,我們可以將數(shù)據(jù)分為定性、定量數(shù)據(jù)。定性數(shù)據(jù)是一組表示事務(wù)性質(zhì)、規(guī)定實(shí)物類別的文字表屬性數(shù)據(jù),包括定類數(shù)據(jù)和定序數(shù)據(jù)。定量數(shù)據(jù)是指以數(shù)量形式存在著的屬性,并因此可以對(duì)其進(jìn)行測(cè)量,包括定距數(shù)據(jù)和定比數(shù)據(jù)。
統(tǒng)計(jì)指標(biāo)
總體指標(biāo)、相對(duì)指標(biāo)
統(tǒng)計(jì)指標(biāo)是體現(xiàn)總體數(shù)量特征的概念和數(shù)值,根據(jù)分析目的不同,統(tǒng)計(jì)指標(biāo)會(huì)隨之變化。在進(jìn)行房屋設(shè)計(jì)相關(guān)的分析時(shí),統(tǒng)計(jì)指標(biāo)可以涉及到建筑面積、竣工面積、技術(shù)裝備率。在進(jìn)行提升用戶轉(zhuǎn)化率分析時(shí),涉及網(wǎng)站瀏覽量、著陸頁(yè)、跳失率的指標(biāo)。在選擇理財(cái)產(chǎn)品的時(shí)候,往期業(yè)績(jī),風(fēng)險(xiǎn)系數(shù),年化收益等都會(huì)成為統(tǒng)計(jì)指標(biāo)。
統(tǒng)計(jì)指標(biāo)根據(jù)它體現(xiàn)的內(nèi)容可以分為總體和相對(duì)兩大類別??偭恐笜?biāo)是在特定條件下的總規(guī)模、總水平或工作總量。比如,在計(jì)算GDP(國(guó)內(nèi)生產(chǎn)總值)、總?cè)丝凇N售總額時(shí),會(huì)用到總量指標(biāo)(總和SUM)。如果考慮總體的平均水平,可以考慮平均指標(biāo),也稱作集中趨勢(shì)指標(biāo),平均數(shù)是其中一種指標(biāo)。
和總體指標(biāo)相對(duì)應(yīng)的相對(duì)指標(biāo),是兩個(gè)有聯(lián)系的現(xiàn)象數(shù)值相比得到的比率。它描述的是相對(duì)關(guān)系,而不是總體情況。
下面的表格給出了1-12月的銷售額情況和占比。經(jīng)過(guò)計(jì)算,銷售總量為78,000元,占比即為各個(gè)數(shù)據(jù)/總量指標(biāo),占比就是比例,反映出各個(gè)部分占總體的比重,反映了總體的構(gòu)成和比例。如果想要觀察每月相對(duì)的比例,可以將每月的數(shù)據(jù)/公約數(shù),得到1:2:3:...:10:11:12,即為比率,比率是數(shù)據(jù)項(xiàng):數(shù)據(jù)項(xiàng)之間的比較,反映了相對(duì)關(guān)系??梢钥闯?,年末/年初=12,可以突出上升、增長(zhǎng)幅度。在銷售分析過(guò)程中,更多關(guān)注的是增長(zhǎng)率,環(huán)比、同比。比如,我們想要了解最近2個(gè)月的銷售情況,是增長(zhǎng)還是下跌?以11月和12月的數(shù)據(jù)為例,用 (本期數(shù) - 上期數(shù))/上期數(shù) * 100%
得到環(huán)比。具體的 (12000 - 11000)/11000=9.09%,為當(dāng)前12月周期環(huán)比增長(zhǎng)率。
| 月份 | 銷售額 | 占比 |
|---|---|---|
| 1月 | 1,000 | 1.28% |
| 2月 | 2,000 | 2.56% |
| 3月 | 3,000 | 3.85% |
| 4月 | 4,000 | 5.13% |
| 5月 | 5,000 | 6.41% |
| 6月 | 6,000 | 7.69% |
| 7月 | 7,000 | 8.97% |
| 8月 | 8,000 | 10.26% |
| 9月 | 9,000 | 11.54% |
| 10月 | 10,000 | 12.82% |
| 11月 | 11,000 | 14.10% |
| 12月 | 12,000 | 15.38% |
如果我們想要了解長(zhǎng)期的增長(zhǎng)率,比如近2年來(lái)的銷售表現(xiàn),可以使用同比增長(zhǎng)率,即為(本期數(shù) - 同期數(shù))/同期數(shù) * 100%。
在以下例子中,可以算出12月份的同比增長(zhǎng)率:(3450 - 2300) / 2300 = 50%。
| 第一年 | 銷售額 | 第二年 | 銷售額 |
|---|---|---|---|
| 1月 | 1,200 | 1月 | 1,800 |
| 2月 | 1,300 | 2月 | 1,950 |
| 3月 | 1,400 | 3月 | 2,100 |
| 4月 | 1,500 | 4月 | 2,250 |
| 5月 | 1,600 | 5月 | 2,400 |
| 6月 | 1,700 | 6月 | 2,550 |
| 7月 | 1,800 | 7月 | 2,700 |
| 8月 | 1,900 | 8月 | 2,850 |
| 9月 | 2,000 | 9月 | 3,000 |
| 10月 | 2,100 | 10月 | 3,150 |
| 11月 | 2,200 | 11月 | 3,300 |
| 12月 | 2,300 | 12月 | 3,450 |
綜上,環(huán)比更注重短期的漲幅表現(xiàn),而同比更注重長(zhǎng)期的表現(xiàn)。
集中趨勢(shì)指標(biāo)
在分析過(guò)程中,我們經(jīng)常遇到這樣一些問(wèn)題:那個(gè)營(yíng)銷渠道引流效果最好?什么崗位的薪資待遇最高?哪一個(gè)產(chǎn)品最受歡迎?一個(gè)簡(jiǎn)單的方法就是利用平均值來(lái)描述不同選擇的平均水平如何,以便得到初步結(jié)論。平均值就是集中趨勢(shì)指標(biāo)的一種。集中趨勢(shì)指標(biāo)體現(xiàn)的是數(shù)據(jù)的一般水平的指標(biāo),可以幫助我們快速了解樣本數(shù)據(jù)的概況,最常用的集中趨勢(shì)指標(biāo)就是平均值。平均值的計(jì)算非常簡(jiǎn)單,即為所有數(shù)據(jù)相加/數(shù)據(jù)的個(gè)數(shù)。但平均值極為容易受到異常值的影響而變得失去意義,所以,在利用平均值之前,可以去除異常值,這樣可以更準(zhǔn)確的得到指標(biāo)。當(dāng)然,我們可以利用另外一個(gè)集中趨勢(shì)指標(biāo),中位數(shù)。
中位數(shù)是按照順序排列后居于中間位置的數(shù)。如果數(shù)據(jù)的個(gè)數(shù)為奇數(shù)時(shí),中位數(shù)是位于(n+1)/2位置的數(shù);如果是偶數(shù)時(shí),中位數(shù)是最中間的兩位數(shù)相加/2。在以下這個(gè)表格中,中位數(shù)是11000??梢钥闯?,11000相比收到65,000影響的平均數(shù)更具有代表性。
| 工號(hào) | 薪資 |
|---|---|
| 20200103 | 7,500 |
| 20200104 | 8,600 |
| 20200101 | 9,000 |
| 20200106 | 9,500 |
| 20200105 | 11,000 |
| 20200102 | 12,500 |
| 20200107 | 13,500 |
| 20200108 | 14,500 |
| 20200109 | 65,000 |
另外一個(gè)集中趨勢(shì)指標(biāo)是眾數(shù),是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。眾數(shù)反映的是局部特征和密集度。注意,眾數(shù)是可以有多個(gè)的。
離散趨勢(shì)指標(biāo)
離散趨勢(shì)指標(biāo)是體現(xiàn)內(nèi)部差異度的指標(biāo),主要有三類可以表示:極差、平均差、標(biāo)準(zhǔn)差。極差為距離最遠(yuǎn)的兩個(gè)點(diǎn)之間的距離,在下面的收盤(pán)價(jià)表中,極差為11.67-10.12=1.55。極差體現(xiàn)了數(shù)據(jù)內(nèi)部最大的差異情況。
| 收盤(pán)價(jià) |
|---|
| 10.12 |
| 10.22 |
| 10.38 |
| 11.67 |
| 10.61 |
| 10.44 |
| 10.38 |
| 10.7 |
| 10.85 |
但是極差大就代表數(shù)據(jù)離散程度高嗎?其實(shí)不一定,因?yàn)闃O差只關(guān)注了2個(gè)值,會(huì)受到個(gè)別因素干擾。為了能夠真正了解數(shù)據(jù)的離散程度,我們可以使用平均差。平均差代表一組數(shù)據(jù)與平均值差異的平均差異。平均差用數(shù)學(xué)公式表示為:|每個(gè)數(shù)據(jù)項(xiàng)-均值|的總和/數(shù)據(jù)項(xiàng)個(gè)數(shù)。早知道收盤(pán)價(jià)數(shù)據(jù)表中,我們可以計(jì)算出平均值為10.59,所以收盤(pán)價(jià)表的平均差可以用:|收盤(pán)價(jià)-10.59|的總和/9來(lái)計(jì)算(這里||指絕對(duì)值),最后可以算出平均差為0.32。我們可以看出,數(shù)據(jù)項(xiàng)與平均值差距越大,數(shù)據(jù)就會(huì)越分散,反之越集中。為了進(jìn)一步觀察數(shù)據(jù)的離散程度,我們給出收盤(pán)價(jià)與漲跌幅表格。可以看出,11.67為一個(gè)明顯的異常值。這個(gè)異常值的產(chǎn)生原因可能有很多,比如股東回購(gòu)、政策利好、供需失衡。對(duì)于事件驅(qū)動(dòng)型數(shù)據(jù),在樣本量較小時(shí),容易導(dǎo)致誤差。為了突出對(duì)于異常值的敏感程度,我們可以使用標(biāo)準(zhǔn)差來(lái)代替平均差。
| 收盤(pán)價(jià) | 漲跌幅 |
|---|---|
| 10.12 | 0.00% |
| 10.22 | 0.99% |
| 10.38 | 1.57% |
| 11.67 | 12.43% |
| 10.61 | -9.09% |
| 10.44 | -1.60% |
| 10.38 | -0.57% |
| 10.7 | 3.08% |
| 10.85 | 1.40% |
標(biāo)準(zhǔn)差的公式和平均差很類似,為sqrt(|每個(gè)數(shù)據(jù)項(xiàng)-均值|^2的總和/數(shù)據(jù)項(xiàng)個(gè)數(shù))。這里我們可以看出,分母還是和數(shù)據(jù)項(xiàng)個(gè)數(shù)有關(guān),但分子變?yōu)椴钪灯椒降目偤?。分子的平方?xiàng)會(huì)放大數(shù)據(jù)的離散程度,所以標(biāo)準(zhǔn)差比平均差更有代表性。
分布形態(tài)
給定了數(shù)據(jù),我們用點(diǎn)、線、面的方式將數(shù)據(jù)呈現(xiàn)出來(lái)。假設(shè)我們需要統(tǒng)計(jì)與數(shù)據(jù)相關(guān)的工作中,企業(yè)對(duì)工作經(jīng)驗(yàn)的要求。我們可以將要求大致分成以下幾類:應(yīng)屆畢業(yè)生,經(jīng)驗(yàn)1年以下、經(jīng)驗(yàn)1-3年,經(jīng)驗(yàn)3-5年、經(jīng)驗(yàn)5-10年,和經(jīng)驗(yàn)不限。有了這樣一些類別,按照經(jīng)驗(yàn)要去年限,可以統(tǒng)計(jì)對(duì)應(yīng)職位數(shù)量的頻次。
| 經(jīng)驗(yàn) | 頻數(shù) |
|---|---|
| 經(jīng)驗(yàn)應(yīng)屆畢業(yè)生 | 1 |
| 經(jīng)驗(yàn)1年以下 | 1 |
| 經(jīng)驗(yàn)1-3年 | 101 |
| 經(jīng)驗(yàn)3-5年 | 240 |
| 經(jīng)驗(yàn)5-10年 | 77 |
| 經(jīng)驗(yàn)不限 | 26 |
我們畫(huà)出對(duì)應(yīng)的直方圖,就可以大致看出其分布。

得到了分布,我們可以將集中趨勢(shì)指標(biāo)和離散趨勢(shì)指標(biāo)對(duì)應(yīng)到分布圖中。分布圖的高度對(duì)應(yīng)數(shù)據(jù)的一般水平,可以使平均值、中位數(shù)、眾數(shù)。分布圖的寬度對(duì)應(yīng)了數(shù)據(jù)的離散程度。下圖展示了著名的正態(tài)分布:

可以看出,正態(tài)分布是一個(gè)對(duì)稱的、中心為平均值的分布。離中心0點(diǎn)距離不同倍數(shù)的標(biāo)準(zhǔn)差點(diǎn)可以將整個(gè)數(shù)據(jù)分布分成幾塊。比如(-2s,2s)中間區(qū)域占整個(gè)分布大約95%,這里s指標(biāo)準(zhǔn)差。
除了正態(tài)分布,還有左偏分布和右偏分布,下圖展示了一般情況下不同分布中平均值、中位數(shù)和眾數(shù)的大小關(guān)系。

異常值
在之前的平均值例子中,我們可以發(fā)現(xiàn)異常值對(duì)于一些統(tǒng)計(jì)指標(biāo)有一定的干擾。異常值是指與平均值偏差極大或極小的值,也可以稱之為離群點(diǎn)。如何通過(guò)科學(xué)的手段來(lái)識(shí)別異常值呢?主要的思路是觀察檢測(cè)值與整體數(shù)據(jù)的差異度。比如,我們可以計(jì)算與平均值的倍數(shù)。在下面的薪資表中,大部分的薪資與平均數(shù)的倍數(shù)是在0-1之間的,但最后一條數(shù)據(jù)的倍數(shù)為3.87,即可能為異常值。
| 工號(hào) | 薪資 | 倍數(shù) |
|---|---|---|
| 20200103 | 7,500 | 0.45 |
| 20200104 | 8,600 | 0.51 |
| 20200101 | 9,000 | 0.54 |
| 20200106 | 9,500 | 0.57 |
| 20200105 | 11,000 | 0.66 |
| 20200102 | 12,500 | 0.74 |
| 20200107 | 13,500 | 0.80 |
| 20200108 | 14,500 | 0.86 |
| 20200109 | 65,000 | 3.87 |
在實(shí)際分析中,異常值的判斷需要具體情況具體分析。舉一個(gè)例子,假設(shè)一個(gè)基金業(yè)績(jī)走勢(shì)在某一天突然下跌3%,能否立刻判斷當(dāng)天的值為異常呢?實(shí)際上,當(dāng)年基金進(jìn)行了分紅派息,導(dǎo)致公司的錢(qián)會(huì)相對(duì)變少,基金業(yè)績(jī)隨之下降,這屬于正常的現(xiàn)象。所以,不能簡(jiǎn)單通過(guò)數(shù)據(jù)直接判斷異常值。
異常值的產(chǎn)生是有幾種場(chǎng)景的。第一種是錯(cuò)誤記錄。比如說(shuō),數(shù)據(jù)在錄入的時(shí)候,由于人員的手誤(筆誤),導(dǎo)致數(shù)據(jù)錯(cuò)誤。在薪酬表例子中,錄入人員可能在數(shù)據(jù)前多輸入一個(gè)負(fù)號(hào),導(dǎo)致結(jié)果為負(fù)數(shù)。這種情況下,我們可以直接將負(fù)號(hào)刪除。第二種情況時(shí)錯(cuò)誤添加。比如在薪酬表中錯(cuò)誤地添加了一行為年齡=20的記錄,這樣的數(shù)據(jù)可以直接刪除。還有一種情況是異常值是正確并且真是存在。對(duì)于這樣的情況,我們需要判斷這樣的異常值是否反映特殊事件,例如之前提到的分紅的情況。在這種情況下,不能武斷通過(guò)數(shù)據(jù)反映的異常而得出結(jié)論,需要對(duì)應(yīng)不同的特殊事件,對(duì)判斷結(jié)果進(jìn)行修正。對(duì)于周期性數(shù)據(jù)(旅游業(yè)銷售數(shù)據(jù),某些月份的數(shù)據(jù)比其他月份普遍高),我們不需要進(jìn)行處理,因?yàn)閿?shù)據(jù)本身就是如此。
那么對(duì)于那些需要處理的異常值,有幾種方法可以參考。我們可以對(duì)錯(cuò)誤數(shù)據(jù)填充空值,或者填充樣本平均值。對(duì)于正確、真實(shí),需要做調(diào)整的數(shù)據(jù),可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。處理方式為數(shù)值 * 需要調(diào)整的比率。假設(shè)分紅數(shù)據(jù)導(dǎo)致當(dāng)天基金數(shù)據(jù)下降3%,我們可以將當(dāng)天收盤(pán)價(jià) * (1+0.03),之后再做統(tǒng)計(jì)時(shí)是基于調(diào)整后的數(shù)據(jù)進(jìn)行的。
資料分析流程
主要包括一下流程
- 目標(biāo)確定
- 數(shù)據(jù)獲取
- 數(shù)據(jù)清洗
- 數(shù)據(jù)整理
- 描述分析
- 洞察結(jié)論
- 撰寫(xiě)報(bào)告
目標(biāo)確定
在這一步,需要明確解決什么問(wèn)題,達(dá)到什么目的。主要有兩個(gè)方向,一個(gè)是針對(duì)現(xiàn)有情況進(jìn)行分析(描述型分析),第二類是基于現(xiàn)狀對(duì)未來(lái)進(jìn)行預(yù)測(cè)(預(yù)測(cè)型分析)。
數(shù)據(jù)獲取
包含兩個(gè)部分:(1)字段設(shè)計(jì),(2)數(shù)據(jù)提取。
假設(shè)我們現(xiàn)在分析銷售額數(shù)據(jù),對(duì)于字段設(shè)計(jì),基礎(chǔ)的指標(biāo)有平均銷售額、銷售總額、增減幅度。這些指標(biāo)在數(shù)據(jù)表中實(shí)際上并不存在。所以我們需要對(duì)指標(biāo)進(jìn)行拆分,得到基礎(chǔ)數(shù)據(jù),比如訂單號(hào)、交易日期、交易金額。我們可以根據(jù)基礎(chǔ)數(shù)據(jù)計(jì)算得到指標(biāo)型數(shù)據(jù)。針對(duì)字段,我們應(yīng)該如何提取數(shù)據(jù)呢?小企業(yè)會(huì)采取銷售管理軟件進(jìn)行數(shù)據(jù)導(dǎo)入導(dǎo)出。對(duì)于互聯(lián)網(wǎng)企業(yè),大部分業(yè)務(wù)是在線上完成,所以會(huì)使用SQL從數(shù)據(jù)庫(kù)中提取。
數(shù)據(jù)清洗
在獲取數(shù)據(jù)之后,為了保證數(shù)據(jù)的可用性,我們需要對(duì)數(shù)據(jù)進(jìn)行清洗,否則之后的計(jì)算統(tǒng)計(jì)結(jié)果可能是錯(cuò)誤的。數(shù)據(jù)清洗主要針對(duì)4類情況:(1)異常值,(2)空白值,(3)無(wú)效值,(4)重復(fù)值。對(duì)于異常值的識(shí)別、判斷和處理,我們之前已經(jīng)提到。對(duì)于空白值、無(wú)效值、重復(fù)值,我們可以對(duì)其進(jìn)行修正、平均值填補(bǔ)、或刪除。
數(shù)據(jù)整理
在數(shù)據(jù)清理之后,我們需要對(duì)數(shù)據(jù)進(jìn)行整理,格式化和指標(biāo)計(jì)算。格式化處理可能包括對(duì)日期的處理、行列的格式化,最終生成一個(gè)二維表。同時(shí),我們也會(huì)對(duì)一些指標(biāo)進(jìn)行計(jì)算,比如平均值、總額等。
描述分析
對(duì)于整理后的數(shù)據(jù),我們可以進(jìn)行挖掘、描述分析。描述分析包含對(duì)數(shù)據(jù)的描述和指標(biāo)統(tǒng)計(jì)的描述。數(shù)據(jù)的描述指的是對(duì)數(shù)據(jù)的基本情況進(jìn)行描述,比如數(shù)據(jù)總數(shù)、時(shí)間跨度、數(shù)據(jù)來(lái)源等。對(duì)于指標(biāo)統(tǒng)計(jì),首先要分析實(shí)際情況的數(shù)據(jù)指標(biāo)(比如網(wǎng)站流量設(shè)計(jì)網(wǎng)頁(yè)跳轉(zhuǎn)率,每個(gè)網(wǎng)頁(yè)的登錄率;用戶的轉(zhuǎn)化需要計(jì)算用戶注冊(cè)率,用戶轉(zhuǎn)化率,用戶購(gòu)買(mǎi)率,用戶活躍率等)。針對(duì)這些指標(biāo),有4類主要的描述分析場(chǎng)景:變化、分布、對(duì)比、預(yù)測(cè)。變化指的是隨著時(shí)間變動(dòng)而增加(近期銷售額表現(xiàn))。分布指的是不同層次上的表現(xiàn)(地域分布、人群分布、內(nèi)容分布、點(diǎn)擊量分布)。對(duì)比指的是數(shù)據(jù)項(xiàng)之間的比較(產(chǎn)品線對(duì)比、用戶數(shù)對(duì)比)。預(yù)測(cè)指的是根據(jù)現(xiàn)有的增減幅度預(yù)測(cè)未來(lái)數(shù)據(jù)變化。
洞察結(jié)論
在進(jìn)行分析之后,我們可以得到相應(yīng)的結(jié)論。這是數(shù)據(jù)報(bào)告的核心,可以體現(xiàn)分析能力。
撰寫(xiě)報(bào)告
數(shù)據(jù)報(bào)告主要包含以下幾個(gè)部分:報(bào)告背景(業(yè)務(wù)現(xiàn)狀),報(bào)告目的(解決什么問(wèn)題),數(shù)據(jù)基本情況(數(shù)據(jù)可信度),可視化圖表(數(shù)據(jù)的可理解程度),策略選擇(提出解決方案)。