大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為企業(yè)的核心資源或者戰(zhàn)略資源,各家企業(yè)都在招兵買馬招攬數(shù)據(jù)專家,探索數(shù)據(jù)價(jià)值。一時(shí)間數(shù)據(jù)分析師、數(shù)據(jù)建模師、數(shù)據(jù)科學(xué)家身價(jià)倍漲,數(shù)據(jù)價(jià)值越來越被人們所重視。
數(shù)據(jù)價(jià)值可以在企業(yè)各個(gè)環(huán)節(jié)中得到發(fā)揮,大到企業(yè)如何做戰(zhàn)略決策,研發(fā)什么產(chǎn)品,如何營銷,小到產(chǎn)品哪個(gè)功能點(diǎn)要優(yōu)化,廣告UI要使用哪個(gè)配色,數(shù)據(jù)都能發(fā)揮指導(dǎo)決策作用。
但數(shù)據(jù)價(jià)值有賴于數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家的挖掘,一名數(shù)據(jù)小白和一名數(shù)據(jù)科學(xué)家,能看到的數(shù)據(jù)價(jià)值可謂云泥之別。那很厲害的數(shù)據(jù)分析師到底是什么樣的呢,筆者提煉了三個(gè)要點(diǎn):懂?dāng)?shù)據(jù)、懂業(yè)務(wù)、懂工具。
1.懂?dāng)?shù)據(jù)
1)數(shù)據(jù)從哪來
起初數(shù)據(jù)主要來源于線下,通過線下一筆筆訂單、借債、資產(chǎn)由人工統(tǒng)計(jì),形成每月財(cái)務(wù)報(bào)表。要了解企業(yè)整體業(yè)務(wù)情況要等到出具月度財(cái)務(wù)報(bào)表后?;ヂ?lián)網(wǎng)發(fā)展將數(shù)據(jù)匯聚到線上后,數(shù)據(jù)實(shí)時(shí)性大大增強(qiáng)。但數(shù)據(jù)源仍然存在數(shù)據(jù)不夠豐富,數(shù)據(jù)源無法全面打通對(duì)接的問題。
數(shù)據(jù)來源復(fù)雜,有些來源于業(yè)務(wù)部門,有些來源于財(cái)務(wù)部門,有些來源于系統(tǒng)采集,有些來源于第三方合作,在企業(yè)發(fā)展的不同階段,企業(yè)會(huì)根據(jù)數(shù)據(jù)需求急迫度和重要度,先后建立不同的數(shù)據(jù)系統(tǒng)獲取數(shù)據(jù),之后再根據(jù)需求在系統(tǒng)間進(jìn)行數(shù)據(jù)對(duì)接,方便數(shù)據(jù)調(diào)用。所以,數(shù)據(jù)分析師首先要了解有哪些數(shù)據(jù)系統(tǒng),哪些數(shù)據(jù)指標(biāo),指標(biāo)含義,不同數(shù)據(jù)系統(tǒng)數(shù)據(jù)指標(biāo)含義是否一致,是否采用同一口徑。
要摸清這些數(shù)據(jù)并不容易。一個(gè)系統(tǒng)中可能有上百、上千個(gè)指標(biāo)以及網(wǎng)狀的錯(cuò)綜復(fù)雜的指標(biāo)關(guān)系。
嫻熟的數(shù)據(jù)分析師對(duì)數(shù)據(jù)指標(biāo)掌握能達(dá)到這種程度:不僅詢問常用指標(biāo),即使是很少使用的指標(biāo),以及通過加工計(jì)算的間接指標(biāo),他都能很快告訴你:在哪個(gè)系統(tǒng)哪個(gè)模塊,用哪幾個(gè)指標(biāo)加工計(jì)算得出。這遠(yuǎn)非朝夕功夫。
2)數(shù)據(jù)是什么
當(dāng)?shù)弥沂菙?shù)據(jù)分析師后,他們問我的第一個(gè)問題通常是:你每天看數(shù)據(jù),頭不頭疼?
在外行眼里,數(shù)據(jù)就是一堆羅列起來的數(shù)字,每天盯著看不出意義的數(shù)字看來看去,自然要看暈,看頭疼。但內(nèi)行心里都有答案:我每天看數(shù)據(jù)看的很爽很明白啊。
為什么? ——因?yàn)?/b>數(shù)據(jù)就是業(yè)務(wù)情況的編碼,數(shù)據(jù)庫就是層層業(yè)務(wù)關(guān)系組成的全景圖。外行看數(shù)據(jù)就像看摩斯密碼,而你受過訓(xùn)練,你看到的是明文翻譯。
數(shù)據(jù)分析師就是數(shù)據(jù)語言的翻譯官。既然是翻譯官,就要對(duì)翻譯內(nèi)容負(fù)責(zé):翻譯的原文是否準(zhǔn)確無誤,原文要表達(dá)什么意思,翻譯是直譯還是意譯。數(shù)據(jù)分析師就需要對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé):數(shù)據(jù)源是否準(zhǔn)確,數(shù)據(jù)從哪個(gè)系統(tǒng)流轉(zhuǎn)過來,數(shù)據(jù)為什么感覺明顯不對(duì)。在開始數(shù)據(jù)處理前,保持對(duì)數(shù)據(jù)質(zhì)量警惕性,能減少不少返工。
當(dāng)我還不是數(shù)據(jù)分析師時(shí),曾經(jīng)有一次,和數(shù)據(jù)分析師一起向領(lǐng)導(dǎo)匯報(bào)業(yè)務(wù)預(yù)測(cè)結(jié)論。在講述預(yù)測(cè)過程時(shí),領(lǐng)導(dǎo)突然間發(fā)問:“業(yè)務(wù)成本為什么是零?”,“業(yè)務(wù)部反饋回的數(shù)據(jù)就是這樣的”,數(shù)據(jù)分析師回答。我當(dāng)時(shí)就汗流滿面,忐忑不安。雖然不是我負(fù)責(zé)數(shù)據(jù)分析,但在成堆的數(shù)據(jù)中,我竟然也沒發(fā)現(xiàn)這么明顯的業(yè)務(wù)錯(cuò)誤。匯報(bào)結(jié)果,自然要重新核實(shí)數(shù)據(jù)。
數(shù)據(jù)分析師要懂?dāng)?shù)據(jù),就是能通過數(shù)據(jù)看到業(yè)務(wù)情況,發(fā)現(xiàn)業(yè)務(wù)問題。針對(duì)有問題的數(shù)據(jù)指標(biāo),是否要使用則要從業(yè)務(wù)邏輯上權(quán)衡之。
比如,統(tǒng)計(jì)學(xué)上對(duì)于多大的樣本量才具有統(tǒng)計(jì)意義,有一個(gè)參考值:至少30個(gè)樣本量。業(yè)務(wù)問題上不一定使用30這個(gè)值,但量級(jí)較小時(shí)就要注意統(tǒng)計(jì)結(jié)果,尤其是統(tǒng)計(jì)結(jié)果為相對(duì)值時(shí),會(huì)嚴(yán)重影響數(shù)據(jù)結(jié)論。需要注意的是:當(dāng)你處理成堆的數(shù)據(jù)時(shí),你根本注意不到哪些“記錄”的量級(jí)小于30,直到發(fā)現(xiàn)數(shù)據(jù)結(jié)果方差太大時(shí)。而數(shù)據(jù)不敏感的小盆友也不會(huì)注意到這個(gè)問題,結(jié)果就這樣交上去了。
數(shù)據(jù)分析初期,這樣的問題可能天天在上演。我們能做的就是不斷反思、總結(jié),同樣的錯(cuò)誤不犯第二次。
3)數(shù)據(jù)指向什么
通過層層了解數(shù)據(jù)源,加工數(shù)據(jù),數(shù)據(jù)分析師常常得出的是描述數(shù)據(jù)的事實(shí),而不是觀點(diǎn)。舉個(gè)例子:數(shù)據(jù)分析師通過分析流量來源,得到以下結(jié)論:70%的用戶來源于自然流量,30%用戶來源于廣告投放。這常常就是數(shù)據(jù)分析師給出的結(jié)論。然后,就沒有然后了。
而有些數(shù)據(jù)分析師會(huì)給出這樣的結(jié)論:以往自然流量占比在50%左右,以短期內(nèi)自然流量相對(duì)穩(wěn)定為前提,廣告投放引流效果變差了,如投放費(fèi)用未發(fā)生明顯變化,需要提升廣告投放的精準(zhǔn)度。
兩個(gè)結(jié)論的區(qū)別在哪?一個(gè)提供事實(shí),一個(gè)提供觀點(diǎn)或者稱建議。數(shù)據(jù)分析師應(yīng)該不僅是數(shù)據(jù)加工師,也應(yīng)該是決策建議師。
在疲于處理數(shù)據(jù)階段,數(shù)據(jù)分析師并沒有多少精力解讀數(shù)據(jù),思考數(shù)據(jù)變化業(yè)務(wù)邏輯關(guān)系。當(dāng)數(shù)據(jù)加工處理更為嫻熟后,才有更多精力在解讀數(shù)據(jù)上。初級(jí)分析師要清晰認(rèn)識(shí)到這點(diǎn),盡快提升數(shù)據(jù)處理效率,將工作模板化、流程化,并有耐心等待進(jìn)入解讀數(shù)據(jù)階段。
2.懂業(yè)務(wù)
業(yè)務(wù)和數(shù)據(jù)是精通分析的兩個(gè)方面,互相牽制影響。精通業(yè)務(wù)能加深對(duì)數(shù)據(jù)的理解,精通數(shù)據(jù)能加深對(duì)業(yè)務(wù)的理解。在理解業(yè)務(wù)上,你需要get到以下三個(gè)要點(diǎn):
1)業(yè)務(wù)問題是什么
有經(jīng)驗(yàn)的業(yè)務(wù)人員非常清楚自己的業(yè)務(wù)問題,業(yè)務(wù)部門內(nèi)的數(shù)據(jù)分析師也能很快熟悉,但不在業(yè)務(wù)部門的分析師,看到的只是數(shù)據(jù)的變動(dòng),并不能直接建立起業(yè)務(wù)策略和數(shù)據(jù)間關(guān)系,這種情況下分析師就要多和業(yè)務(wù)部門保持聯(lián)系,了解原委。
從數(shù)據(jù)中洞察業(yè)務(wù)問題,就要了解數(shù)據(jù)指標(biāo)的正常值和異常值。通過對(duì)數(shù)據(jù)指標(biāo)的長期監(jiān)控,了解影響此指標(biāo)的因素及影響程度。一個(gè)百分點(diǎn)變化是應(yīng)該密切關(guān)注還是無關(guān)緊要。對(duì)數(shù)據(jù)敏感性不是天生的,而是不斷對(duì)數(shù)據(jù)掌握中獲取的。
當(dāng)數(shù)據(jù)嚴(yán)重偏離正常值范圍時(shí),有可能存在業(yè)務(wù)問題,需要分析。舉個(gè)例子,在一次客戶大進(jìn)大出調(diào)研中,我們一度認(rèn)為是代理商傭金獎(jiǎng)勵(lì)制度造成的,然而與自有渠道銷售對(duì)比發(fā)現(xiàn),其流失率并不比代理商渠道高多少。問題并不出在傭金獎(jiǎng)勵(lì)制度上,這個(gè)業(yè)務(wù)假設(shè)就被推翻了。
再舉個(gè)例子,高價(jià)值用戶占比20%,這個(gè)值是高了還是低了?——這要看基礎(chǔ)概率。即在目標(biāo)客戶群分布中,高價(jià)值用戶占比是多少。與之相比,20%是高是低。高很多或低很多,可能存在業(yè)務(wù)問題,就需要分析。
2)業(yè)務(wù)流程是什么
業(yè)務(wù)問題拆解,有時(shí)要從業(yè)務(wù)流程入手。梳理所有業(yè)務(wù)流程,細(xì)化到數(shù)據(jù)轉(zhuǎn)化每個(gè)環(huán)節(jié),根據(jù)數(shù)據(jù)表現(xiàn)聚焦具體環(huán)節(jié),問題迎刃而解。

業(yè)務(wù)流程遞進(jìn)與數(shù)據(jù)流轉(zhuǎn)是息息相關(guān)的,理清了業(yè)務(wù)流程,根據(jù)流程流轉(zhuǎn)再去看數(shù)據(jù)情況,才有意義。
3)業(yè)務(wù)框架是什么
剛?cè)胄?,兩眼一摸黑,別說業(yè)務(wù)框架,能熟悉自己的業(yè)務(wù),做好執(zhí)行已經(jīng)是滿分了。遇上有育人精神的領(lǐng)導(dǎo),還能從中窺見一二,否則就只能靠自己摸索了。
也許直到很久以后你才能逐步搭建起業(yè)務(wù)框架,但這并不影響你當(dāng)下工作。業(yè)務(wù)框架的作用直到你處理更復(fù)雜業(yè)務(wù)問題時(shí),才會(huì)派上用場(chǎng)。在自己業(yè)務(wù)模塊中你可能卡殼找不到問題所在了,這時(shí)如果看看業(yè)務(wù)框架圖,你可能會(huì)發(fā)現(xiàn)自己遺漏了某個(gè)環(huán)節(jié),這個(gè)環(huán)節(jié)可能直接或間接影響業(yè)務(wù)模塊結(jié)果,可能內(nèi)在存在某種關(guān)聯(lián)。這張業(yè)務(wù)架構(gòu)圖就是你心中的一幅地圖,在你迷路時(shí)能幫你導(dǎo)航。

也許你很快能摸清業(yè)務(wù)架構(gòu)的一級(jí)目錄,但你可能需要了解到五級(jí)目錄才能發(fā)現(xiàn)問題。架構(gòu)圖搭建并不是正向形成的過程,而是逆向。通過一次業(yè)務(wù)探索,你了解三級(jí)目錄A和四級(jí)目錄C關(guān)系,拼得一塊積木,多塊積木、多層積木的積累讓你逐漸看清整個(gè)業(yè)務(wù)的邏輯關(guān)系,這才豁然開朗。
舉個(gè)例子,剛?cè)胄?,邏輯思維沒有那么強(qiáng),常常并不能做到以終為始逆向思考:從自己想要得到的結(jié)論,倒推分析過程,直到自己需要收集哪些業(yè)務(wù)指標(biāo)。我們常常是正向思考:我能收集哪些業(yè)務(wù)指標(biāo),做出哪些分析,得出哪些結(jié)論。這些思考也并非一步完成。而是在理出業(yè)務(wù)指標(biāo)后,才能知道要分析哪些。從自己的分析結(jié)果中,才發(fā)現(xiàn)自己能得出的結(jié)論。是走一步看一步的思路。
在經(jīng)過了很多次,甚至一兩年分析后,才慢慢能:走一步看兩步,走一步看三步。棋局對(duì)弈中能看到五步之后的局勢(shì)如何已遠(yuǎn)非業(yè)余水平。除了邏輯思維極強(qiáng)的天才,大多數(shù)人都要經(jīng)歷這個(gè)過程。這也是逐步看清結(jié)構(gòu)的過程。
正向推導(dǎo)熟練后,有些人就會(huì)慢慢進(jìn)入到逆向思考中,進(jìn)行倒推。如果你問高手:我發(fā)現(xiàn)這個(gè)指標(biāo)有些異常,這是什么原因造成的?他會(huì)告訴你,你業(yè)務(wù)上是不是做了哪些哪些調(diào)整或者你去看看哪個(gè)哪個(gè)指標(biāo)是不是也發(fā)生變化了,然后吐給你一個(gè)結(jié)論。這是業(yè)務(wù)框架發(fā)揮作用的厲害之處。
3.懂工具
工具只是幫助你了解數(shù)據(jù)的手段,千萬不要因?yàn)椴欢ぞ叨艞壱粋€(gè)行業(yè),一個(gè)職業(yè)。工具是最容易學(xué)習(xí)的:任何工具都有大量的教程可參考,有大量的方法總結(jié)供學(xué)習(xí),而且學(xué)習(xí)是系統(tǒng)化、結(jié)構(gòu)化的。相比下,業(yè)務(wù)理解、行業(yè)理解學(xué)習(xí)要更有難度。市面上并沒有多少結(jié)構(gòu)化教材或課程,更不用說可直接拿來的經(jīng)驗(yàn),同時(shí)行業(yè)是發(fā)展、是不斷變化的,業(yè)務(wù)理解也要與時(shí)俱進(jìn)。
如果職場(chǎng)上你沒有其他可拼的,首先就拼自己的工具掌握能力吧。這也是所有入行者要夯實(shí)的基礎(chǔ)。在工具學(xué)習(xí)上,入門工具推薦兩類:SQL(Structured Query Language)、Microsoft Office Excel,進(jìn)階工具推薦:SPSS Clementine/Python。
1)SQL
SQL是數(shù)據(jù)提取工具,大中型企業(yè)都會(huì)建立自己的數(shù)據(jù)庫系統(tǒng),常用數(shù)據(jù)會(huì)建立數(shù)據(jù)報(bào)表系統(tǒng)(常說的BI系統(tǒng),即business intelligence),供業(yè)務(wù)人員使用。但深入業(yè)務(wù)分析需要更多的底層數(shù)據(jù),報(bào)表系統(tǒng)里沒有呈現(xiàn)的數(shù)據(jù),這時(shí)就需要使用SQL工具提取數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)。
SQL工具很多,有oracle、mysql、sqlserver、hive等,除了細(xì)微差異,大多數(shù)SQL語句都通用。
SQL工具學(xué)習(xí)很容易,真正需要下功夫的是對(duì)數(shù)據(jù)庫表結(jié)構(gòu)的了解。從常用數(shù)據(jù)表了解,摸清數(shù)據(jù)指標(biāo)及含義,建立起表結(jié)構(gòu)間關(guān)系,完成日常工作數(shù)據(jù)提取工作為要。有精力的童鞋可以再去探索非常用數(shù)據(jù)表。
2)Microsoft Office Excel
Excel應(yīng)該是所有數(shù)據(jù)分析師的入門工具。除了一些常用功能使用外,就是使用數(shù)據(jù)透視表和多學(xué)習(xí)內(nèi)嵌函數(shù),能省去不少工作量。除了數(shù)據(jù)量級(jí)處理有限外,Excel功能強(qiáng)大不能僅僅用強(qiáng)大來形容。高階Excel學(xué)習(xí),可以繼續(xù)了解宏使用。
3)SPSS Clementine/Python
在數(shù)據(jù)分析進(jìn)階路上,還有一類工具是:數(shù)據(jù)建模工具,如SPSS Clementine、R、Python等。大數(shù)據(jù)時(shí)代,數(shù)據(jù)維度過于豐富,數(shù)據(jù)量級(jí)過于龐大,對(duì)于未知數(shù)據(jù)探索,手動(dòng)計(jì)算發(fā)現(xiàn)數(shù)據(jù)關(guān)系的工作量已經(jīng)過于繁重,交給這些數(shù)據(jù)模型工具就簡單多了。其內(nèi)嵌了大量精細(xì)的數(shù)據(jù)算法,我們需要做的就是掌握統(tǒng)計(jì)理論,掌握算法原理,輸入規(guī)范的數(shù)據(jù),等待模型的結(jié)果。當(dāng)然,對(duì)模型的掌握,結(jié)論的解讀,業(yè)務(wù)的理解,都是使用建模工具必須要學(xué)習(xí)的。
懂?dāng)?shù)據(jù)、懂業(yè)務(wù)、懂工具,足矣。武林高手也非全能,不過是能把一項(xiàng)武功運(yùn)用的出神入化。同樣,很厲害的數(shù)據(jù)分析師只不過在一項(xiàng)核心上精益求精!
#薔薇記#: 記錄生活之美和智慧之妙。
這是薔薇石原創(chuàng)的第77篇文章。