如何蓋一棟大樓?

我有一個(gè)體會(huì),要想高效的掌握某方面的知識(shí),除了要投入時(shí)間精力認(rèn)真學(xué)習(xí)思考具體的知識(shí)點(diǎn),還要從更宏觀和更微觀的角度去觀察該領(lǐng)域,從而建立更加全面的認(rèn)知。這個(gè)過(guò)程很像是蓋樓:
1.宏觀上,得有科學(xué)、牢固的主體結(jié)構(gòu)
2.操作上,得有高強(qiáng)度的粘合劑,將各種材料固定在主結(jié)構(gòu)上
3.微觀上,得有充足且質(zhì)量過(guò)硬的基礎(chǔ)建材
結(jié)合以上,我將數(shù)據(jù)分析的學(xué)習(xí)也想象成了一個(gè)蓋樓的過(guò)程,并據(jù)此從以下三點(diǎn)對(duì)這一個(gè)多月來(lái)的學(xué)習(xí)進(jìn)行一個(gè)總結(jié):
鋼結(jié)構(gòu)——框架認(rèn)知
混凝土——思考體悟
磚瓦塊——定義描述
【PART1. 鋼結(jié)構(gòu)】框架認(rèn)知
鋼結(jié)構(gòu),是一棟大樓核心骨架,應(yīng)當(dāng)滿足兩點(diǎn):
1.科學(xué)堅(jiān)固,保證相關(guān)的概念、心得可以高效的建構(gòu)在上面。
2.簡(jiǎn)潔清晰,易于記憶和調(diào)取,從而指導(dǎo)相關(guān)工作、學(xué)習(xí)的開(kāi)展;
下面就從“事”和“人”兩個(gè)角度來(lái)闡述我的框架認(rèn)知
【事】對(duì)數(shù)據(jù)分析的整體認(rèn)知
基本認(rèn)知:
定義(WHAT):有目的搜集數(shù)據(jù),提煉信息,找出規(guī)律,形成結(jié)論的過(guò)程。
價(jià)值(WHY):支撐科學(xué)決策,助力業(yè)務(wù)優(yōu)化。
基本流程(HOW)
結(jié)合了解到的大大小小多個(gè)數(shù)據(jù)分析流程及個(gè)人對(duì)數(shù)據(jù)分析的理解,我總結(jié)了以下數(shù)據(jù)分析流程,其步驟及主要任務(wù)如下:
- STEP1.業(yè)務(wù)理解—— 搞清楚 [Who how to do what things with whom,by what tools,and howmuch money/time/energy at where, in when, for why.]
明確目的:為什么要進(jìn)行分析,要實(shí)現(xiàn)什么價(jià)值
定義問(wèn)題:澄清問(wèn)題的RSQC-PE(范圍邊界Range、進(jìn)度時(shí)間Schedule、質(zhì)量效果Quality、成本投入Cost、干系同路人People、預(yù)期成果Expection)
擬定方案:設(shè)定假設(shè)及基本故事線
- STEP2 數(shù)據(jù)搜集—— 獲得原始數(shù)據(jù)并確定可用
采集:獲取原始數(shù)據(jù)
檢核:評(píng)估數(shù)據(jù)質(zhì)量
探索:簡(jiǎn)單觀察數(shù)據(jù)
- STEP3 數(shù)據(jù)處理—— 根據(jù)分析目的,對(duì)數(shù)據(jù)進(jìn)行整理加工,得到適合數(shù)據(jù)分析要求的樣式
清洗:剔除無(wú)效數(shù)據(jù)
校正:對(duì)數(shù)據(jù)進(jìn)行微調(diào)以使其符合分析需要
- STEP4 數(shù)據(jù)分析—— 圍繞發(fā)現(xiàn)關(guān)聯(lián)、驗(yàn)證假設(shè)、預(yù)測(cè)變化開(kāi)展分析
描述性分析:發(fā)生了什么,什么正在發(fā)生?
推斷性分析:為什么發(fā)生,還可能發(fā)生什么?
- STEP5 直觀展示—— 讓客戶在30秒鐘內(nèi)看懂你的數(shù)據(jù)。
可視化:用圖形直觀展示數(shù)據(jù)背后的信息
視覺(jué)優(yōu)化:減少信息干擾,降低認(rèn)知難度,提升美感和易讀性
- STEP6 講解匯報(bào)—— 講一個(gè)好故事,將結(jié)論高效傳遞給客戶
講解分析結(jié)論/撰寫(xiě)分析報(bào)告——綜合闡述假設(shè)、證明、結(jié)論、建議
【人】數(shù)據(jù)分析師需要的素養(yǎng)
結(jié)合工作室培訓(xùn)、書(shū)籍及相關(guān)文章,梳理出了數(shù)據(jù)分析師需要具備的素養(yǎng),作為學(xué)習(xí)提升的參照系。
思維
- 結(jié)構(gòu)化:
將事物抽象、分類成更小的元素,以便發(fā)現(xiàn)關(guān)聯(lián)關(guān)系,找出關(guān)鍵要素。 - 公式化:
將各個(gè)要素量化、運(yùn)算為可比較評(píng)價(jià)的指標(biāo)。 - 業(yè)務(wù)化:
將各要素帶入業(yè)務(wù)場(chǎng)景,結(jié)合成本、收益、機(jī)會(huì)、風(fēng)險(xiǎn)等,找出性價(jià)比最高的控制要素。
素質(zhì)
懂:
管理&業(yè)務(wù)
工具&分析
展示&設(shè)計(jì)
擅:
嚴(yán)謹(jǐn)&好奇
溝通&學(xué)習(xí)
模仿&創(chuàng)新
技能(初級(jí))
- 統(tǒng)計(jì)學(xué)
信息圖形化、條件概率、貝葉斯公式、相關(guān)與獨(dú)立、幾何分布、二項(xiàng)分布、泊松分布、正態(tài)分布、統(tǒng)計(jì)抽樣、估計(jì)、置信區(qū)間、假設(shè)檢驗(yàn) - 軟件工具
- Tableau
數(shù)據(jù)源:連接、表關(guān)聯(lián)、數(shù)據(jù)提取
數(shù)據(jù)處理:拆分、數(shù)據(jù)透視表、維度/度量、離散/連續(xù)、分層結(jié)構(gòu)
表計(jì)算:百分比、同環(huán)比、表計(jì)算方向
計(jì)算字段:邏輯函數(shù)、日期函數(shù)、文本函數(shù)、空值函數(shù)
篩選器:維度篩選器、度量篩選器
基本圖表:折線圖、條形圖、餅圖、雙軸圖、散點(diǎn)圖等
儀表板:大小、容器、布局等
簡(jiǎn)單的參數(shù)、組、集使用方法
簡(jiǎn)單的參考線、參考區(qū)間使用方法
基本的格式設(shè)置 - SQL
查詢、存儲(chǔ) - R
命令行用法
基本的數(shù)據(jù)分析庫(kù)包(tidyr,dplyr,ggplot2) - Python
基本語(yǔ)法
函數(shù)和相關(guān)庫(kù)包(numpy, pandas, matplotlib, sklearn)
- Tableau
【PART2.混凝土】個(gè)人體悟
一個(gè)中心
如果有人問(wèn)我數(shù)據(jù)分析的中心詞是什么,我會(huì)認(rèn)為是“相關(guān)”,無(wú)論哪種類型的分析,其背后的邏輯都是找到一組相關(guān),然后通過(guò)對(duì)這組相關(guān)的論證運(yùn)用來(lái)支撐決策,優(yōu)化業(yè)務(wù)。
由此想到,如果用最簡(jiǎn)化的語(yǔ)言概括數(shù)據(jù)分析,就是猜測(cè)相關(guān)、檢驗(yàn)相關(guān)、運(yùn)用相關(guān)。
兩個(gè)主題
將上面說(shuō)的檢驗(yàn)相關(guān)、運(yùn)用相關(guān),用另一種更常見(jiàn)的方式表達(dá),就找到了了數(shù)據(jù)分析工作的兩個(gè)核心主題——驗(yàn)證假設(shè)、預(yù)測(cè)變化

三個(gè)隱喻
①?gòu)N師
上面提到的數(shù)據(jù)分析6步流程,相對(duì)比較抽象,我將之映射成了一個(gè)更直觀的過(guò)程——廚師烹飪
- 業(yè)務(wù)理解——確定點(diǎn)單
明確客人想吃啥,自己要做的菜品和數(shù)量 - 數(shù)據(jù)搜集——獲取食材
根據(jù)要做的菜品去搜集需要的食材,并檢驗(yàn)食材的質(zhì)量。
這些食材,有些是野菜隨處可見(jiàn)(公開(kāi)數(shù)據(jù)),有些是自家種的菜(企業(yè)內(nèi)部數(shù)據(jù)),有些是得花錢買的菜(外部隱私數(shù)據(jù)),有些是偷的菜(爬取數(shù)據(jù)) - 數(shù)據(jù)處理——洗菜切菜
將食材清洗、切割以便加工烹飪 - 數(shù)據(jù)分析——加工烹飪
通過(guò)各種方法,最大化發(fā)掘出食材的美味。
我們可能會(huì)發(fā)現(xiàn)有些食材需要特殊的廚具和方法才能烹飪。這就是數(shù)據(jù)挖掘,這些特殊的廚具和烹飪方法,就是數(shù)據(jù)挖掘里用到的各類算法和模型。 - 直觀展示——裝碗擺盤
裝碗以便于客人夾取食用,擺盤增加美觀度以提升食欲 - 講解報(bào)告——上桌成席
送到客人面前進(jìn)行品嘗
②偵探
數(shù)據(jù)分析師開(kāi)展工作時(shí)的感覺(jué)很像偵探在調(diào)查案子,先要仔細(xì)去探查現(xiàn)場(chǎng)(理解業(yè)務(wù)),再事無(wú)巨細(xì)的搜集線索(數(shù)據(jù)搜集),大膽的做出假設(shè)(猜測(cè)相關(guān)),再認(rèn)真仔細(xì)的去驗(yàn)證假設(shè)??傆幸恍┟孛艿戎覀?nèi)グl(fā)現(xiàn),這正是數(shù)據(jù)分析的樂(lè)趣所在。
③預(yù)言家

在電影《黑客帝國(guó)》中,先知是一個(gè)計(jì)算機(jī)程序,因?yàn)榭梢宰x取Matrix的所有數(shù)據(jù),所以能預(yù)見(jiàn)未來(lái),這正是數(shù)據(jù)分析想要實(shí)現(xiàn)的終極目標(biāo)。上圖中對(duì)于先知描述正像預(yù)言家做的一眼:解讀需要智慧、無(wú)法保證預(yù)測(cè)一定正確、不能代替人做決定,也和數(shù)據(jù)分析工作如出一轍。
十個(gè)元素
數(shù)據(jù)可視化的是將抽象的數(shù)據(jù)轉(zhuǎn)化為直觀視覺(jué)信息,從而發(fā)現(xiàn)和凸顯數(shù)據(jù)之間的關(guān)聯(lián)。
將這個(gè)過(guò)程進(jìn)一步拆解,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)可視化本質(zhì)就是將多個(gè)維度/度量合理的安排到多個(gè)視覺(jué)元素當(dāng)中,使人能從單個(gè)圖像上獲取更多維的信息。從這個(gè)角度理解,常見(jiàn)的圖表不過(guò)是一些視覺(jué)元素的常用組合方式。只要理解了所有的視覺(jué)元素,我們就可以構(gòu)建更加獨(dú)特的可視化效果?;诖?,我找到了十個(gè)視覺(jué)元素,分別是
七個(gè)基礎(chǔ)視覺(jué)元素:顏色、形狀、尺寸(大?。?、位置、亮度、紋理、角度

三個(gè)衍生可識(shí)別視覺(jué)元素:符號(hào)、文字、陣列
以上十個(gè)視覺(jué)元素可以用一句話記憶“色型尺位亮紋角,符號(hào)文本陣列表”
無(wú)數(shù)個(gè)視角
對(duì)于數(shù)據(jù)分析,維度是個(gè)至關(guān)重要的概念,廣義上說(shuō),維度就是觀察事物的視角,往往表現(xiàn)為一種分類方式,用以規(guī)范化的描述事物的某些特征。這組分類可以是文字、數(shù)字甚至任何可區(qū)分的符號(hào)。
當(dāng)表現(xiàn)為一組離散的、可窮盡的類別時(shí),就是Tableau里的的[維度]。
當(dāng)表現(xiàn)為一段連續(xù)的、不可窮盡的數(shù)值時(shí),就是Tableau里的[度量]。
無(wú)論我們?cè)趺捶Q呼它們,它們都只是觀察事物的角度而已,這種角度可以有無(wú)數(shù)多個(gè)。于是我們可以有n個(gè)[維度]、[度量]、分類方式,以及nxn個(gè)類別,同時(shí)我們需要明白,所有這些類別都是為了便于人類認(rèn)知而人為設(shè)定出來(lái)的,本質(zhì)是通過(guò)對(duì)客觀事物進(jìn)行抽象簡(jiǎn)化,降低認(rèn)知的難度。
所以,我們完全可以根據(jù)自己的需要建立超越已有分類方式的維度。只要滿足MECE(相互獨(dú)立、完全窮盡),任何你能想到的分類方式都可以成為一個(gè)新的維度,這種創(chuàng)造維度的活動(dòng)其實(shí)很常見(jiàn),比如企業(yè)根據(jù)自身情況進(jìn)行的客戶分類畫(huà)像。
綜合以上,我們就會(huì)發(fā)現(xiàn)數(shù)據(jù)分析的過(guò)程,其實(shí)是通過(guò)不同[維度]的組合來(lái)切割或整合出新的視角,并在該視角下觀察[度量]值的變化,以發(fā)現(xiàn)和驗(yàn)證相關(guān),這點(diǎn)在使用Tableau等可視化分析工具時(shí)感受會(huì)尤為明顯。不同維度的組合方式,決定了觀察數(shù)據(jù)的視角和顆粒度。
【PART3附錄.磚瓦塊】定義描述
以下是截止目前收集到的數(shù)據(jù)分析相關(guān)概念及部分描述,因內(nèi)容較多,為避免干擾,以鏈接形式展示→定義描述
關(guān)鍵詞回顧——先知夏洛克的餐館
- 先知——隱喻③預(yù)言家——核心主題之預(yù)測(cè)變化
- 夏洛克——隱喻②偵探——核心主題之驗(yàn)證假設(shè)
- 餐館——隱喻①?gòu)N師——數(shù)據(jù)分析流程
