最值得收藏:數(shù)據(jù)分析從0-1必備6大知識清單

作者:李啟方

知乎來源:https://zhuanlan.zhihu.com/p/345618674

文章篇幅較長(4000字+),內容較多,建議大家先收藏再慢慢閱讀~

歡迎分享轉發(fā)~

1、數(shù)據(jù)分析常用的思維

判斷一個人做數(shù)據(jù)分析的水平,不是看他學習了幾種工具,最核心的差距在于思考問題的思維能,這是數(shù)據(jù)分析的本質,也是最容易被人忽視的點

常用的思維有很多種,下面簡單舉幾個例子:

(1)對比思維:

通常來說是把兩個相互聯(lián)系的指標數(shù)據(jù)進行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小

比如說,老板讓你分析一下今年企業(yè)的發(fā)展情況,你拉表之后發(fā)現(xiàn)銷售額比去年增長了10%,凈利潤比去年增長了5%,成本消耗比去年降低了3%。銷售額、凈利潤、成本消耗就是對比的指標,我們不能拿銷售額的數(shù)據(jù)去對比成本數(shù)據(jù),這就是指標的對比與統(tǒng)一。

(2)細分思維:

比如某次考試小明的名次很低,如果他的父母不懂細分,一定會不由分說地訓斥小明,根本找不到小明成績差的真實原因。

而如果他們懂得細分分析,應該怎么做呢?應該將名次的維度轉化為科目,然后分析每個科目的成績,也許會發(fā)現(xiàn)小明只有某個科目沒有考好,再針對這個短板采取相應的策略,這就是細分分析的思想。

(3)趨勢思維

你可以簡單地把趨勢分析定義為對比分析的一種,一般來說是按照時間的維度,對某一數(shù)據(jù)或者不同數(shù)據(jù)變化趨勢進行差異化研究,以及對數(shù)據(jù)的下一步變化進行預測。

趨勢分析一般而言,適用于產品核心指標的長期跟蹤,比如點擊率,GMV,活躍用戶數(shù)等。做出簡單的數(shù)據(jù)趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數(shù)據(jù)的變化,以及對變化原因進行分析。

(4)目標思維

我們在接到業(yè)務的需求之后,需要先想一下這個需求的真正核心目的是什么?

如果知道了業(yè)務目標,那么就可以把這樣一個取數(shù)需求變成一個分析類需求,最終的交付形式就成了一份PPT,這樣,就能避免成為取數(shù)機器。

(5)結構化思維

在面對這么一個問題時,結構化思維方法首先做的并不是立刻著手清洗數(shù)據(jù)。而是根據(jù)對業(yè)務的理解,先為數(shù)據(jù)分析劃一個思維導圖,它的作用相當于你來到一個陌生的城市拿出百度地圖查詢乘坐交通工具到入住的酒店的路線圖。

事實上,結構化思維就是由麥肯錫提出的著名的“金字塔思維”,如下圖就是典型的結構化:

(6)演繹思維、歸納思維

很顯然,歸納是從個體屬性出發(fā),尋找因子之間的共性,總結出一個一般的特性;而演繹則相反,是從一般整體出發(fā),尋找事物之間的邏輯,從而得到某個個體的特性。

(7)假設思維

假設思維其實是從演繹思維中延伸出來的思維,簡單來說就是通過不斷假設、不斷論證、不斷推理、不斷推翻原假設的方式,直到去找到我們最終的真實原因或者結論。

(8)溯源思維

溯源思維簡單來說就是對問題進行細分后再細分,把問題進行分解到可以找到原因,列出解決辦法。有時候我們不僅僅只使用對比思維和細分思維就可以得出來結果,這時候要想追溯數(shù)據(jù)源,然后基于此思考數(shù)據(jù)源背后可能隱藏的邏輯關系,或許會有其他的數(shù)據(jù)結果。

(9)事實思維

數(shù)據(jù)分析師第一個要訓練的思維方式便是:只說事實,不說觀點。

只有分清楚觀點和事實才有繼續(xù)分析的可能性。因為觀點的溝通會出現(xiàn)誤差,而事實則不會。如果我們用觀點進行溝通,自然會出現(xiàn)大量的誤解。

2、統(tǒng)計學相關的理論與基礎

(1)描述型統(tǒng)計

描述統(tǒng)計是我們做數(shù)據(jù)分析的主要基礎,比如說銷售人員說今年我們的銷售情況很好,比去年要好很多。這不叫做描述統(tǒng)計,因為“比去年好”這個特點不是定量的數(shù)據(jù)

描述性統(tǒng)計里大概有三個分類:集中趨勢、離散趨勢、分布。集中趨勢包含平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù)等,離散趨勢包含極差、平均差、方差、標準差、分位差等,分布主要包含峰態(tài)分布和偏態(tài)分布

(2)推理型統(tǒng)計

也叫作推理性統(tǒng)計,他的目的是研究如何利用樣本數(shù)據(jù)去推斷總體數(shù)據(jù)的方法。他跟描述統(tǒng)計不一樣,描述統(tǒng)計是用整體的數(shù)據(jù)來描述整體特征,推理統(tǒng)計是用部分數(shù)據(jù)來推理整體特征。我們經常說的假設檢驗、采樣與過采樣、回歸預測模型、貝葉斯模型都是推理型統(tǒng)計。

二項分布:如拋硬幣n次,不同正面朝上的次數(shù)對應的概率;

幾何分布:如拋硬幣n次,到第k次才取得第一次成功的概率服從的分布

泊松分布:在一定時間范圍內發(fā)生概率相同,給定其發(fā)生的平均發(fā)生的次數(shù)μ,則事件在該事件范圍內發(fā)生k次的概率服從泊松分布

(3)假設檢驗

假設檢驗就是通過抽取樣本數(shù)據(jù),通過小概率反證法去驗證整體假設

(4)回歸

回歸分析的任務就是,通過研究X和Y的相關關系,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。

(5)聚類

聚類是根據(jù)數(shù)據(jù)本身的特性研究分類方法,并遵循這個分類方法對數(shù)據(jù)進行合理的分類,最終講相似數(shù)據(jù)分位一組,也就是"同類相同、異類相異”

(6)貝葉斯

3、SQL與數(shù)據(jù)提取

SQL 數(shù)據(jù)提取主要學習一些SQL常用的語法順序和執(zhí)行順序,然后學習一些條件子句、分組查詢和排序的細節(jié),最后去學習表的連接和其他常用關鍵字

下面再貼個sql的學習網站吧:

SQL Server數(shù)據(jù)庫教程——51自學網 (視頻教程)

地址:51zxw.net/list.aspx?

老師講得很細,會一步步的教操作,前面7章看完,并跟著老師做完了所有的例子,就是入門了。

SQL Tutorial——w3schools (示例教程)

地址:w3school.com.cn/sql/ind

入門之后,就要多學學T-SQL語言了。除了51自學網的SQL Server數(shù)據(jù)庫教程外,w3schools是一個很好的資源庫,它不止講解T-SQL語言的知識點,還有一個在線的示例數(shù)據(jù)庫提供給用戶,可以隨時隨地進行練習。

4、快速套用的分析模型

(1)帕累托模型:

帕累托分析依據(jù)的原理是20/80定律,80%的效益常常來自于20%的投入,而其他80%的投入?yún)s只產生了20%的效益,這說明,同樣的投入在不同的地方會產生不同的效益。

(2)波士頓模型

這個模型雖然是市場模型,但是其背后的邏輯卻是數(shù)據(jù)分析,也就是矩陣模型。矩陣模型是雙維度模型,你可以從兩個維度出發(fā)對不同的指標進行定位,比如波士頓矩陣,即從兩個維度對產品或者業(yè)務進行定位,也就是產品本身和銷售的維度

(3)購物籃分析

購物籃模型的本質是關聯(lián),關聯(lián)大家應該都很好理解,就是反映某個事物與其他事物之間相互依存關系的,在商品關聯(lián)分析的定義是,通過對顧客的購買記錄數(shù)據(jù)庫進行某種規(guī)則的挖掘,最終發(fā)現(xiàn)顧客群體的購買習慣的內在共性

(4)用戶行為模型

分析用戶某個行為特征路徑,并分析其每個動作背后的行為邏輯。比如例如提交訂單后,用戶可能會返回首頁繼續(xù)搜索商品,也可能去取消訂單,每一個路徑背后都有不同的動機。通過模型分析能快速找到用戶動機,從而引領用戶走向最優(yōu)路徑或者期望中的路徑。

(5)用戶流失模型

主要應用在兩個方面:流失用戶召回、現(xiàn)有活躍用戶防流失,最常見的就是AARRR模型、漏斗模型等等。

(6)用戶價值模型

業(yè)務分析,很多情況下都是要在資源有限情況下,去最大化的撬動效益,如何挖掘能創(chuàng)造最大價值的客戶就是用戶價值模型的工作。最常見的就是RFM模型、CLV模型、顧客社交價值模型。

(7)5W2H模型

所謂的5w2h其實就是針對5個W以及2個H提出的7個關鍵詞進行數(shù)據(jù)指標的選取,根據(jù)選取的數(shù)據(jù)進行分析

(8)PEST模型

Pest分析模型最早是作為金融行業(yè)分析產生的,用到我們數(shù)據(jù)分析領域更適合做一些整體的行業(yè)分析或者市場分析,優(yōu)點是注重外部環(huán)境對數(shù)據(jù)的影響,缺點是無法從內部原因出發(fā),所以無法分析具體的實際業(yè)務問題。

(9)SWOT模型

分析法也叫態(tài)勢分析法,S是優(yōu)勢、W是劣勢,O是機會、T是威脅或風險。

5、數(shù)據(jù)可視化原理

從定義上說,可視化分為科學可視化、數(shù)據(jù)可視化、信息可視化等,我們這里說的都是狹義上的數(shù)據(jù)可視化,至于理論之類的知識我今天就不多講了,也沒必要深入,我們只要清楚想要做出一個好的數(shù)據(jù)可視化,需要滿足三個條件:

有三個要點,也就是信達雅。所謂的信就是要保證數(shù)據(jù)的正確性,達即是要讓用戶輕松接收到數(shù)據(jù)信息,能夠對數(shù)據(jù)進行有效的表達,雅即是要保證可視化的美觀,這三者既是可視化的重要作用,也是實現(xiàn)數(shù)據(jù)可視化的重要標準。

(1)可視化圖表的選擇

對比類:柱狀圖、漏斗圖、詞云圖、迷你圖

占比類:餅圖、玫瑰圖、矩陣樹圖、雷達圖

相關類:散點圖、樹狀圖、甘特圖

趨勢類:折線圖、面積圖、瀑布圖

地理類:熱力地圖、流向地圖、點地圖

(2)可視化排版原則

從上至下:重要的信息內容放于上方

從左至右:重要的信息內容放于左方

從中間到四周:重要的信息內容放于中間

聚焦:重要的信息內容應當集中設置

平衡:各個板塊之間的內容量不宜相差過大

簡潔:不同板塊中的內容不宜過多,以2-3個圖表為宜

6、業(yè)務指標體系和業(yè)務練習

(1)如何理解業(yè)務?

第一步:確定分析目標,如分析產品功能、原因診斷等

第二步:確定業(yè)務核心需求,將取數(shù)需求轉化為分析需求

第三步:確定核心指標,通過目標找到核心的分析指標

第四步:根據(jù)核心指標進行拆解,如常用的公式法

(2)業(yè)務關注的要點

(3)分析目標確定的步驟

吃透業(yè)務的分析需求,系統(tǒng)性地引導業(yè)務分析

建立分析體系,不完整的地方,有業(yè)務幫忙補充

了解業(yè)務邏輯和模式,補充業(yè)務知識

分析結論和成果要有明確的業(yè)務指向

(4)常見的業(yè)務場景

經營類數(shù)據(jù)分析

指收入、銷量等與企業(yè)經營活動相關分析,監(jiān)控企業(yè)的運行情況,是為了發(fā)現(xiàn)企業(yè)運營中的問題,關注點是銷量/銷售額總體的時序變化、地區(qū)分布、變化原因

用戶數(shù)據(jù)分析

指購買額、購買頻次、購買偏好等相關分析,目標是深入理解客戶,關注點是用戶畫像分層、RFM模型衡量用戶價值分層

銷售數(shù)據(jù)分析

定義是指銷售收入、銷售額、單價等與銷售情況直接相關的分析,目標是完成銷售任務,監(jiān)控銷售銷量低的原因,提出解決方法,關注點是時序進度、落后原因、銷售單產情況

營銷/市場分析

指企業(yè)營銷/市場活動的投放、反饋、效果相關分析,目標是了解活動結果、優(yōu)化活動計劃、提升活動效率關注點主要集中在ROI相關指標

(5)業(yè)務知識的來源

業(yè)務這一塊的內容是普通數(shù)據(jù)分析人的瓶頸,所以要學習的內容確實太多了,這里也只能給大家列舉一些要點。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友。感恩相遇!感恩不離不棄。 中午開了第一次的黨會,身份的轉變要...
    余生動聽閱讀 10,834評論 0 11
  • 彩排完,天已黑
    劉凱書法閱讀 4,470評論 1 3
  • 沒事就多看看書,因為腹有詩書氣自華,讀書萬卷始通神。沒事就多出去旅游,別因為沒錢而找借口,因為只要你省吃儉用,來...
    向陽之心閱讀 4,973評論 3 11
  • 表情是什么,我認為表情就是表現(xiàn)出來的情緒。表情可以傳達很多信息。高興了當然就笑了,難過就哭了。兩者是相互影響密不可...
    Persistenc_6aea閱讀 129,610評論 2 7

友情鏈接更多精彩內容