數(shù)據(jù)分析方法論or數(shù)據(jù)挖掘方法論,搞數(shù)據(jù)你會多少種?

????????數(shù)據(jù)分析小白往往在學(xué)了一大通數(shù)據(jù)分析工具,比如Excel/SQL/Python /java/SPSS什么的之后總感覺分析數(shù)據(jù)沒思路,一是沒有數(shù)據(jù)可供你分析,網(wǎng)上找的一堆數(shù)據(jù)都不是你“理想”的數(shù)據(jù)形態(tài),因為學(xué)習(xí)用的數(shù)據(jù)好像都是恰好是解決學(xué)習(xí)的那個部分知識,別的問題都沒有,很“干凈";二是你自己爬數(shù)據(jù)或者找公司內(nèi)部的數(shù)據(jù),發(fā)現(xiàn)不是格式有問題就是完整度缺失,又或者沒法用一些成熟的方法去套。

????????這個時候可能就會想是不是自己還不會什么竅門或者方法論呢?一去4某度、某乎搜索會發(fā)現(xiàn)五花八門的答案,各種大拿的高贊答案說一樣都一樣,說不一樣好像都不一樣,甚至你會看到,有說統(tǒng)計方法論(比如描述分析、回歸分析、判別分析、時間序列)、商業(yè)方法論(PEST、波特五力模型、SWOT、4P、5W2H),還有說的簡單明了的,平均分析法、對比分析法、交叉分析法、趨勢分析法、結(jié)構(gòu)分析法,也有名字高深點的,CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM。

????????你會傻傻分不清到底誰說的才是對的呢?實際上,你的判斷需要基于對答主的職位和行業(yè)等背景,因為方法論本身是抽象的,具體到各個行業(yè)各個崗位經(jīng)過長期實踐總結(jié)而來的一種流程或體系,所以因人而異,看你今后往哪個領(lǐng)域發(fā)展而著重搞懂這個領(lǐng)域的“方法論”。

????????從行業(yè)來說,商業(yè)領(lǐng)域和工業(yè)領(lǐng)域的數(shù)據(jù)類型、存儲方式、數(shù)據(jù)量不同,方法論自然不同。對于職位來說,對于業(yè)務(wù)運營只需要知道常用分析思路,比如對比、趨勢、占比、異常;對于初級數(shù)據(jù)分析師而言,先需要記住各種分析法,以及結(jié)合分析工具怎么實現(xiàn);對于高級數(shù)據(jù)分析師而言,需要掌握商業(yè)方法論、回歸分析、判別分析、時間序列等等。

????????數(shù)據(jù)分析師和數(shù)據(jù)挖掘工程師又是不同的概念,對于數(shù)據(jù)挖掘工程師而言,不僅需要掌握各種數(shù)據(jù)挖掘模型,比如邏輯回歸、支持向量機(jī)、線性回歸、貝葉斯模型、決策樹模型、集成學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò),還需要掌握真正的“方法論”,也就是CRISP-DM、SEMMA、挖掘9律等等。

????????為什么這么說?因為數(shù)據(jù)分析實際上并沒有業(yè)界普遍接受的方法論,甚至都不能叫方法論,只能說對某種分析方法大家各有各的叫法,比如數(shù)據(jù)分析師比較熟悉的理論——"AARRR模型",對用戶運營叫“增長模型”或是“海盜模型”,對數(shù)據(jù)分析師叫"AARRR模型"或漏斗模型,對數(shù)據(jù)產(chǎn)品經(jīng)理來說叫“客戶生命周期模型”。甚至對這些方法來說只是解決某個局部問題的,相當(dāng)于搭建一個網(wǎng)站,各種各樣的組件只能叫方法,有的人用了一系列組件把它總結(jié)一個流程,另一個也總結(jié)一個流程,但它們都不是公認(rèn)的標(biāo)準(zhǔn)。然而對于數(shù)據(jù)挖掘(更常用于大數(shù)據(jù)或工業(yè)界),是有業(yè)界公認(rèn)的完整解決項目標(biāo)準(zhǔn)的,比如CRISP-DM、SEMMA。做產(chǎn)品的、做用戶的、做數(shù)據(jù)的面向的對象不同,思路自然是不同的。所以作為數(shù)據(jù)分析小白應(yīng)該正確甄別,各取所需。

????????下面我們詳細(xì)解釋一下我們能常見到的一些概念,你就能明白它們都是干什么用的,也就知道了你需要哪些、怎么用。

1.統(tǒng)計方法論(不是方法論,只是方法)

????????這類方法論主要包括描述分析、回歸分析、判別分析、時間序列分析、ARIMA模型、ABtest等從統(tǒng)計學(xué)來的術(shù)語。無論是數(shù)據(jù)分析還是數(shù)據(jù)挖掘都是從數(shù)據(jù)里發(fā)現(xiàn)某種規(guī)律,也就是從樣本數(shù)據(jù)(你所能得到的數(shù)據(jù)都是樣本數(shù)據(jù))來推理總體數(shù)據(jù)(總體是永遠(yuǎn)無法被全部看到的)的某些規(guī)律或特征,然后我們再利用這些規(guī)律來預(yù)測指導(dǎo)我們還未得到的但是想得到的另一部分樣本數(shù)據(jù)的特征,比如大數(shù)據(jù)殺熟,就是利用它掌握你已有的數(shù)據(jù)來判斷你的行為規(guī)律。而統(tǒng)計學(xué)是最早形成關(guān)于數(shù)據(jù)問題的研究的專門學(xué)問,所以現(xiàn)在很多方法大都來源于統(tǒng)計學(xué)。

????????賈俊平老師的《統(tǒng)計學(xué)》定義了數(shù)據(jù)分析方法可分為描述統(tǒng)計和推斷統(tǒng)計兩種方法,描述統(tǒng)計研究的是數(shù)據(jù)如何收集、處理、匯總、圖表描述、概括與分析等,推斷統(tǒng)計是研究如何利用樣本數(shù)據(jù)推斷總體數(shù)據(jù)。這可以說是最權(quán)威的定義了。

我們常說的描述統(tǒng)計分析都是這里的一方面,分別對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間關(guān)系研究。我們需要根據(jù)數(shù)據(jù)類型和對象數(shù)量來確定所用方法。下面這張圖比較清楚展示各種方法:

????????統(tǒng)計推斷是基于描述性統(tǒng)計基礎(chǔ)上的方法,主要是參數(shù)估計、假設(shè)檢驗、隨機(jī)過程和判別分析,它解決問題的步驟與上面相比更加復(fù)雜和系統(tǒng)。下面這張圖展示了這些方法:

2.商業(yè)方法論(不是方法論,只是方法)

????????這類包含了很多成熟了方法模型,不僅有PEST、波特五力模型、SWOT、4P、5W2H,還有波士頓矩陣、SPACE矩陣、三四矩陣等等,這些分析模型大都是商業(yè)實踐總結(jié)出的經(jīng)典模型,它們的實用性和針對性很強(qiáng),從品牌、營銷、管理、戰(zhàn)略、用戶角度提煉出的抽象模型。它給我們提供了分析問題的思路,但是對大部分?jǐn)?shù)據(jù)從業(yè)者來說是用不到的,而針對咨詢公司或大公司的管理者。這就是這些分析方法對數(shù)據(jù)從業(yè)者的定位,大家都需要了解,但是一輩子可能都用不到。還有一個問題是這些模型雖然也是基于數(shù)據(jù),但是數(shù)據(jù)從業(yè)者計算、挖掘這種利用數(shù)據(jù),而是管理者或?qū)<一跀?shù)據(jù)的經(jīng)驗判斷。下面這張圖展示了這些經(jīng)典方法:

????????當(dāng)然,如果你是”PPT“級別的數(shù)據(jù)分析師,這些商業(yè)模型套路是要準(zhǔn)備的,顯得高大上,但是往往不“實用”。

3.常用“方法論”(不是方法論,只是方法)

????????接下來就是數(shù)據(jù)分析小白耳熟能詳?shù)某S谩胺椒ㄕ摗绷?。如果功課做得好的,張口就來——平均分析法、對比分析法、交叉分析法、趨勢分析法、結(jié)構(gòu)分析法、異常分析法、關(guān)聯(lián)分析、聚類分析、漏斗分析、杜邦分析等等,還有很多。對于運營、HR、財務(wù)、數(shù)據(jù)分析師等來說最容易使用也是最常使用的。但是有一個問題是什么時候用什么,該用哪些不該用哪些常常會讓人疑惑,也沒人告訴你有什么標(biāo)準(zhǔn)。但是作為數(shù)據(jù)分析自己還是需要一個分類標(biāo)準(zhǔn),把經(jīng)常性的方法整理歸類,方便日后再使用,你有了全部分析方法就會避免遺漏了分析角度。下面這張圖展示了這些方法的應(yīng)用角度:

????????我們在分析數(shù)據(jù)時,往往應(yīng)該從描述、比較、趨勢、占比、相關(guān)等角度進(jìn)行,而且這些角度也不是孤立的,會產(chǎn)生多重作用和功能。我們分析趨勢也會進(jìn)行比較,看結(jié)構(gòu)時也會進(jìn)行比較或者看趨勢。

3.挖掘方法論(業(yè)界公認(rèn)的標(biāo)準(zhǔn),是方法論)

????????厘清了上面的各種“方法論”之后,我們再來看實際“方法論”長什么樣。不同于上面五花八門的方法,下面這些數(shù)量不多,但是是用的比較成熟的理論。主要有CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM等。先來看一個數(shù)據(jù):

????????這張圖是著名的數(shù)據(jù)科學(xué)技術(shù)網(wǎng)站KDnuggets上民意調(diào)查得到的關(guān)于數(shù)據(jù)分析、數(shù)據(jù)挖掘的方法論(methodology)的排名??梢钥吹脚旁诘谝晃坏木褪荂RISP-DM,第三位SEMMA,第二位的“My own"表示的是自己的方法論。下面這張圖左邊是另一個數(shù)據(jù)科學(xué)網(wǎng)站的排名,你也可以看到CRISP-DM排在第一位,而且長期排在第一位??梢钥吹狡鋵崒τ诜椒ㄕ?,數(shù)據(jù)從業(yè)者其實是有特定指認(rèn)的,不是所有的方法都叫方法論。

????????什么是CRISP-DM?它的全稱(cross-industry standard process for data mining), 即為"跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程"。此KDD過程模型于1999年歐盟機(jī)構(gòu)聯(lián)合起草的數(shù)據(jù)挖掘項目的標(biāo)準(zhǔn)化方法,也是業(yè)內(nèi)公認(rèn)的數(shù)據(jù)挖掘與分析的通用方法論。它的主要流程如下圖展示:

????????通過了解CRISP-DM,我們應(yīng)該明白了所謂的方法論是什么,它是一個完整、通用、可行的流程和框架,無論是數(shù)據(jù)分析還是數(shù)據(jù)挖掘,都有這么一個商業(yè)理解、數(shù)據(jù)收集、數(shù)據(jù)處理、分析/建模、應(yīng)用/部署的過程。

????????實際上,我們想找方法論無非就是想搞清楚我該做什么、怎么做、怎么確保它是正確的,也就是說想建立一套自己的分析/挖掘套路,那么其實對于數(shù)據(jù)分析師還是數(shù)據(jù)挖掘工程師都可以從先這個流程建立自己的框架。然后需要用到什么具體的方法可以從上面找,一步一步組合,就可以形成自己的方法論。下面結(jié)合上面的各種分析方法提供了一個簡要的流程框架:

????????需要注意的是,CRISP-DM是一個環(huán)形過程,而這個過程雖然是是線性過程,但實際上也需要反反復(fù)復(fù)驗證和調(diào)整。這里所有介紹都只是框架,把幾乎所有分析、挖掘方法都囊括進(jìn)來。我將在后續(xù)文章里逐一介紹這些方法和模型如何使用,并且還會有完整案例。

????????最后歡迎大家關(guān)注我,我是拾陸,搜索公眾號“二八Data”,更多技術(shù)干貨持續(xù)奉獻(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 雖然說方法論在工業(yè)大數(shù)據(jù)的重要性,不及業(yè)務(wù)行業(yè)理解那么重要,但是對于方法論的理解,尤其是澄清對于一些細(xì)節(jié)的誤解,對...
    黑盒理論閱讀 788評論 0 0
  • 不要用戰(zhàn)術(shù)上的勤奮來掩蓋戰(zhàn)略上的懶惰——雷軍 在數(shù)據(jù)分析這件事上,數(shù)據(jù)分析方法論就是戰(zhàn)略,數(shù)據(jù)分析法就是戰(zhàn)術(shù)。對于...
    辰智閱讀 1,721評論 0 3
  • 做大數(shù)據(jù)分析的三大作用,主要是:現(xiàn)狀分析、原因分析和預(yù)測分析。什么時候開展什么樣的數(shù)據(jù)分析,需要根據(jù)我們的需求和目...
    UIleader閱讀 1,447評論 0 1
  • 數(shù)據(jù)分析過程: 1、以事實為基礎(chǔ)提出假設(shè),界定問題 2、將問題細(xì)分,形成互不重疊的子問題 3、進(jìn)行數(shù)據(jù)收集與分析,...
    田浩沛閱讀 901評論 0 5
  • 作者:斌迪 在進(jìn)入正題前,先來說說何為數(shù)據(jù)分析方法論。 方法論,我們可以理解為一種以解決問題為目標(biāo)的理論體系或系統(tǒng)...
    sase_75de閱讀 532評論 0 0

友情鏈接更多精彩內(nèi)容