你為什么需要數(shù)據(jù)分析能力?
我們生活在數(shù)據(jù)驅(qū)動(dòng)一切的時(shí)代,數(shù)據(jù)挖掘和數(shù)據(jù)分析就是這個(gè)時(shí)代的“淘金”,從國(guó)家、企業(yè)、組織到個(gè)人,都一定會(huì)關(guān)注各種數(shù)據(jù),從這些數(shù)據(jù)中得到價(jià)值。
數(shù)據(jù)分析的核心就是培養(yǎng)數(shù)據(jù)思維,掌握挖掘工具,熟練實(shí)踐并積累經(jīng)驗(yàn)。
MAS 方法
- Multi-Dimension:想要掌握一個(gè)事物,就要從多個(gè)角度去認(rèn)識(shí)它。
- Ask:不懂就問(wèn),程序員大多都很羞澀,突破這一點(diǎn),不懂就問(wèn)最重要。
- Sharing:最好的學(xué)習(xí)就是分享。用自己的語(yǔ)言講出來(lái),是對(duì)知識(shí)的進(jìn)一步梳理。
怎么和數(shù)據(jù)分析建立多維度連接呢?我特意把內(nèi)容分成了三個(gè)大類(lèi)。第一類(lèi)是基礎(chǔ)概念。這是我們學(xué)習(xí)的基礎(chǔ),一定不能落下。第二類(lèi)是工具。這個(gè)部分可以很好地鍛煉你的實(shí)操能力。第三類(lèi)是題庫(kù)。題庫(kù)的作用是幫你查漏補(bǔ)缺,在這個(gè)過(guò)程中,你會(huì)情不自禁地進(jìn)行思考。
01丨數(shù)據(jù)分析全景圖及修煉指南
數(shù)據(jù)分析分成三個(gè)重要的組成部分
- 數(shù)據(jù)采集。它是我們的原材料,也是最“接地氣”的部分,因?yàn)槿魏畏治龆家袛?shù)據(jù)源。
- 數(shù)據(jù)挖掘。它可以說(shuō)是最“高大上”的部分,也是整個(gè)商業(yè)價(jià)值所在。之所以要進(jìn)行數(shù)據(jù)分析,就是要找到其中的規(guī)律,來(lái)指導(dǎo)我們的業(yè)務(wù)。因此數(shù)據(jù)挖掘的核心是挖掘數(shù)據(jù)的商業(yè)價(jià)值,也就是我們所談的商業(yè)智能 BI。它可以說(shuō)是知識(shí)型的工程,相當(dāng)于整個(gè)專(zhuān)欄中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的數(shù)學(xué)基礎(chǔ)。
-
數(shù)據(jù)可視化。它可以說(shuō)是數(shù)據(jù)領(lǐng)域中萬(wàn)金油的技能,可以讓我們直觀地了解到數(shù)據(jù)分析的結(jié)果。
image.png
image.png
image.png
image.png
作者給的學(xué)習(xí)建議:認(rèn)知三步曲,從認(rèn)知到工具,再到實(shí)戰(zhàn)。

記錄下你每天的認(rèn)知。尤其是每次課程后,對(duì)知識(shí)點(diǎn)的自我理解。這些認(rèn)知對(duì)應(yīng)工具的哪些操作。用工具來(lái)表達(dá)你對(duì)知識(shí)點(diǎn)的掌握,并用自己的語(yǔ)言記錄下這些操作筆記。做更多練習(xí)來(lái)鞏固你的認(rèn)知。我們學(xué)習(xí)的內(nèi)容對(duì)于大部分外人來(lái)說(shuō),就像“開(kāi)車(chē)”一樣,很酷。我們學(xué)習(xí)的內(nèi)容,對(duì)于要掌握的人來(lái)說(shuō),也像“開(kāi)車(chē)”一樣,其實(shí)并不難,而且很多人已經(jīng)上路了。你需要的就是更多的練習(xí)。
02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么?
數(shù)據(jù)挖掘的基本流程
- 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的,我們的目的是更好地幫助業(yè)務(wù),所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求,在這個(gè)基礎(chǔ)上,再對(duì)數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義。
- 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行探索,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗(yàn)證等。這有助于你對(duì)收集的數(shù)據(jù)有個(gè)初步的認(rèn)知。
- 數(shù)據(jù)準(zhǔn)備:開(kāi)始收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作。
- 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類(lèi)結(jié)果。
- 模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)。
- 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說(shuō)的“知識(shí)”,獲得的知識(shí)需要轉(zhuǎn)化成用戶可以使用的方式,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過(guò)程。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營(yíng)的一部分,那么后續(xù)的監(jiān)控和維護(hù)就會(huì)變得重要。
數(shù)據(jù)挖掘的十大算法為了進(jìn)行數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)科學(xué)家們提出了各種模型,在眾多的數(shù)據(jù)挖掘模型中,國(guó)際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評(píng)選出了十大經(jīng)典的算法。
按照不同的目的,我可以將這些算法分成四類(lèi),以便你更好的理解。
- 分類(lèi)算法:C4.5,樸素貝葉斯(Naive Bayes),SVM,KNN,Adaboost,CARTl
- 聚類(lèi)算法:K-Means,EMl
- 關(guān)聯(lián)分析:Aprioril
- 連接分析:PageRank
數(shù)據(jù)挖掘的數(shù)學(xué)原理
如果你不了解概率論和數(shù)理統(tǒng)計(jì),還是很難掌握算法的本質(zhì);如果你不懂線性代數(shù),就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值;如果你沒(méi)有最優(yōu)化方法的概念,就對(duì)迭代收斂理解不深。
- 概率論與數(shù)理統(tǒng)計(jì)。數(shù)據(jù)挖掘里使用到概率論的地方就比較多了。比如條件概率、獨(dú)立性的概念,以及隨機(jī)變量、多維隨機(jī)變量的概念。很多算法的本質(zhì)都與概率論相關(guān),所以說(shuō)概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)。
- 線性代數(shù)。向量和矩陣是線性代數(shù)中的重要知識(shí)點(diǎn),它被廣泛應(yīng)用到數(shù)據(jù)挖掘中,比如我們經(jīng)常會(huì)把對(duì)象抽象為矩陣的表示,一幅圖像就可以抽象出來(lái)是一個(gè)矩陣,我們也經(jīng)常計(jì)算特征值和特征向量,用特征向量來(lái)近似代表物體的特征。這個(gè)是大數(shù)據(jù)降維的基本思路?;诰仃嚨母鞣N運(yùn)算,以及基于矩陣的理論成熟,可以幫我們解決很多實(shí)際問(wèn)題,比如 PCA 方法、SVD 方法,以及 MF、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用。
- 圖論。社交網(wǎng)絡(luò)的興起,讓圖論的應(yīng)用也越來(lái)越廣。人與人的關(guān)系,可以用圖論上的兩個(gè)節(jié)點(diǎn)來(lái)進(jìn)行連接,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽(tīng)說(shuō)過(guò)人脈的六度理論,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接,只需要 3.57 個(gè)人。當(dāng)然圖論對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用。
- 最優(yōu)化方法。最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過(guò)程,當(dāng)機(jī)器知道了目標(biāo),訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整,那么最優(yōu)化就是這個(gè)調(diào)整的過(guò)程。一般來(lái)說(shuō),這個(gè)學(xué)習(xí)和迭代的過(guò)程是漫長(zhǎng)、隨機(jī)的。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂,取得更好的效果。



