數(shù)據(jù)分析實(shí)戰(zhàn)45講 筆記一

你為什么需要數(shù)據(jù)分析能力?

我們生活在數(shù)據(jù)驅(qū)動(dòng)一切的時(shí)代,數(shù)據(jù)挖掘和數(shù)據(jù)分析就是這個(gè)時(shí)代的“淘金”,從國(guó)家、企業(yè)、組織到個(gè)人,都一定會(huì)關(guān)注各種數(shù)據(jù),從這些數(shù)據(jù)中得到價(jià)值。

數(shù)據(jù)分析的核心就是培養(yǎng)數(shù)據(jù)思維,掌握挖掘工具,熟練實(shí)踐并積累經(jīng)驗(yàn)。

MAS 方法

  1. Multi-Dimension:想要掌握一個(gè)事物,就要從多個(gè)角度去認(rèn)識(shí)它。
  2. Ask:不懂就問(wèn),程序員大多都很羞澀,突破這一點(diǎn),不懂就問(wèn)最重要。
  3. Sharing:最好的學(xué)習(xí)就是分享。用自己的語(yǔ)言講出來(lái),是對(duì)知識(shí)的進(jìn)一步梳理。

怎么和數(shù)據(jù)分析建立多維度連接呢?我特意把內(nèi)容分成了三個(gè)大類(lèi)。第一類(lèi)是基礎(chǔ)概念。這是我們學(xué)習(xí)的基礎(chǔ),一定不能落下。第二類(lèi)是工具。這個(gè)部分可以很好地鍛煉你的實(shí)操能力。第三類(lèi)是題庫(kù)。題庫(kù)的作用是幫你查漏補(bǔ)缺,在這個(gè)過(guò)程中,你會(huì)情不自禁地進(jìn)行思考。

01丨數(shù)據(jù)分析全景圖及修煉指南

數(shù)據(jù)分析分成三個(gè)重要的組成部分

  1. 數(shù)據(jù)采集。它是我們的原材料,也是最“接地氣”的部分,因?yàn)槿魏畏治龆家袛?shù)據(jù)源。
  2. 數(shù)據(jù)挖掘。它可以說(shuō)是最“高大上”的部分,也是整個(gè)商業(yè)價(jià)值所在。之所以要進(jìn)行數(shù)據(jù)分析,就是要找到其中的規(guī)律,來(lái)指導(dǎo)我們的業(yè)務(wù)。因此數(shù)據(jù)挖掘的核心是挖掘數(shù)據(jù)的商業(yè)價(jià)值,也就是我們所談的商業(yè)智能 BI。它可以說(shuō)是知識(shí)型的工程,相當(dāng)于整個(gè)專(zhuān)欄中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的數(shù)學(xué)基礎(chǔ)。
  3. 數(shù)據(jù)可視化。它可以說(shuō)是數(shù)據(jù)領(lǐng)域中萬(wàn)金油的技能,可以讓我們直觀地了解到數(shù)據(jù)分析的結(jié)果。


    image.png

    image.png

    image.png

    image.png

作者給的學(xué)習(xí)建議:認(rèn)知三步曲,從認(rèn)知到工具,再到實(shí)戰(zhàn)。


image.png

記錄下你每天的認(rèn)知。尤其是每次課程后,對(duì)知識(shí)點(diǎn)的自我理解。這些認(rèn)知對(duì)應(yīng)工具的哪些操作。用工具來(lái)表達(dá)你對(duì)知識(shí)點(diǎn)的掌握,并用自己的語(yǔ)言記錄下這些操作筆記。做更多練習(xí)來(lái)鞏固你的認(rèn)知。我們學(xué)習(xí)的內(nèi)容對(duì)于大部分外人來(lái)說(shuō),就像“開(kāi)車(chē)”一樣,很酷。我們學(xué)習(xí)的內(nèi)容,對(duì)于要掌握的人來(lái)說(shuō),也像“開(kāi)車(chē)”一樣,其實(shí)并不難,而且很多人已經(jīng)上路了。你需要的就是更多的練習(xí)。

02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么?

數(shù)據(jù)挖掘的基本流程

  1. 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的,我們的目的是更好地幫助業(yè)務(wù),所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求,在這個(gè)基礎(chǔ)上,再對(duì)數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義。
  2. 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行探索,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗(yàn)證等。這有助于你對(duì)收集的數(shù)據(jù)有個(gè)初步的認(rèn)知。
  3. 數(shù)據(jù)準(zhǔn)備:開(kāi)始收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作。
  4. 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類(lèi)結(jié)果。
  5. 模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)。
  6. 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說(shuō)的“知識(shí)”,獲得的知識(shí)需要轉(zhuǎn)化成用戶可以使用的方式,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過(guò)程。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營(yíng)的一部分,那么后續(xù)的監(jiān)控和維護(hù)就會(huì)變得重要。

數(shù)據(jù)挖掘的十大算法為了進(jìn)行數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)科學(xué)家們提出了各種模型,在眾多的數(shù)據(jù)挖掘模型中,國(guó)際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評(píng)選出了十大經(jīng)典的算法。
按照不同的目的,我可以將這些算法分成四類(lèi),以便你更好的理解。

  • 分類(lèi)算法:C4.5,樸素貝葉斯(Naive Bayes),SVM,KNN,Adaboost,CARTl
  • 聚類(lèi)算法:K-Means,EMl
  • 關(guān)聯(lián)分析:Aprioril
  • 連接分析:PageRank

數(shù)據(jù)挖掘的數(shù)學(xué)原理
如果你不了解概率論和數(shù)理統(tǒng)計(jì),還是很難掌握算法的本質(zhì);如果你不懂線性代數(shù),就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值;如果你沒(méi)有最優(yōu)化方法的概念,就對(duì)迭代收斂理解不深。

  1. 概率論與數(shù)理統(tǒng)計(jì)。數(shù)據(jù)挖掘里使用到概率論的地方就比較多了。比如條件概率、獨(dú)立性的概念,以及隨機(jī)變量、多維隨機(jī)變量的概念。很多算法的本質(zhì)都與概率論相關(guān),所以說(shuō)概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)。
  2. 線性代數(shù)。向量和矩陣是線性代數(shù)中的重要知識(shí)點(diǎn),它被廣泛應(yīng)用到數(shù)據(jù)挖掘中,比如我們經(jīng)常會(huì)把對(duì)象抽象為矩陣的表示,一幅圖像就可以抽象出來(lái)是一個(gè)矩陣,我們也經(jīng)常計(jì)算特征值和特征向量,用特征向量來(lái)近似代表物體的特征。這個(gè)是大數(shù)據(jù)降維的基本思路?;诰仃嚨母鞣N運(yùn)算,以及基于矩陣的理論成熟,可以幫我們解決很多實(shí)際問(wèn)題,比如 PCA 方法、SVD 方法,以及 MF、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用。
  3. 圖論。社交網(wǎng)絡(luò)的興起,讓圖論的應(yīng)用也越來(lái)越廣。人與人的關(guān)系,可以用圖論上的兩個(gè)節(jié)點(diǎn)來(lái)進(jìn)行連接,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽(tīng)說(shuō)過(guò)人脈的六度理論,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接,只需要 3.57 個(gè)人。當(dāng)然圖論對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用。
  4. 最優(yōu)化方法。最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過(guò)程,當(dāng)機(jī)器知道了目標(biāo),訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整,那么最優(yōu)化就是這個(gè)調(diào)整的過(guò)程。一般來(lái)說(shuō),這個(gè)學(xué)習(xí)和迭代的過(guò)程是漫長(zhǎng)、隨機(jī)的。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂,取得更好的效果。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 原文引自 豆瓣《數(shù)學(xué)之美》-筆記總結(jié) 第1章 文字和語(yǔ)言vs數(shù)字和信息 講述了文字、數(shù)字和語(yǔ)言的歷史,目的是幫助...
    _Haimei閱讀 1,742評(píng)論 0 3
  • 概率論與數(shù)理統(tǒng)計(jì) 無(wú)窮小階數(shù) 無(wú)窮小量表述:線性逼近 相當(dāng)于利用切線和斜率來(lái)理解誤差和逼近。 泰勒級(jí)數(shù):線性逼近 ...
    Babus閱讀 860評(píng)論 0 1
  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,397評(píng)論 2 64
  • 寫(xiě)在之前 因簡(jiǎn)書(shū)導(dǎo)入公式很麻煩,如果想獲得更好的觀看體驗(yàn)請(qǐng)移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 7,035評(píng)論 2 13
  • RSHandbook筆記P1C1:推薦系統(tǒng)中的數(shù)據(jù)挖掘方法 標(biāo)簽: 推薦系統(tǒng)HandBook筆記 由于簡(jiǎn)書(shū)不支持l...
    littlekid閱讀 1,401評(píng)論 0 5

友情鏈接更多精彩內(nèi)容