數(shù)據(jù)分析與挖掘技能通講(一)框架

理解一門學(xué)問(wèn),最重要的是先搭建起框架??蚣芫酮q如是房屋的梁和柱,只有框架搭得穩(wěn),才能扎根牢、立得住。

數(shù)據(jù)分析技能的框架,可以歸為以下:

采集(數(shù)據(jù)獲?。逑矗〝?shù)據(jù)整理)——探索——分析——建?!故?/p>

這是按照數(shù)據(jù)從產(chǎn)生到最后產(chǎn)生價(jià)值的流程進(jìn)行的歸納總結(jié)。

本質(zhì)上講,數(shù)據(jù)分析工作的實(shí)質(zhì)就在于利用各種工具(領(lǐng)域知識(shí)、數(shù)據(jù)知識(shí)、計(jì)算機(jī)知識(shí)),加工數(shù)據(jù),產(chǎn)生商業(yè)價(jià)值。

采集

數(shù)據(jù)來(lái)源

埋點(diǎn)上報(bào)

什么是埋點(diǎn)

埋點(diǎn)的作用

埋點(diǎn)開發(fā)流程

互聯(lián)網(wǎng)資源

工具:爬蟲

什么是爬蟲

爬蟲工作流程

清洗

Hadoop生態(tài)及其組件

HDFS

block

MapReduce

streaming

WordCount Example

combiner/partitioner/comparator

提交streaming任務(wù)

Yarn

Hive

DDL?和 DML

正則解析器

Views

UDF

優(yōu)化

Partitioning/Bucketing/Sampling

Map-side Join

Data Skew

Compression

Spark

RDD

Transformation

Action

廣播變量與累加器

DataFrame

過(guò)濾

Fuctions

聚合

Join

用戶自定義函數(shù)

時(shí)間處理

窗口函數(shù)

優(yōu)化

Shuffle

Optimizing Joins

持久化

資源分布

動(dòng)態(tài)分布

內(nèi)存管理

部署環(huán)境

探索

常見統(tǒng)計(jì)指標(biāo)

集中趨勢(shì)

分散趨勢(shì)

形態(tài)度量

特征相關(guān)性

異常值檢驗(yàn)

常用圖表

散點(diǎn)圖

箱型圖

小提琴圖

分析

分析思路

提出假設(shè)

多維拆解

路徑分析

數(shù)據(jù)驗(yàn)證

建模

機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)

線性代數(shù)

矩陣運(yùn)算

矩陣LU分解

四個(gè)基本子空間

矩陣投影

行列式

特征值

奇異值分解

概率論

隨機(jī)變量

離散型隨機(jī)分布:兩點(diǎn)、二項(xiàng)、泊松

連續(xù)性隨機(jī)分布:均勻、指數(shù)、正態(tài)

多元隨機(jī)變量極其分布

邊緣分布

條件分布

獨(dú)立性

大數(shù)定理與中心極限定理

抽樣分布理論

抽樣分布

參數(shù)估計(jì)

極大似然估計(jì)

微積分

梯度、偏導(dǎo)數(shù)

鏈?zhǔn)椒▌t

拉格朗日乘法

泰勒展開

監(jiān)督學(xué)習(xí)

常見算法

邏輯回歸

樸素貝葉斯

SVM

決策樹

K近鄰

提升方法

EM

機(jī)器學(xué)習(xí)理論基礎(chǔ)

霍夫丁不等式

VC dimension

有噪音情況下的學(xué)習(xí)

非監(jiān)督學(xué)習(xí)

聚類

K-means

混合高斯分布

特征縮放

特征選擇

特征轉(zhuǎn)化

PCA

ICA

RCA

強(qiáng)化學(xué)習(xí)

馬爾科夫決策

Q-learning

深度學(xué)習(xí)

工程基礎(chǔ)

python基礎(chǔ)

數(shù)據(jù)結(jié)構(gòu)

控制語(yǔ)句

面向?qū)ο?/p>

pandas

numpy

scala基礎(chǔ)

數(shù)據(jù)結(jié)構(gòu)

控制結(jié)構(gòu)

函數(shù)編程

集合操作

TensorFlow基礎(chǔ)

基礎(chǔ)結(jié)構(gòu)

構(gòu)建神經(jīng)網(wǎng)絡(luò)

過(guò)擬合

droppout

卷積神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)

LTSM

批標(biāo)準(zhǔn)化

展示

圖表類型

單變量

二變量

多變量

繪圖工具

matplot/seaborn

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 文章主要分為:一、深度學(xué)習(xí)概念;二、國(guó)內(nèi)外研究現(xiàn)狀;三、深度學(xué)習(xí)模型結(jié)構(gòu);四、深度學(xué)習(xí)訓(xùn)練算法;五、深度學(xué)習(xí)的優(yōu)點(diǎn)...
    艾剪疏閱讀 22,217評(píng)論 0 58
  • 畫廊繡舫霓裳舞閱讀 225評(píng)論 0 2
  • 李乾坤David閱讀 140評(píng)論 0 0
  • 做了許多事情,最后沒有一個(gè)合理又完美的理由讓你繼續(xù)堅(jiān)持的時(shí)候,除了茫然無(wú)措和心慌,我們還可以做什么? 1. 當(dāng)初做...
    Hebetow閱讀 690評(píng)論 2 1

友情鏈接更多精彩內(nèi)容