理解一門學(xué)問(wèn),最重要的是先搭建起框架??蚣芫酮q如是房屋的梁和柱,只有框架搭得穩(wěn),才能扎根牢、立得住。
數(shù)據(jù)分析技能的框架,可以歸為以下:
采集(數(shù)據(jù)獲?。逑矗〝?shù)據(jù)整理)——探索——分析——建?!故?/p>
這是按照數(shù)據(jù)從產(chǎn)生到最后產(chǎn)生價(jià)值的流程進(jìn)行的歸納總結(jié)。
本質(zhì)上講,數(shù)據(jù)分析工作的實(shí)質(zhì)就在于利用各種工具(領(lǐng)域知識(shí)、數(shù)據(jù)知識(shí)、計(jì)算機(jī)知識(shí)),加工數(shù)據(jù),產(chǎn)生商業(yè)價(jià)值。
采集
數(shù)據(jù)來(lái)源
埋點(diǎn)上報(bào)
什么是埋點(diǎn)
埋點(diǎn)的作用
埋點(diǎn)開發(fā)流程
互聯(lián)網(wǎng)資源
工具:爬蟲
什么是爬蟲
爬蟲工作流程
清洗
Hadoop生態(tài)及其組件
HDFS
block
MapReduce
streaming
WordCount Example
combiner/partitioner/comparator
提交streaming任務(wù)
Yarn
Hive
DDL?和 DML
正則解析器
Views
UDF
優(yōu)化
Partitioning/Bucketing/Sampling
Map-side Join
Data Skew
Compression
Spark
RDD
Transformation
Action
廣播變量與累加器
DataFrame
過(guò)濾
Fuctions
聚合
Join
用戶自定義函數(shù)
時(shí)間處理
窗口函數(shù)
優(yōu)化
Shuffle
Optimizing Joins
持久化
資源分布
動(dòng)態(tài)分布
內(nèi)存管理
部署環(huán)境
探索
常見統(tǒng)計(jì)指標(biāo)
集中趨勢(shì)
分散趨勢(shì)
形態(tài)度量
特征相關(guān)性
異常值檢驗(yàn)
常用圖表
散點(diǎn)圖
箱型圖
小提琴圖
分析
分析思路
提出假設(shè)
多維拆解
路徑分析
數(shù)據(jù)驗(yàn)證
建模
機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)
線性代數(shù)
矩陣運(yùn)算
矩陣LU分解
四個(gè)基本子空間
矩陣投影
行列式
特征值
奇異值分解
概率論
隨機(jī)變量
離散型隨機(jī)分布:兩點(diǎn)、二項(xiàng)、泊松
連續(xù)性隨機(jī)分布:均勻、指數(shù)、正態(tài)
多元隨機(jī)變量極其分布
邊緣分布
條件分布
獨(dú)立性
大數(shù)定理與中心極限定理
抽樣分布理論
抽樣分布
參數(shù)估計(jì)
極大似然估計(jì)
微積分
梯度、偏導(dǎo)數(shù)
鏈?zhǔn)椒▌t
拉格朗日乘法
泰勒展開
監(jiān)督學(xué)習(xí)
常見算法
邏輯回歸
樸素貝葉斯
SVM
決策樹
K近鄰
提升方法
EM
機(jī)器學(xué)習(xí)理論基礎(chǔ)
霍夫丁不等式
VC dimension
有噪音情況下的學(xué)習(xí)
非監(jiān)督學(xué)習(xí)
聚類
K-means
混合高斯分布
特征縮放
特征選擇
特征轉(zhuǎn)化
PCA
ICA
RCA
強(qiáng)化學(xué)習(xí)
馬爾科夫決策
Q-learning
深度學(xué)習(xí)
工程基礎(chǔ)
python基礎(chǔ)
數(shù)據(jù)結(jié)構(gòu)
控制語(yǔ)句
面向?qū)ο?/p>
pandas
numpy
scala基礎(chǔ)
數(shù)據(jù)結(jié)構(gòu)
控制結(jié)構(gòu)
函數(shù)編程
集合操作
TensorFlow基礎(chǔ)
基礎(chǔ)結(jié)構(gòu)
構(gòu)建神經(jīng)網(wǎng)絡(luò)
過(guò)擬合
droppout
卷積神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)
LTSM
批標(biāo)準(zhǔn)化
展示
圖表類型
單變量
二變量
多變量
繪圖工具
matplot/seaborn