大數(shù)據(jù)核心開發(fā)技術(shù) - 內(nèi)存計算框架Spark精講Spark是UC Berkeley AMP lab所開源的類Hadoop
MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)。啟用了內(nèi)存分布數(shù)據(jù)集,除
了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark Streaming:
構(gòu)建在Spark上處理Stream數(shù)據(jù)的框架,基本的原理是將Stream數(shù)據(jù)分成小的時間片斷
(幾秒),以類似batch批量處理的方式來處理這小部分?jǐn)?shù)據(jù)
1)Spark 初識入門
2)Spark 概述、生態(tài)系統(tǒng)、與MapReduce比較
3)Spark 編譯、安裝部署(Standalone Mode)及測試
4)Spark應(yīng)用提交工具(spark-submit,spark-shell)
5)Scala基本知識講解(變量,類,高階函數(shù))
6)Spark 核心RDD
7)RDD特性、常見操作、緩存策略
8)RDD Dependency、Stage常、源碼分析
9)Spark 核心組件概述10)案例分析
11)Spark 高階應(yīng)用
12)Spark on YARN運(yùn)行原理、運(yùn)行模式及測試
13)Spark HistoryServer歷史應(yīng)用監(jiān)控
14)Spark Streaming流式計算
15)Spark Streaming 原理、DStream設(shè)計
16)Spark Streaming 常見input、out
17)Spark Streaming 與Kafka集成
18)使用Spark對進(jìn)行分析