Spark2.x機器學習視頻教程

Spark2.x機器學習視頻教程

課程學習址:http://www.xuetuwuyou.com/course/311

課程出自學途無憂網:http://www.xuetuwuyou.com

本課程講解Spark 在機器學習中的應用,并介紹如何從各種公開渠道獲取用于機器學習系統(tǒng)的數據。內容涵蓋推薦系統(tǒng)、回歸、聚類、分類等經典機器學習算法及其實際應用,涵蓋使用Spark ML Pipeline API創(chuàng)建和調試機器學習流程,內容更加系統(tǒng)、全面、與時俱進,適合所有欲借助Spark來實現常見機器學習應用的開發(fā)者。

本課程主要講解基于Spark 2.x的機器學習庫,MLlib實現了常用的機器學習,如:聚類、分類、回歸等6大算法,使用Kaggle競賽數據集模型構建。

本課拒絕枯燥的講述,將循序漸進從Spark2.x的基礎知識開始,然后再透徹講解各個算法的理論、詳細展示Spark實現,最后均會通過實例進行解析實戰(zhàn),幫助大家真正從理論到實踐全面掌握Spark MLlib分布式機器學習。

通過該課程的學習同學們可以全面掌握Spark MLlib機器學習,進而能夠在實際工作中進行ML的應用開發(fā)和定制開發(fā)。

第一章:Spark 構建協(xié)同過濾ALS推薦模型

第1節(jié)、推薦系統(tǒng)概述及ALS算法剖析

1、Spark MLlib機器學習庫兩類API及常見四大類算法回顧說明

2、通過JD推薦和亞馬遜圖書推薦剖析推薦系統(tǒng)功能及核心點:相似度

3、分享淘寶推薦系統(tǒng)及協(xié)同過濾推薦核心思想及用戶對產品的評分分類

4、協(xié)同過濾推薦算法ALS核心剖析(將稀疏矩陣分解為用戶因子矩陣和產品因子矩陣)

5、Spark MLlib中基于RDD的ALS算法相關類的實現深入剖析

第2節(jié)、基于MovieLens電影推薦和模型評估RMSE

1、基于MovieLens電影評分數據使用ALS算法訓練模型并查看因子舉證

2、將MatrixFactorizeModel對用戶產品預測評價和為用戶、產品進行推薦及保存加載模型

3、如何評估模型為最佳模型(均方根誤差RMSE)及通過調整數據集和算法超參數獲取最佳模型

第3節(jié)、基于Audioscrobbler音樂推薦及模型調優(yōu)

1、回顧復習協(xié)同過濾算法核心要點及ALS算法矩陣分解

2、使用Scala語言開發(fā)對音樂推薦數據訓練模型(ALS中隱式評價函數)

3、組合ALS算法中多個超參數訓練模型、評估模型找到最佳模型

4、綜合分析不同超參數組合訓練不同模型狀況(顯示與隱式)

第二章:Spark 構建分類模型

第1節(jié)、分類算法概述及鳶尾花數據集分類

1、Spark MLlib中支持的分類算法(SVM、LR、NB和DT)和集成分類算法(RF和GBDT)及決策樹核心剖析

2、分類算法數據格式LabeledPoint及鳶尾花數據調研

3、讀取鳶尾花數據構建特征數據Features和標簽label、劃分數據集為訓練集和測試集

4、使用邏輯回歸算法訓練模型(二分類,調整數據集)及預測分類

5、使用樸素貝葉斯和決策樹回歸算法訓練鳶尾花數據集并預測計算精確度ACC

第2節(jié)、Kaggle競賽Titanic數據集預測生存預測

1、回顧復習Spark MLlib中分類算法、機器學習三要素及特征表示Vector

2、Kaggle競賽Titanic生存預測數據集調研及自定義Schema讀取

3、構建分類算法提取特征和數據格式LabeledPoint標簽向量

4、劃分數據集、使用二分類算法LR算法訓練模型和計算評估指標AUC

5、使用二分類算法LR、DT及RF和GBT算法分別訓練模型和計算AUC值比較

6、類別特征使用1-of-K方法轉換及Titanic數據中Sex轉換與測試

7、對Titanic數據中Age特征字段劃分范圍及使用1-of-K轉換特征(使用DT和RF進行分類訓練)

第3節(jié)、新聞數據NewsCorpora文本分類

1、文本特征提取詞袋模型BOW及TF-IDF加權方式剖析

2、針對新聞分類數據集使用樸素貝葉斯算法訓練模型和預測分類(一)

3、針對新聞分類數據集使用樸素貝葉斯算法訓練模型和預測分類(二)

4、樸素貝葉斯算法超參數解釋說明及分類模型評估指標精確度與混淆矩陣說明

5、Word2Vec算法模型將文本轉換為單詞向量及查找某單詞相似單詞

第三章:Spark 構建回歸模型

第1節(jié)、回歸算法概述及BikeSharing數據集訓練模型

1、Spark MLlib中支持的回歸算法及共享單車數據集調研分析與讀取

2、針對共享單車數據集選取特征(8個類別特征和4個數值特征)及構建RDD數據集

3、使用決策樹回歸算法訓練模型及計算RMSE值評估模型

4、模型優(yōu)化兩板斧:特征數據及算法超參數、使用隨機森林RF回歸算法訓練模型及調整參數評估模型

5、使用線性回歸算法訓練共享單車數據(類別特征未處理)及引出類別特征處理重要性

6、定義函數轉換8個類別特征及使用線性回歸算法訓練模型及RMSE評估

第2節(jié):線性回歸模型深入剖析(Ridge和Lasso)

1、復習Spark MLlib中三個回歸算法及從源碼引入模型過擬合及泛化能力(深入剖析)

2、線性回歸正則化Regularization損失函數及L1和L2兩種 正則化方式

3、從線性回歸算法源碼剖析SGD方法參數說明及正則化參數含義說明

4、線性回歸算法、Lasso算法及Ridge回歸算法分別使用訓練數據訓練模型及調整參數訓練比較

第四章:Spark 構建聚類KMeans模型

第1節(jié):聚類KMeans對出租車軌跡聚類

1、機器學習算法分類、非監(jiān)督學習中聚類算法是什么及以KMeans為例講解聚類和數據格式Vector

2、深入剖析KMeans算法如何進行聚類操作及出租車軌跡數據說明

3、使用KMeans算法對出租車軌跡數據進行聚類和找出10個類簇中心

4、使用KMeans模型預測測試數據集所屬類簇

第2節(jié):基于DataFrame構建KMeans模型

1、基于DataFrame API機器學習庫使用三要點

2、基于DataFrame的KMeans算法針對出租車軌跡數據聚類

第五章:Spark 構建關聯規(guī)則模型

第1節(jié)、使用FP-Growth進行關聯規(guī)則推薦

1、關聯規(guī)則算法概述及重要概念剖析(支持度、置信度和提升度)

2、使用FPGrowth算法構建模型獲取頻繁項集

3、依據FPGrowthModel生成關聯規(guī)則AssociationRules

4、使用RDD聚合函數,依據關聯規(guī)則,針對業(yè)務,得到推薦列表

第2節(jié):使用PrefixSpan構建頻繁序列推薦

1、數據挖掘中三種關聯算法比較、頻繁序列算法PrefixSpan概述及Spark MLlib中實現

2、構建數據集,使用PrefixSpan算法訓練數據獲取頻繁序列集

3、結合實際需要找出符合規(guī)則的頻繁序列集、模型和結果保存

第六章:Spark ML Pipeline 構建機器學習

第1節(jié):Spark ML Pipeline入門案例

1、Spark MLlib 總結回顧發(fā)展及基于DataFrame API的區(qū)別

2、Spark ML Pipeline幾個重要概念(Transformer、Estimator及Pipeline)剖析

3、管道Pipeline組成及簡易文本分類案例需求分析

4、定義轉換器與模型學習器、創(chuàng)建Pipeline和模型預測

5、Model持久化及Pipeline如何工作剖析

6、采用TF-IDF方式獲取文本特征及Pipeline中Estimator工作原理

7、Transformor和Estimator參數設置(實例和ParamMap)

060108_Cross Validation設置及測試演示

第2節(jié):Spark ML預測森林植被

1、基于ML預測森林植被之SparkSession讀取CSV數據并指定列名

2、基于ML預測森林植被之提取特征及決策樹算法訓練模型(查看決策樹)

3、基于ML預測森林植被之決策樹算法中每個特征重要性及測試數據預測值

4、基于ML預測森林植被之多分類評估器使用及分類評估混淆矩陣

5、基于ML預測森林植被之Pipeline組合預測流程(轉換器、模型學習器、評估器、訓練驗證和參數調優(yōu))

6、基于ML預測森林植被之解碼還原類別特征數據

7、基于ML預測森林植被之對類別特征數據使用決策樹算法訓練模型

8、基于ML預測森林植被之對類別特征數據使用隨機決策森林算法訓練模型

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 1、機器學習概念 1.1機器學習的定義 在維基百科上對機器學習提出以下幾種定義: l“機器學習是一門人工智能的科學...
    只此未央閱讀 3,013評論 1 8
  • 今天情緒并不是很好 吃飯時我媽強迫女兒穿圍裙,女兒已經在哭說不要了,阿媽不停,手一邊按住她一邊穿。我當時感覺...
    weeklybright閱讀 306評論 0 0
  • 其實我身邊看書的朋友不是很多,一鳴是其中一個。一鳴和我說最近看了一部小說《情人》,女主和你很像。于是懷著好奇去翻開...
    西瓜吃夏天啦閱讀 473評論 0 0
  • 最近還沒有看什么電影,看了《愛上朋友媽》,這個極短的美?。幻考挥?0分鐘,第一季一共8集。 《愛上朋友媽》講的就...
    XX的Xixi閱讀 1,638評論 0 0

友情鏈接更多精彩內容