動(dòng)態(tài)分區(qū) 參數(shù)說(shuō)明hive.exec.dynamic.partition是否開(kāi)啟動(dòng)態(tài)分區(qū),默認(rèn)是false。如果要開(kāi)啟動(dòng)態(tài)分區(qū),就設(shè)置為true...
RDD的創(chuàng)建和保存1.1 textFile從HDFS中讀取一個(gè)文本文件1.2 makeRDD、parallelize都會(huì)創(chuàng)建一個(gè)新的Parall...
注:這篇博客講的是自己對(duì)Spark的初步認(rèn)識(shí)和學(xué)習(xí),可能會(huì)有錯(cuò)誤。參考資料是廈門(mén)大學(xué)的Spark學(xué)習(xí)基礎(chǔ),對(duì)應(yīng)網(wǎng)址上有關(guān)于Spark運(yùn)行機(jī)制的6...
場(chǎng)景: ??讀取2g大小的文件,做一些簡(jiǎn)單的處理并將保存結(jié)果,為了方便的下載我將結(jié)果數(shù)據(jù)分成2個(gè)分區(qū),分區(qū)方式是.coalesce(2).sav...
這里我主要是記錄在Scala中使用gson.JsonParser時(shí)碰到的一些問(wèn)題,假設(shè)我已經(jīng)創(chuàng)建了一個(gè)JsonParser類(lèi),即val pars...
??本章講的是評(píng)分預(yù)測(cè)問(wèn)題,也就是如何通過(guò)已知的用戶(hù)歷史評(píng)分記錄預(yù)測(cè)未知的用戶(hù)評(píng)分記錄。 評(píng)測(cè)算法 1. 平均值 ??取平均值作為預(yù)測(cè)結(jié)果是最簡(jiǎn)...
??本章主要講了如何設(shè)計(jì)一個(gè)真實(shí)的推薦系統(tǒng)。前面幾章都是從理論上講述了什么是推薦系統(tǒng)?如何利用用戶(hù)和物品的信息來(lái)設(shè)計(jì)和優(yōu)化推薦算法?但推薦算法畢...
??第6章的標(biāo)題是“利用社交網(wǎng)絡(luò)數(shù)據(jù)”,為什么要用社交網(wǎng)絡(luò)數(shù)據(jù)?答:好友的推薦對(duì)于增加用戶(hù)對(duì)推薦結(jié)果的信任度非常重要。??社交網(wǎng)絡(luò)定義了用戶(hù)之間...
??本章主要講了利用用戶(hù)的上下文信息進(jìn)行更加個(gè)性化的推薦。上下文包括用戶(hù)訪問(wèn)推薦系統(tǒng)的時(shí)間、地點(diǎn)、心情等,本章主要是講如何利用時(shí)間信息和地點(diǎn)信息...