1、機(jī)器學(xué)習(xí)概念
1.1機(jī)器學(xué)習(xí)的定義
在維基百科上對機(jī)器學(xué)習(xí)提出以下幾種定義:
l“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”。
l“機(jī)器學(xué)習(xí)是對能通過經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究”。
l“機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)?!?一種經(jīng)常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E。
可以看出機(jī)器學(xué)習(xí)強(qiáng)調(diào)三個(gè)關(guān)鍵詞:算法、經(jīng)驗(yàn)、性能,其處理過程如下圖所示。

上圖表明機(jī)器學(xué)習(xí)是數(shù)據(jù)通過算法構(gòu)建出模型并對模型進(jìn)行評(píng)估,評(píng)估的性能如果達(dá)到要求就拿這個(gè)模型來測試其他的數(shù)據(jù),如果達(dá)不到要求就要調(diào)整算法來重新建立模型,再次進(jìn)行評(píng)估,如此循環(huán)往復(fù),最終獲得滿意的經(jīng)驗(yàn)來處理其他的數(shù)據(jù)。
1.2機(jī)器學(xué)習(xí)的分類
1.2.1監(jiān)督學(xué)習(xí)
監(jiān)督是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)函數(shù)(模型),當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)這個(gè)函數(shù)(模型)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入和輸出,也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注(標(biāo)量)的。在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如對防垃圾郵件系統(tǒng)中“垃圾郵件”、“非垃圾郵件”,對手寫數(shù)字識(shí)別中的“1”、“2”、“3”等。在建立預(yù)測模型時(shí),監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程,將預(yù)測結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷調(diào)整預(yù)測模型,直到模型的預(yù)測結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類:
l二元分類是機(jī)器學(xué)習(xí)要解決的基本問題,將測試數(shù)據(jù)分成兩個(gè)類,如垃圾郵件的判別、房貸是否允許等問題的判斷。
l多元分類是二元分類的邏輯延伸。例如,在因特網(wǎng)的流分類的情況下,根據(jù)問題的分類,網(wǎng)頁可以被歸類為體育、新聞、技術(shù)等,依此類推。
監(jiān)督學(xué)習(xí)常常用于分類,因?yàn)槟繕?biāo)往往是讓計(jì)算機(jī)去學(xué)習(xí)我們已經(jīng)創(chuàng)建好的分類系統(tǒng)。數(shù)字識(shí)別再一次成為分類學(xué)習(xí)的常見樣本。一般來說,對于那些有用的分類系統(tǒng)和容易判斷的分類系統(tǒng),分類學(xué)習(xí)都適用。
監(jiān)督學(xué)習(xí)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹的最常見技術(shù)。神經(jīng)網(wǎng)絡(luò)和決策樹技術(shù)高度依賴于事先確定的分類系統(tǒng)給出的信息。對于神經(jīng)網(wǎng)絡(luò)來說,分類系統(tǒng)用于判斷網(wǎng)絡(luò)的錯(cuò)誤,然后調(diào)整網(wǎng)絡(luò)去適應(yīng)它;對于決策樹,分類系統(tǒng)用來判斷哪些屬性提供了最多的信息,如此一來可以用它解決分類系統(tǒng)的問題。

1.2.2無監(jiān)督學(xué)習(xí)
與監(jiān)督學(xué)習(xí)相比,無監(jiān)督學(xué)習(xí)的訓(xùn)練集沒有人為標(biāo)注的結(jié)果。在非監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法和k-Means算法。這類學(xué)習(xí)類型的目標(biāo)不是讓效用函數(shù)最大化,而是找到訓(xùn)練數(shù)據(jù)中的近似點(diǎn)。聚類常常能發(fā)現(xiàn)那些與假設(shè)匹配的相當(dāng)好的直觀分類,例如基于人口統(tǒng)計(jì)的聚合個(gè)體可能會(huì)在一個(gè)群體中形成一個(gè)富有的聚合,以及其他的貧窮的聚合。

非監(jiān)督學(xué)習(xí)看起來非常困難:目標(biāo)是我們不告訴計(jì)算機(jī)怎么做,而是讓它(計(jì)算機(jī))自己去學(xué)習(xí)怎樣做一些事情。非監(jiān)督學(xué)習(xí)一般有兩種思路:第一種思路是在指導(dǎo)Agent時(shí)不為其指定明確的分類,而是在成功時(shí)采用某種形式的激勵(lì)制度。需要注意的是,這類訓(xùn)練通常會(huì)置于決策問題的框架里,因?yàn)樗哪繕?biāo)不是產(chǎn)生一個(gè)分類系統(tǒng),而是做出最大回報(bào)的決定。這種思路很好地概括了現(xiàn)實(shí)世界,Agent可以對那些正確的行為做出激勵(lì),并對其他的行為進(jìn)行處罰。
因?yàn)闊o監(jiān)督學(xué)習(xí)假定沒有事先分類的樣本,這在一些情況下會(huì)非常強(qiáng)大,例如,我們的分類方法可能并非最佳選擇。在這方面一個(gè)突出的例子是Backgammon(西洋雙陸棋)游戲,有一系列計(jì)算機(jī)程序(例如neuro-gammon和TD-gammon)通過非監(jiān)督學(xué)習(xí)自己一遍又一遍地玩這個(gè)游戲,變得比最強(qiáng)的人類棋手還要出色。這些程序發(fā)現(xiàn)的一些原則甚至令雙陸棋專家都感到驚訝,并且它們比那些使用預(yù)分類樣本訓(xùn)練的雙陸棋程序工作得更出色。
1.2.3半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)是介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間一種機(jī)器學(xué)習(xí)方式,是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問題。它主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問題。半監(jiān)督學(xué)習(xí)對于減少標(biāo)注代價(jià),提高學(xué)習(xí)機(jī)器性能具有非常重大的實(shí)際意義。主要算法有五類:基于概率的算法;在現(xiàn)有監(jiān)督算法基礎(chǔ)上進(jìn)行修改的方法;直接依賴于聚類假設(shè)的方法等,在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒有被標(biāo)識(shí),這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測,但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理地組織數(shù)據(jù)來進(jìn)行預(yù)測。應(yīng)用場景包括分類和回歸,算法包括一些對常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測,如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(jī)(Laplacian SVM)等。
半監(jiān)督學(xué)習(xí)分類算法提出的時(shí)間比較短,還有許多方面沒有更深入的研究。半監(jiān)督學(xué)習(xí)從誕生以來,主要用于處理人工合成數(shù)據(jù),無噪聲干擾的樣本數(shù)據(jù)是當(dāng)前大部分半監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù),而在實(shí)際生活中用到的數(shù)據(jù)卻大部分不是無干擾的,通常都比較難以得到純樣本數(shù)據(jù)。

1.2.4強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)通過觀察來學(xué)習(xí)動(dòng)作的完成,每個(gè)動(dòng)作都會(huì)對環(huán)境有所影響,學(xué)習(xí)對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷。在這種學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對錯(cuò)的方式,在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對此立刻做出調(diào)整。常見的應(yīng)用場景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q-Learning以及時(shí)間差學(xué)習(xí)(Temporal difference learning)。

在企業(yè)數(shù)據(jù)應(yīng)用的場景下,人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型。在圖像識(shí)別等領(lǐng)域,由于存在大量的非標(biāo)識(shí)的數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱的話題。而強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。
1.3機(jī)器學(xué)習(xí)的常見算法
常見的機(jī)器學(xué)習(xí)算法有:
l構(gòu)造條件概率:回歸分析和統(tǒng)計(jì)分類;
l人工神經(jīng)網(wǎng)絡(luò);
l決策樹;
l高斯過程回歸;
l線性判別分析;
l最近鄰居法;
l感知器;
l徑向基函數(shù)核;
l支持向量機(jī);
l通過再生模型構(gòu)造概率密度函數(shù);
l最大期望算法;
lgraphical model:包括貝葉斯網(wǎng)和Markov隨機(jī)場;
lGenerative Topographic Mapping;
l近似推斷技術(shù);
l馬爾可夫鏈蒙特卡羅方法;
l變分法;
l最優(yōu)化:大多數(shù)以上方法,直接或者間接使用最優(yōu)化算法。
根據(jù)算法的功能和形式的類似性,我們可以把算法分類,比如說基于樹的算法,基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然,機(jī)器學(xué)習(xí)的范圍非常龐大,有些算法很難明確歸類到某一類。而對于有些分類來說,同一分類的算法可以針對不同類型的問題,下面用一些相對比較容易理解的方式來解析一些主要的機(jī)器學(xué)習(xí)算法:
1.3.1回歸算法
回歸算法是試圖采用對誤差的衡量來探索變量之間的關(guān)系的一類算法。回歸算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器。在機(jī)器學(xué)習(xí)領(lǐng)域,人們說起回歸,有時(shí)候是指一類問題,有時(shí)候是指一類算法,這一點(diǎn)常常會(huì)使初學(xué)者有所困惑。常見的回歸算法包括:最小二乘法(Ordinary Least Square),邏輯回歸(Logistic Regression),逐步式回歸(Stepwise Regression),多元自適應(yīng)回歸樣條(Multivariate Adaptive Regression Splines)以及本地散點(diǎn)平滑估計(jì)(Locally Estimated Scatterplot Smoothing)。

1.3.2基于實(shí)例的算法
基于實(shí)例的算法常常用來對決策問題建立模型,這樣的模型常常先選取一批樣本數(shù)據(jù),然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過這種方式來尋找最佳的匹配。因此,基于實(shí)例的算法常常也被稱為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”。常見的算法包括?k-Nearest Neighbor (KNN),、學(xué)習(xí)矢量量化(Learning Vector Quantization,?LVQ)以及自組織映射算法(Self-Organizing Map,SOM)

1.3.3正則化方法
正則化方法是其他算法(通常是回歸算法)的延伸,根據(jù)算法的復(fù)雜度對算法進(jìn)行調(diào)整。正則化方法通常對簡單模型予以獎(jiǎng)勵(lì)而對復(fù)雜算法予以懲罰。常見的算法包括:Ridge Regression、Least Absolute Shrinkage and Selection Operator(LASSO)以及彈性網(wǎng)絡(luò)(Elastic Net)。

1.3.4決策樹學(xué)習(xí)
決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型,決策樹模型常常用來解決分類和回歸問題。常見的算法包括:分類及回歸樹(Classification And Regression Tree,?CART)、?ID3 (Iterative Dichotomiser 3)、C4.5、Chi-squared Automatic Interaction Detection (CHAID)、Decision Stump、機(jī)森林(Random Forest)、多元自適應(yīng)回歸樣條(MARS)以及梯度推進(jìn)機(jī)(Gradient Boosting Machine,GBM)。

1.3.5貝葉斯學(xué)習(xí)
貝葉斯方法算法是基于貝葉斯定理的一類算法,主要用來解決分類和回歸問題。常見算法包括:樸素貝葉斯算法、平均單依賴估計(jì)(Averaged One-Dependence Estimators,?AODE)以及?Bayesian Belief Network(BBN)。

1.3.6基于核的算法
基于核的算法中最著名的莫過于支持向量機(jī)(SVM)了?;诤说乃惴ò演斎霐?shù)據(jù)映射到一個(gè)高階的向量空間, 在這些高階向量空間里, 有些分類或者回歸問題能夠更容易解決。常見的基于核的算法包括:支持向量機(jī)(Support Vector Machine,SVM)、徑向基函數(shù)(Radial Basis Function,RBF)以及線性判別分析(Linear Discriminate Analysis,LDA)等。

1.3.7聚類算法
聚類就像回歸一樣,有時(shí)候人們描述的是一類問題,有時(shí)候描述的是一類算法。聚類算法通常按照中心點(diǎn)或者分層的方式對輸入數(shù)據(jù)進(jìn)行歸并。所有的聚類算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類。常見的聚類算法包括?k-Means算法以及期望最大化算法(Expectation Maximization,EM)。

1.3.8關(guān)聯(lián)規(guī)則學(xué)習(xí)
關(guān)聯(lián)規(guī)則學(xué)習(xí)通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見算法包括?Apriori算法和?Eclat?算法等。

1.3.9人工神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò),是一類模式匹配算法。通常用于解決分類和回歸問題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支,有幾百種不同的算法(其中深度學(xué)習(xí)就是其中的一類算法,我們會(huì)單獨(dú)討論)。重要的人工神經(jīng)網(wǎng)絡(luò)算法包括:感知器神經(jīng)網(wǎng)絡(luò)(Perceptron Neural Network)、反向傳遞(Back Propagation)、Hopfield?網(wǎng)絡(luò)、自組織映射(Self-Organizing Map, SOM)、學(xué)習(xí)矢量量化(Learning Vector Quantization,LVQ)。

1.3.10深度學(xué)習(xí)算法
深度學(xué)習(xí)算法是對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,在近期贏得了很多關(guān)注,特別是百度也開始發(fā)力深度學(xué)習(xí)后,更是在國內(nèi)引起了很多關(guān)注。在計(jì)算能力變得日益廉價(jià)的今天,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法,用來處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見的深度學(xué)習(xí)算法包括:受限波爾茲曼機(jī)(Restricted Boltzmann Machine,?RBN)、?Deep Belief Networks(DBN)、卷積網(wǎng)絡(luò)(Convolutional Network)、堆棧式自動(dòng)編碼器(Stacked Auto-encoders)。

1.3.11降低維度算法
像聚類算法一樣,降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu),不過降低維度算法是以非監(jiān)督學(xué)習(xí)的方式,試圖利用較少的信息來歸納或者解釋數(shù)據(jù)。這類算法可以用于高維數(shù)據(jù)的可視化或者用來簡化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見的算法包括:主成份分析(Principle Component Analysis,?PCA)、偏最小二乘回歸(Partial Least Square Regression,PLS)、?Sammon?映射、多維尺度(Multi-Dimensional Scaling, MDS)、投影追蹤(Projection Pursuit)等。

1.3.12集成算法
集成算法用一些相對較弱的學(xué)習(xí)模型獨(dú)立地對同樣的樣本進(jìn)行訓(xùn)練,然后把結(jié)果整合起來進(jìn)行整體預(yù)測。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。這是一類非常強(qiáng)大的算法,同時(shí)也非常流行。常見的算法包括:Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、堆疊泛化(Stacked Generalization,?Blending)、梯度推進(jìn)機(jī)(Gradient Boosting Machine, GBM)、隨機(jī)森林(Random Forest)。

2、Spark MLlib介紹
Spark之所以在機(jī)器學(xué)習(xí)方面具有得天獨(dú)厚的優(yōu)勢,有以下幾點(diǎn)原因:
(1)機(jī)器學(xué)習(xí)算法一般都有很多個(gè)步驟迭代計(jì)算的過程,機(jī)器學(xué)習(xí)的計(jì)算需要在多次迭代后獲得足夠小的誤差或者足夠收斂才會(huì)停止,迭代時(shí)如果使用Hadoop的MapReduce計(jì)算框架,每次計(jì)算都要讀/寫磁盤以及任務(wù)的啟動(dòng)等工作,這回導(dǎo)致非常大的I/O和CPU消耗。而Spark基于內(nèi)存的計(jì)算模型天生就擅長迭代計(jì)算,多個(gè)步驟計(jì)算直接在內(nèi)存中完成,只有在必要時(shí)才會(huì)操作磁盤和網(wǎng)絡(luò),所以說Spark正是機(jī)器學(xué)習(xí)的理想的平臺(tái)。
(2)從通信的角度講,如果使用Hadoop的MapReduce計(jì)算框架,JobTracker和TaskTracker之間由于是通過heartbeat的方式來進(jìn)行的通信和傳遞數(shù)據(jù),會(huì)導(dǎo)致非常慢的執(zhí)行速度,而Spark具有出色而高效的Akka和Netty通信系統(tǒng),通信效率極高。
MLlib(Machine Learnig lib)是Spark對常用的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫,同時(shí)包括相關(guān)的測試和數(shù)據(jù)生成器。Spark的設(shè)計(jì)初衷就是為了支持一些迭代的Job,?這正好符合很多機(jī)器學(xué)習(xí)算法的特點(diǎn)。在Spark官方首頁中展示了Logistic Regression算法在Spark和Hadoop中運(yùn)行的性能比較,如圖下圖所示。

可以看出在Logistic Regression的運(yùn)算場景下,Spark比Hadoop快了100倍以上!
MLlib目前支持4種常見的機(jī)器學(xué)習(xí)問題:?分類、回歸、聚類和協(xié)同過濾,MLlib在Spark整個(gè)生態(tài)系統(tǒng)中的位置如圖下圖所示。

MLlib基于RDD,天生就可以與Spark SQL、GraphX、Spark Streaming無縫集成,以RDD為基石,4個(gè)子框架可聯(lián)手構(gòu)建大數(shù)據(jù)計(jì)算中心!
MLlib是MLBase一部分,其中MLBase分為四部分:MLlib、MLI、ML Optimizer和MLRuntime。
lML Optimizer會(huì)選擇它認(rèn)為最適合的已經(jīng)在內(nèi)部實(shí)現(xiàn)好了的機(jī)器學(xué)習(xí)算法和相關(guān)參數(shù),來處理用戶輸入的數(shù)據(jù),并返回模型或別的幫助分析的結(jié)果;
lMLI?是一個(gè)進(jìn)行特征抽取和高級(jí)ML編程抽象的算法實(shí)現(xiàn)的API或平臺(tái);
lMLlib是Spark實(shí)現(xiàn)一些常見的機(jī)器學(xué)習(xí)算法和實(shí)用程序,包括分類、回歸、聚類、協(xié)同過濾、降維以及底層優(yōu)化,該算法可以進(jìn)行可擴(kuò)充;?MLRuntime?基于Spark計(jì)算框架,將Spark的分布式計(jì)算應(yīng)用到機(jī)器學(xué)習(xí)領(lǐng)域。

3、Spark MLlib架構(gòu)解析
從架構(gòu)圖可以看出MLlib主要包含三個(gè)部分:
l底層基礎(chǔ):包括Spark的運(yùn)行庫、矩陣庫和向量庫;
l算法庫:包含廣義線性模型、推薦系統(tǒng)、聚類、決策樹和評(píng)估的算法;
l實(shí)用程序:包括測試數(shù)據(jù)的生成、外部數(shù)據(jù)的讀入等功能。

3.1MLlib的底層基礎(chǔ)解析
底層基礎(chǔ)部分主要包括向量接口和矩陣接口,這兩種接口都會(huì)使用Scala語言基于Netlib和BLAS/LAPACK開發(fā)的線性代數(shù)庫Breeze。
MLlib支持本地的密集向量和稀疏向量,并且支持標(biāo)量向量。
MLlib同時(shí)支持本地矩陣和分布式矩陣,支持的分布式矩陣分為RowMatrix、IndexedRowMatrix、CoordinateMatrix等。
關(guān)于密集型和稀疏型的向量Vector的示例如下所示。


疏矩陣在含有大量非零元素的向量Vector計(jì)算中會(huì)節(jié)省大量的空間并大幅度提高計(jì)算速度,如下圖所示。

標(biāo)量LabledPoint在實(shí)際中也被大量使用,例如判斷郵件是否為垃圾郵件時(shí)就可以使用類似于以下的代碼:

可以把表示為1.0的判斷為正常郵件,而表示為0.0則作為垃圾郵件來看待。
對于矩陣Matrix而言,本地模式的矩陣如下所示。


分布式矩陣如下所示。


RowMatrix直接通過RDD[Vector]來定義并可以用來統(tǒng)計(jì)平均數(shù)、方差、協(xié)同方差等:


而IndexedRowMatrix是帶有索引的Matrix,但其可以通過toRowMatrix方法來轉(zhuǎn)換為RowMatrix,從而利用其統(tǒng)計(jì)功能,代碼示例如下所示。

CoordinateMatrix常用于稀疏性比較高的計(jì)算中,是由RDD[MatrixEntry]來構(gòu)建的,MatrixEntry是一個(gè)Tuple類型的元素,其中包含行、列和元素值,代碼示例如下所示:

3.2MLlib的算法庫分析
下圖是MLlib算法庫的核心內(nèi)容。

在這里我們分析一些Spark中常用的算法:
3.2.1分類算法
分類算法屬于監(jiān)督式學(xué)習(xí),使用類標(biāo)簽已知的樣本建立一個(gè)分類函數(shù)或分類模型,應(yīng)用分類模型,能把數(shù)據(jù)庫中的類標(biāo)簽未知的數(shù)據(jù)進(jìn)行歸類。分類在數(shù)據(jù)挖掘中是一項(xiàng)重要的任務(wù),目前在商業(yè)上應(yīng)用最多,常見的典型應(yīng)用場景有流失預(yù)測、精確營銷、客戶獲取、個(gè)性偏好等。MLlib目前支持分類算法有:邏輯回歸、支持向量機(jī)、樸素貝葉斯和決策樹。
案例:導(dǎo)入訓(xùn)練數(shù)據(jù)集,然后在訓(xùn)練集上執(zhí)行訓(xùn)練算法,最后在所得模型上進(jìn)行預(yù)測并計(jì)算訓(xùn)練誤差。
[java]view plaincopy
importorg.apache.spark.SparkContext
importorg.apache.spark.mllib.classification.SVMWithSGD
importorg.apache.spark.mllib.regression.LabeledPoint
//?加載和解析數(shù)據(jù)文件
val?data?=?sc.textFile("mllib/data/sample_svm_data.txt")
val?parsedData?=?data.map?{?line?=>
val?parts?=?line.split('?')
LabeledPoint(parts(0).toDouble,?parts.tail.map(x?=>?x.toDouble).toArray)
}
//?設(shè)置迭代次數(shù)并進(jìn)行進(jìn)行訓(xùn)練
val?numIterations?=20
val?model?=?SVMWithSGD.train(parsedData,?numIterations)
//?統(tǒng)計(jì)分類錯(cuò)誤的樣本比例
val?labelAndPreds?=?parsedData.map?{?point?=>
val?prediction?=?model.predict(point.features)
(point.label,?prediction)
}
val?trainErr?=?labelAndPreds.filter(r?=>?r._1?!=?r._2).count.toDouble?/?parsedData.count
println("Training?Error?=?"+?trainErr)
3.2.2回歸算法
回歸算法屬于監(jiān)督式學(xué)習(xí),每個(gè)個(gè)體都有一個(gè)與之相關(guān)聯(lián)的實(shí)數(shù)標(biāo)簽,并且我們希望在給出用于表示這些實(shí)體的數(shù)值特征后,所預(yù)測出的標(biāo)簽值可以盡可能接近實(shí)際值。MLlib目前支持回歸算法有:線性回歸、嶺回歸、Lasso和決策樹。
案例:導(dǎo)入訓(xùn)練數(shù)據(jù)集,將其解析為帶標(biāo)簽點(diǎn)的RDD,使用?LinearRegressionWithSGD?算法建立一個(gè)簡單的線性模型來預(yù)測標(biāo)簽的值,最后計(jì)算均方差來評(píng)估預(yù)測值與實(shí)際值的吻合度。
[java]view plaincopy
importorg.apache.spark.mllib.regression.LinearRegressionWithSGD
importorg.apache.spark.mllib.regression.LabeledPoint
//?加載和解析數(shù)據(jù)文件
val?data?=?sc.textFile("mllib/data/ridge-data/lpsa.data")
val?parsedData?=?data.map?{?line?=>
val?parts?=?line.split(',')
LabeledPoint(parts(0).toDouble,?parts(1).split('?').map(x?=>?x.toDouble).toArray)
}
//設(shè)置迭代次數(shù)并進(jìn)行訓(xùn)練
val?numIterations?=20
val?model?=?LinearRegressionWithSGD.train(parsedData,?numIterations)
//?統(tǒng)計(jì)回歸錯(cuò)誤的樣本比例
val?valuesAndPreds?=?parsedData.map?{?point?=>
val?prediction?=?model.predict(point.features)
(point.label,?prediction)
}
val?MSE?=?valuesAndPreds.map{case(v,?p)?=>?math.pow((v?-?p),2)}.reduce(_?+?_)/valuesAndPreds.count
println("training?Mean?Squared?Error?=?"+?MSE)
3.2.3聚類算法
聚類算法屬于非監(jiān)督式學(xué)習(xí),通常被用于探索性的分析,是根據(jù)“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇,并且對每一個(gè)這樣的簇進(jìn)行描述的過程。它的目的是使得屬于同一簇的樣本之間應(yīng)該彼此相似,而不同簇的樣本應(yīng)該足夠不相似,常見的典型應(yīng)用場景有客戶細(xì)分、客戶研究、市場細(xì)分、價(jià)值評(píng)估。MLlib目前支持廣泛使用的KMmeans聚類算法。
案例:導(dǎo)入訓(xùn)練數(shù)據(jù)集,使用?KMeans對象來將數(shù)據(jù)聚類到兩個(gè)類簇當(dāng)中,所需的類簇個(gè)數(shù)會(huì)被傳遞到算法中,然后計(jì)算集內(nèi)均方差總和?(WSSSE),可以通過增加類簇的個(gè)數(shù)?k?來減小誤差。 實(shí)際上,最優(yōu)的類簇?cái)?shù)通常是1,因?yàn)檫@一點(diǎn)通常是WSSSE圖中的 “低谷點(diǎn)”。
[java]view plaincopy
importorg.apache.spark.mllib.clustering.KMeans
//?加載和解析數(shù)據(jù)文件
val?data?=?sc.textFile("kmeans_data.txt")
val?parsedData?=?data.map(?_.split('?').map(_.toDouble))
//?設(shè)置迭代次數(shù)、類簇的個(gè)數(shù)
val?numIterations?=20
val?numClusters?=2
//?進(jìn)行訓(xùn)練
val?clusters?=?KMeans.train(parsedData,?numClusters,?numIterations)
//?統(tǒng)計(jì)聚類錯(cuò)誤的樣本比例
val?WSSSE?=?clusters.computeCost(parsedData)
println("Within?Set?Sum?of?Squared?Errors?=?"+?WSSSE)
3.2.4協(xié)同過濾
協(xié)同過濾常被應(yīng)用于推薦系統(tǒng),這些技術(shù)旨在補(bǔ)充用戶-商品關(guān)聯(lián)矩陣中所缺失的部分。MLlib當(dāng)前支持基于模型的協(xié)同過濾,其中用戶和商品通過一小組隱語義因子進(jìn)行表達(dá),并且這些因子也用于預(yù)測缺失的元素。
案例:導(dǎo)入訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)每一行由一個(gè)用戶、一個(gè)商品和相應(yīng)的評(píng)分組成。假設(shè)評(píng)分是顯性的,使用默認(rèn)的ALS.train()方法,通過計(jì)算預(yù)測出的評(píng)分的均方差來評(píng)估這個(gè)推薦模型。
[java]view plaincopy
importorg.apache.spark.mllib.recommendation.ALS
importorg.apache.spark.mllib.recommendation.Rating
//?加載和解析數(shù)據(jù)文件
val?data?=?sc.textFile("mllib/data/als/test.data")
val?ratings?=?data.map(_.split(',')?match?{
caseArray(user,?item,?rate)?=>?Rating(user.toInt,?item.toInt,?rate.toDouble)
})
//?設(shè)置迭代次數(shù)
val?numIterations?=20
val?model?=?ALS.train(ratings,1,20,0.01)
//?對推薦模型進(jìn)行評(píng)分
val?usersProducts?=?ratings.map{caseRating(user,?product,?rate)?=>?(user,?product)}
val?predictions?=?model.predict(usersProducts).map{
caseRating(user,?product,?rate)?=>?((user,?product),?rate)
}
val?ratesAndPreds?=?ratings.map{
caseRating(user,?product,?rate)?=>?((user,?product),?rate)
}.join(predictions)
val?MSE?=?ratesAndPreds.map{
case((user,?product),?(r1,?r2))?=>?math.pow((r1-?r2),2)
}.reduce(_?+?_)/ratesAndPreds.count
println("Mean?Squared?Error?=?"+?MSE)
3.3MLlib的實(shí)用程序分析
實(shí)用程序部分包括數(shù)據(jù)的驗(yàn)證器、Label的二元和多元的分析器、多種數(shù)據(jù)生成器、數(shù)據(jù)加載器。
