久草热最新视频视频,日韩精品一区91,免费AV在线永久网站

1、機(jī)器學(xué)習(xí)概念

1.1機(jī)器學(xué)習(xí)的定義

在維基百科上對機(jī)器學(xué)習(xí)提出以下幾種定義：

l“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué)，該領(lǐng)域的主要研究對象是人工智能，特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能”。

l“機(jī)器學(xué)習(xí)是對能通過經(jīng)驗自動改進(jìn)的計算機(jī)算法的研究”。

l“機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗，以此優(yōu)化計算機(jī)程序的性能標(biāo)準(zhǔn)?！?一種經(jīng)常引用的英文定義是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E。

可以看出機(jī)器學(xué)習(xí)強(qiáng)調(diào)三個關(guān)鍵詞：算法、經(jīng)驗、性能，其處理過程如下圖所示。

上圖表明機(jī)器學(xué)習(xí)是數(shù)據(jù)通過算法構(gòu)建出模型并對模型進(jìn)行評估，評估的性能如果達(dá)到要求就拿這個模型來測試其他的數(shù)據(jù)，如果達(dá)不到要求就要調(diào)整算法來重新建立模型，再次進(jìn)行評估，如此循環(huán)往復(fù)，最終獲得滿意的經(jīng)驗來處理其他的數(shù)據(jù)。

1.2機(jī)器學(xué)習(xí)的分類

1.2.1監(jiān)督學(xué)習(xí)

監(jiān)督是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個函數(shù)（模型），當(dāng)新的數(shù)據(jù)到來時，可以根據(jù)這個函數(shù)（模型）預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入和輸出，也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注（標(biāo)量）的。在監(jiān)督式學(xué)習(xí)下，輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”，每組訓(xùn)練數(shù)據(jù)有一個明確的標(biāo)識或結(jié)果，如對防垃圾郵件系統(tǒng)中“垃圾郵件”、“非垃圾郵件”，對手寫數(shù)字識別中的“1”、“2”、“3”等。在建立預(yù)測模型時，監(jiān)督式學(xué)習(xí)建立一個學(xué)習(xí)過程，將預(yù)測結(jié)果與“訓(xùn)練數(shù)據(jù)”的實際結(jié)果進(jìn)行比較，不斷調(diào)整預(yù)測模型，直到模型的預(yù)測結(jié)果達(dá)到一個預(yù)期的準(zhǔn)確率。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計分類：

l二元分類是機(jī)器學(xué)習(xí)要解決的基本問題，將測試數(shù)據(jù)分成兩個類，如垃圾郵件的判別、房貸是否允許等問題的判斷。

l多元分類是二元分類的邏輯延伸。例如，在因特網(wǎng)的流分類的情況下，根據(jù)問題的分類，網(wǎng)頁可以被歸類為體育、新聞、技術(shù)等，依此類推。

監(jiān)督學(xué)習(xí)常常用于分類，因為目標(biāo)往往是讓計算機(jī)去學(xué)習(xí)我們已經(jīng)創(chuàng)建好的分類系統(tǒng)。數(shù)字識別再一次成為分類學(xué)習(xí)的常見樣本。一般來說，對于那些有用的分類系統(tǒng)和容易判斷的分類系統(tǒng)，分類學(xué)習(xí)都適用。

監(jiān)督學(xué)習(xí)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹的最常見技術(shù)。神經(jīng)網(wǎng)絡(luò)和決策樹技術(shù)高度依賴于事先確定的分類系統(tǒng)給出的信息。對于神經(jīng)網(wǎng)絡(luò)來說，分類系統(tǒng)用于判斷網(wǎng)絡(luò)的錯誤，然后調(diào)整網(wǎng)絡(luò)去適應(yīng)它；對于決策樹，分類系統(tǒng)用來判斷哪些屬性提供了最多的信息，如此一來可以用它解決分類系統(tǒng)的問題。

1.2.2無監(jiān)督學(xué)習(xí)

與監(jiān)督學(xué)習(xí)相比，無監(jiān)督學(xué)習(xí)的訓(xùn)練集沒有人為標(biāo)注的結(jié)果。在非監(jiān)督式學(xué)習(xí)中，數(shù)據(jù)并不被特別標(biāo)識，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法和k-Means算法。這類學(xué)習(xí)類型的目標(biāo)不是讓效用函數(shù)最大化，而是找到訓(xùn)練數(shù)據(jù)中的近似點(diǎn)。聚類常常能發(fā)現(xiàn)那些與假設(shè)匹配的相當(dāng)好的直觀分類，例如基于人口統(tǒng)計的聚合個體可能會在一個群體中形成一個富有的聚合，以及其他的貧窮的聚合。

非監(jiān)督學(xué)習(xí)看起來非常困難：目標(biāo)是我們不告訴計算機(jī)怎么做，而是讓它（計算機(jī)）自己去學(xué)習(xí)怎樣做一些事情。非監(jiān)督學(xué)習(xí)一般有兩種思路：第一種思路是在指導(dǎo)Agent時不為其指定明確的分類，而是在成功時采用某種形式的激勵制度。需要注意的是，這類訓(xùn)練通常會置于決策問題的框架里，因為它的目標(biāo)不是產(chǎn)生一個分類系統(tǒng)，而是做出最大回報的決定。這種思路很好地概括了現(xiàn)實世界，Agent可以對那些正確的行為做出激勵，并對其他的行為進(jìn)行處罰。

因為無監(jiān)督學(xué)習(xí)假定沒有事先分類的樣本，這在一些情況下會非常強(qiáng)大，例如，我們的分類方法可能并非最佳選擇。在這方面一個突出的例子是Backgammon（西洋雙陸棋）游戲，有一系列計算機(jī)程序（例如neuro-gammon和TD-gammon）通過非監(jiān)督學(xué)習(xí)自己一遍又一遍地玩這個游戲，變得比最強(qiáng)的人類棋手還要出色。這些程序發(fā)現(xiàn)的一些原則甚至令雙陸棋專家都感到驚訝，并且它們比那些使用預(yù)分類樣本訓(xùn)練的雙陸棋程序工作得更出色。

1.2.3半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)（Semi-supervised Learning）是介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間一種機(jī)器學(xué)習(xí)方式，是模式識別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問題。它主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問題。半監(jiān)督學(xué)習(xí)對于減少標(biāo)注代價，提高學(xué)習(xí)機(jī)器性能具有非常重大的實際意義。主要算法有五類：基于概率的算法；在現(xiàn)有監(jiān)督算法基礎(chǔ)上進(jìn)行修改的方法；直接依賴于聚類假設(shè)的方法等，在此學(xué)習(xí)方式下，輸入數(shù)據(jù)部分被標(biāo)識，部分沒有被標(biāo)識，這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理地組織數(shù)據(jù)來進(jìn)行預(yù)測。應(yīng)用場景包括分類和回歸，算法包括一些對常用監(jiān)督式學(xué)習(xí)算法的延伸，這些算法首先試圖對未標(biāo)識數(shù)據(jù)進(jìn)行建模，在此基礎(chǔ)上再對標(biāo)識的數(shù)據(jù)進(jìn)行預(yù)測，如圖論推理算法（Graph Inference）或者拉普拉斯支持向量機(jī)（Laplacian SVM）等。

半監(jiān)督學(xué)習(xí)分類算法提出的時間比較短，還有許多方面沒有更深入的研究。半監(jiān)督學(xué)習(xí)從誕生以來，主要用于處理人工合成數(shù)據(jù)，無噪聲干擾的樣本數(shù)據(jù)是當(dāng)前大部分半監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù)，而在實際生活中用到的數(shù)據(jù)卻大部分不是無干擾的，通常都比較難以得到純樣本數(shù)據(jù)。

1.2.4強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)通過觀察來學(xué)習(xí)動作的完成，每個動作都會對環(huán)境有所影響，學(xué)習(xí)對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷。在這種學(xué)習(xí)模式下，輸入數(shù)據(jù)作為對模型的反饋，不像監(jiān)督模型那樣，輸入數(shù)據(jù)僅僅是作為一個檢查模型對錯的方式，在強(qiáng)化學(xué)習(xí)下，輸入數(shù)據(jù)直接反饋到模型，模型必須對此立刻做出調(diào)整。常見的應(yīng)用場景包括動態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q-Learning以及時間差學(xué)習(xí)（Temporal difference learning）。

在企業(yè)數(shù)據(jù)應(yīng)用的場景下，人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型。在圖像識別等領(lǐng)域，由于存在大量的非標(biāo)識的數(shù)據(jù)和少量的可標(biāo)識數(shù)據(jù)，目前半監(jiān)督式學(xué)習(xí)是一個很熱的話題。而強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。

1.3機(jī)器學(xué)習(xí)的常見算法

常見的機(jī)器學(xué)習(xí)算法有：

l構(gòu)造條件概率：回歸分析和統(tǒng)計分類；

l人工神經(jīng)網(wǎng)絡(luò)；

l決策樹；

l高斯過程回歸；

l線性判別分析；

l最近鄰居法；

l感知器；

l徑向基函數(shù)核；

l支持向量機(jī)；

l通過再生模型構(gòu)造概率密度函數(shù)；

l最大期望算法；

lgraphical model：包括貝葉斯網(wǎng)和Markov隨機(jī)場；

lGenerative Topographic Mapping；

l近似推斷技術(shù)；

l馬爾可夫鏈蒙特卡羅方法；

l變分法；

l最優(yōu)化：大多數(shù)以上方法，直接或者間接使用最優(yōu)化算法。

根據(jù)算法的功能和形式的類似性，我們可以把算法分類，比如說基于樹的算法，基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然，機(jī)器學(xué)習(xí)的范圍非常龐大，有些算法很難明確歸類到某一類。而對于有些分類來說，同一分類的算法可以針對不同類型的問題，下面用一些相對比較容易理解的方式來解析一些主要的機(jī)器學(xué)習(xí)算法：

1.3.1回歸算法

回歸算法是試圖采用對誤差的衡量來探索變量之間的關(guān)系的一類算法?；貧w算法是統(tǒng)計機(jī)器學(xué)習(xí)的利器。在機(jī)器學(xué)習(xí)領(lǐng)域，人們說起回歸，有時候是指一類問題，有時候是指一類算法，這一點(diǎn)常常會使初學(xué)者有所困惑。常見的回歸算法包括：最小二乘法（Ordinary Least Square），邏輯回歸（Logistic Regression），逐步式回歸（Stepwise Regression），多元自適應(yīng)回歸樣條（Multivariate Adaptive Regression Splines）以及本地散點(diǎn)平滑估計（Locally Estimated Scatterplot Smoothing）。

1.3.2基于實例的算法

基于實例的算法常常用來對決策問題建立模型，這樣的模型常常先選取一批樣本數(shù)據(jù)，然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過這種方式來尋找最佳的匹配。因此，基于實例的算法常常也被稱為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”。常見的算法包括?k-Nearest Neighbor (KNN)，、學(xué)習(xí)矢量量化（Learning Vector Quantization，?LVQ）以及自組織映射算法（Self-Organizing Map，SOM）

1.3.3正則化方法

正則化方法是其他算法（通常是回歸算法）的延伸，根據(jù)算法的復(fù)雜度對算法進(jìn)行調(diào)整。正則化方法通常對簡單模型予以獎勵而對復(fù)雜算法予以懲罰。常見的算法包括：Ridge Regression、Least Absolute Shrinkage and Selection Operator（LASSO）以及彈性網(wǎng)絡(luò)（Elastic Net）。

1.3.4決策樹學(xué)習(xí)

決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型，決策樹模型常常用來解決分類和回歸問題。常見的算法包括：分類及回歸樹（Classification And Regression Tree，?CART）、?ID3 (Iterative Dichotomiser 3)、C4.5、Chi-squared Automatic Interaction Detection (CHAID)、Decision Stump、機(jī)森林（Random Forest）、多元自適應(yīng)回歸樣條（MARS）以及梯度推進(jìn)機(jī)（Gradient Boosting Machine，GBM）。

1.3.5貝葉斯學(xué)習(xí)

貝葉斯方法算法是基于貝葉斯定理的一類算法，主要用來解決分類和回歸問題。常見算法包括：樸素貝葉斯算法、平均單依賴估計（Averaged One-Dependence Estimators，?AODE）以及?Bayesian Belief Network（BBN）。

1.3.6基于核的算法

基于核的算法中最著名的莫過于支持向量機(jī)（SVM）了?；诤说乃惴ò演斎霐?shù)據(jù)映射到一個高階的向量空間，在這些高階向量空間里，有些分類或者回歸問題能夠更容易解決。常見的基于核的算法包括：支持向量機(jī)（Support Vector Machine，SVM）、徑向基函數(shù)（Radial Basis Function，RBF)以及線性判別分析（Linear Discriminate Analysis，LDA)等。

1.3.7聚類算法

聚類就像回歸一樣，有時候人們描述的是一類問題，有時候描述的是一類算法。聚類算法通常按照中心點(diǎn)或者分層的方式對輸入數(shù)據(jù)進(jìn)行歸并。所有的聚類算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類。常見的聚類算法包括?k-Means算法以及期望最大化算法（Expectation Maximization，EM）。

1.3.8關(guān)聯(lián)規(guī)則學(xué)習(xí)

關(guān)聯(lián)規(guī)則學(xué)習(xí)通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則，來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見算法包括?Apriori算法和?Eclat?算法等。

1.3.9人工神經(jīng)網(wǎng)絡(luò)算法

人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò)，是一類模式匹配算法。通常用于解決分類和回歸問題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個龐大的分支，有幾百種不同的算法（其中深度學(xué)習(xí)就是其中的一類算法，我們會單獨(dú)討論）。重要的人工神經(jīng)網(wǎng)絡(luò)算法包括：感知器神經(jīng)網(wǎng)絡(luò)（Perceptron Neural Network）、反向傳遞（Back Propagation）、Hopfield?網(wǎng)絡(luò)、自組織映射（Self-Organizing Map, SOM）、學(xué)習(xí)矢量量化（Learning Vector Quantization，LVQ）。

1.3.10深度學(xué)習(xí)算法

深度學(xué)習(xí)算法是對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展，在近期贏得了很多關(guān)注，特別是百度也開始發(fā)力深度學(xué)習(xí)后，更是在國內(nèi)引起了很多關(guān)注。在計算能力變得日益廉價的今天，深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法，用來處理存在少量未標(biāo)識數(shù)據(jù)的大數(shù)據(jù)集。常見的深度學(xué)習(xí)算法包括：受限波爾茲曼機(jī)（Restricted Boltzmann Machine，?RBN）、?Deep Belief Networks（DBN）、卷積網(wǎng)絡(luò)（Convolutional Network）、堆棧式自動編碼器（Stacked Auto-encoders）。

1.3.11降低維度算法

像聚類算法一樣，降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，不過降低維度算法是以非監(jiān)督學(xué)習(xí)的方式，試圖利用較少的信息來歸納或者解釋數(shù)據(jù)。這類算法可以用于高維數(shù)據(jù)的可視化或者用來簡化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見的算法包括：主成份分析（Principle Component Analysis，?PCA）、偏最小二乘回歸（Partial Least Square Regression，PLS）、?Sammon?映射、多維尺度（Multi-Dimensional Scaling, MDS）、投影追蹤（Projection Pursuit）等。

1.3.12集成算法

集成算法用一些相對較弱的學(xué)習(xí)模型獨(dú)立地對同樣的樣本進(jìn)行訓(xùn)練，然后把結(jié)果整合起來進(jìn)行整體預(yù)測。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。這是一類非常強(qiáng)大的算法，同時也非常流行。常見的算法包括：Boosting、Bootstrapped Aggregation（Bagging）、AdaBoost、堆疊泛化（Stacked Generalization，?Blending）、梯度推進(jìn)機(jī)（Gradient Boosting Machine, GBM）、隨機(jī)森林（Random Forest）。

2、Spark MLlib介紹

Spark之所以在機(jī)器學(xué)習(xí)方面具有得天獨(dú)厚的優(yōu)勢，有以下幾點(diǎn)原因：

（1）機(jī)器學(xué)習(xí)算法一般都有很多個步驟迭代計算的過程，機(jī)器學(xué)習(xí)的計算需要在多次迭代后獲得足夠小的誤差或者足夠收斂才會停止，迭代時如果使用Hadoop的MapReduce計算框架，每次計算都要讀/寫磁盤以及任務(wù)的啟動等工作，這回導(dǎo)致非常大的I/O和CPU消耗。而Spark基于內(nèi)存的計算模型天生就擅長迭代計算，多個步驟計算直接在內(nèi)存中完成，只有在必要時才會操作磁盤和網(wǎng)絡(luò)，所以說Spark正是機(jī)器學(xué)習(xí)的理想的平臺。

（2）從通信的角度講，如果使用Hadoop的MapReduce計算框架，JobTracker和TaskTracker之間由于是通過heartbeat的方式來進(jìn)行的通信和傳遞數(shù)據(jù)，會導(dǎo)致非常慢的執(zhí)行速度，而Spark具有出色而高效的Akka和Netty通信系統(tǒng)，通信效率極高。

MLlib(Machine Learnig lib)是Spark對常用的機(jī)器學(xué)習(xí)算法的實現(xiàn)庫，同時包括相關(guān)的測試和數(shù)據(jù)生成器。Spark的設(shè)計初衷就是為了支持一些迭代的Job,?這正好符合很多機(jī)器學(xué)習(xí)算法的特點(diǎn)。在Spark官方首頁中展示了Logistic Regression算法在Spark和Hadoop中運(yùn)行的性能比較，如圖下圖所示。

可以看出在Logistic Regression的運(yùn)算場景下，Spark比Hadoop快了100倍以上！

MLlib目前支持4種常見的機(jī)器學(xué)習(xí)問題:?分類、回歸、聚類和協(xié)同過濾，MLlib在Spark整個生態(tài)系統(tǒng)中的位置如圖下圖所示。

MLlib基于RDD，天生就可以與Spark SQL、GraphX、Spark Streaming無縫集成，以RDD為基石，4個子框架可聯(lián)手構(gòu)建大數(shù)據(jù)計算中心！

MLlib是MLBase一部分，其中MLBase分為四部分：MLlib、MLI、ML Optimizer和MLRuntime。

lML Optimizer會選擇它認(rèn)為最適合的已經(jīng)在內(nèi)部實現(xiàn)好了的機(jī)器學(xué)習(xí)算法和相關(guān)參數(shù)，來處理用戶輸入的數(shù)據(jù)，并返回模型或別的幫助分析的結(jié)果；

lMLI?是一個進(jìn)行特征抽取和高級ML編程抽象的算法實現(xiàn)的API或平臺；

lMLlib是Spark實現(xiàn)一些常見的機(jī)器學(xué)習(xí)算法和實用程序，包括分類、回歸、聚類、協(xié)同過濾、降維以及底層優(yōu)化，該算法可以進(jìn)行可擴(kuò)充；?MLRuntime?基于Spark計算框架，將Spark的分布式計算應(yīng)用到機(jī)器學(xué)習(xí)領(lǐng)域。

3、Spark MLlib架構(gòu)解析

從架構(gòu)圖可以看出MLlib主要包含三個部分：

l底層基礎(chǔ)：包括Spark的運(yùn)行庫、矩陣庫和向量庫；

l算法庫：包含廣義線性模型、推薦系統(tǒng)、聚類、決策樹和評估的算法；

l實用程序：包括測試數(shù)據(jù)的生成、外部數(shù)據(jù)的讀入等功能。

3.1MLlib的底層基礎(chǔ)解析

底層基礎(chǔ)部分主要包括向量接口和矩陣接口，這兩種接口都會使用Scala語言基于Netlib和BLAS/LAPACK開發(fā)的線性代數(shù)庫Breeze。

MLlib支持本地的密集向量和稀疏向量，并且支持標(biāo)量向量。

MLlib同時支持本地矩陣和分布式矩陣，支持的分布式矩陣分為RowMatrix、IndexedRowMatrix、CoordinateMatrix等。

關(guān)于密集型和稀疏型的向量Vector的示例如下所示。

疏矩陣在含有大量非零元素的向量Vector計算中會節(jié)省大量的空間并大幅度提高計算速度，如下圖所示。

標(biāo)量LabledPoint在實際中也被大量使用，例如判斷郵件是否為垃圾郵件時就可以使用類似于以下的代碼：

可以把表示為1.0的判斷為正常郵件，而表示為0.0則作為垃圾郵件來看待。

對于矩陣Matrix而言，本地模式的矩陣如下所示。

分布式矩陣如下所示。

RowMatrix直接通過RDD[Vector]來定義并可以用來統(tǒng)計平均數(shù)、方差、協(xié)同方差等：

而IndexedRowMatrix是帶有索引的Matrix，但其可以通過toRowMatrix方法來轉(zhuǎn)換為RowMatrix，從而利用其統(tǒng)計功能，代碼示例如下所示。

CoordinateMatrix常用于稀疏性比較高的計算中，是由RDD[MatrixEntry]來構(gòu)建的，MatrixEntry是一個Tuple類型的元素，其中包含行、列和元素值，代碼示例如下所示：

3.2MLlib的算法庫分析

下圖是MLlib算法庫的核心內(nèi)容。

在這里我們分析一些Spark中常用的算法：

3.2.1分類算法

分類算法屬于監(jiān)督式學(xué)習(xí)，使用類標(biāo)簽已知的樣本建立一個分類函數(shù)或分類模型，應(yīng)用分類模型，能把數(shù)據(jù)庫中的類標(biāo)簽未知的數(shù)據(jù)進(jìn)行歸類。分類在數(shù)據(jù)挖掘中是一項重要的任務(wù)，目前在商業(yè)上應(yīng)用最多，常見的典型應(yīng)用場景有流失預(yù)測、精確營銷、客戶獲取、個性偏好等。MLlib目前支持分類算法有：邏輯回歸、支持向量機(jī)、樸素貝葉斯和決策樹。

案例：導(dǎo)入訓(xùn)練數(shù)據(jù)集，然后在訓(xùn)練集上執(zhí)行訓(xùn)練算法，最后在所得模型上進(jìn)行預(yù)測并計算訓(xùn)練誤差。

[java]view plain copy

print?

importorg.apache.spark.SparkContext

importorg.apache.spark.mllib.classification.SVMWithSGD

importorg.apache.spark.mllib.regression.LabeledPoint

//?加載和解析數(shù)據(jù)文件

val?data?=?sc.textFile("mllib/data/sample_svm_data.txt")

val?parsedData?=?data.map?{?line?=>

val?parts?=?line.split('?')

LabeledPoint(parts(0).toDouble,?parts.tail.map(x?=>?x.toDouble).toArray)

}

//?設(shè)置迭代次數(shù)并進(jìn)行進(jìn)行訓(xùn)練

val?numIterations?=20

val?model?=?SVMWithSGD.train(parsedData,?numIterations)

//?統(tǒng)計分類錯誤的樣本比例

val?labelAndPreds?=?parsedData.map?{?point?=>

val?prediction?=?model.predict(point.features)

(point.label,?prediction)

}

val?trainErr?=?labelAndPreds.filter(r?=>?r._1?!=?r._2).count.toDouble?/?parsedData.count

println("Training?Error?=?"+?trainErr)

3.2.2回歸算法

回歸算法屬于監(jiān)督式學(xué)習(xí)，每個個體都有一個與之相關(guān)聯(lián)的實數(shù)標(biāo)簽，并且我們希望在給出用于表示這些實體的數(shù)值特征后，所預(yù)測出的標(biāo)簽值可以盡可能接近實際值。MLlib目前支持回歸算法有：線性回歸、嶺回歸、Lasso和決策樹。

案例：導(dǎo)入訓(xùn)練數(shù)據(jù)集，將其解析為帶標(biāo)簽點(diǎn)的RDD，使用?LinearRegressionWithSGD?算法建立一個簡單的線性模型來預(yù)測標(biāo)簽的值，最后計算均方差來評估預(yù)測值與實際值的吻合度。

[java]view plain copy

print?

importorg.apache.spark.mllib.regression.LinearRegressionWithSGD

importorg.apache.spark.mllib.regression.LabeledPoint

//?加載和解析數(shù)據(jù)文件

val?data?=?sc.textFile("mllib/data/ridge-data/lpsa.data")

val?parsedData?=?data.map?{?line?=>

val?parts?=?line.split(',')

LabeledPoint(parts(0).toDouble,?parts(1).split('?').map(x?=>?x.toDouble).toArray)

}

//設(shè)置迭代次數(shù)并進(jìn)行訓(xùn)練

val?numIterations?=20

val?model?=?LinearRegressionWithSGD.train(parsedData,?numIterations)

//?統(tǒng)計回歸錯誤的樣本比例

val?valuesAndPreds?=?parsedData.map?{?point?=>

val?prediction?=?model.predict(point.features)

(point.label,?prediction)

}

val?MSE?=?valuesAndPreds.map{case(v,?p)?=>?math.pow((v?-?p),2)}.reduce(_?+?_)/valuesAndPreds.count

println("training?Mean?Squared?Error?=?"+?MSE)

3.2.3聚類算法

聚類算法屬于非監(jiān)督式學(xué)習(xí)，通常被用于探索性的分析，是根據(jù)“物以類聚”的原理，將本身沒有類別的樣本聚集成不同的組，這樣的一組數(shù)據(jù)對象的集合叫做簇，并且對每一個這樣的簇進(jìn)行描述的過程。它的目的是使得屬于同一簇的樣本之間應(yīng)該彼此相似，而不同簇的樣本應(yīng)該足夠不相似，常見的典型應(yīng)用場景有客戶細(xì)分、客戶研究、市場細(xì)分、價值評估。MLlib目前支持廣泛使用的KMmeans聚類算法。

案例：導(dǎo)入訓(xùn)練數(shù)據(jù)集，使用?KMeans對象來將數(shù)據(jù)聚類到兩個類簇當(dāng)中，所需的類簇個數(shù)會被傳遞到算法中，然后計算集內(nèi)均方差總和?(WSSSE)，可以通過增加類簇的個數(shù)?k?來減小誤差。實際上，最優(yōu)的類簇數(shù)通常是1，因為這一點(diǎn)通常是WSSSE圖中的 “低谷點(diǎn)”。

[java]view plain copy

print?

importorg.apache.spark.mllib.clustering.KMeans

//?加載和解析數(shù)據(jù)文件

val?data?=?sc.textFile("kmeans_data.txt")

val?parsedData?=?data.map(?_.split('?').map(_.toDouble))

//?設(shè)置迭代次數(shù)、類簇的個數(shù)

val?numIterations?=20

val?numClusters?=2

//?進(jìn)行訓(xùn)練

val?clusters?=?KMeans.train(parsedData,?numClusters,?numIterations)

//?統(tǒng)計聚類錯誤的樣本比例

val?WSSSE?=?clusters.computeCost(parsedData)

println("Within?Set?Sum?of?Squared?Errors?=?"+?WSSSE)

3.2.4協(xié)同過濾

協(xié)同過濾常被應(yīng)用于推薦系統(tǒng)，這些技術(shù)旨在補(bǔ)充用戶-商品關(guān)聯(lián)矩陣中所缺失的部分。MLlib當(dāng)前支持基于模型的協(xié)同過濾，其中用戶和商品通過一小組隱語義因子進(jìn)行表達(dá)，并且這些因子也用于預(yù)測缺失的元素。

案例：導(dǎo)入訓(xùn)練數(shù)據(jù)集，數(shù)據(jù)每一行由一個用戶、一個商品和相應(yīng)的評分組成。假設(shè)評分是顯性的，使用默認(rèn)的ALS.train()方法，通過計算預(yù)測出的評分的均方差來評估這個推薦模型。

[java]view plain copy

print?

importorg.apache.spark.mllib.recommendation.ALS

importorg.apache.spark.mllib.recommendation.Rating

//?加載和解析數(shù)據(jù)文件

val?data?=?sc.textFile("mllib/data/als/test.data")

val?ratings?=?data.map(_.split(',')?match?{

caseArray(user,?item,?rate)?=>?Rating(user.toInt,?item.toInt,?rate.toDouble)

})

//?設(shè)置迭代次數(shù)

val?numIterations?=20

val?model?=?ALS.train(ratings,1,20,0.01)

//?對推薦模型進(jìn)行評分

val?usersProducts?=?ratings.map{caseRating(user,?product,?rate)?=>?(user,?product)}

val?predictions?=?model.predict(usersProducts).map{

caseRating(user,?product,?rate)?=>?((user,?product),?rate)

}

val?ratesAndPreds?=?ratings.map{

caseRating(user,?product,?rate)?=>?((user,?product),?rate)

}.join(predictions)

val?MSE?=?ratesAndPreds.map{

case((user,?product),?(r1,?r2))?=>?math.pow((r1-?r2),2)

}.reduce(_?+?_)/ratesAndPreds.count

println("Mean?Squared?Error?=?"+?MSE)

3.3MLlib的實用程序分析

實用程序部分包括數(shù)據(jù)的驗證器、Label的二元和多元的分析器、多種數(shù)據(jù)生成器、數(shù)據(jù)加載器。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

spark mlib簡介及相關(guān)概念

spark mlib簡介及相關(guān)概念

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

spark mlib簡介及相關(guān)概念

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av