Spark 2.1 Mllib
考慮到spark選型做mllib的人,最關(guān)心問(wèn)題,就是spark mllib能夠支持多少機(jī)器學(xué)習(xí)的算法呢?
問(wèn)題很簡(jiǎn)單,就下面這么多,你看著用吧。
數(shù)據(jù)集:
? Local vector(向量)(稀疏/密集)
? Labeled point(坐標(biāo)向量)(稀疏/密集)
? Local matrix(矩陣)(稀疏/密集)
? Distributed matrix(矩陣)
o RowMatrix(行矩陣)(向量矩陣)
o IndexedRowMatrix(行坐標(biāo)矩陣)(indexRow)
o CoordinateMatrix(坐標(biāo)矩陣)(適用于稀疏矩陣)(matrixEntry)
o BlockMatrix(塊矩陣)
向量(1.0,0.0,1.0,3.0)用密集格式表示為[1.0,0.0,1.0,3.0],用稀疏格式表示為(4,[0,2,3],[1.0,1.0,3.0]) 第一個(gè)4表示向量的長(zhǎng)度(元素個(gè)數(shù)),[0,2,3]就是indices數(shù)組,[1.0,1.0,3.0]是values數(shù)組 表示向量0的位置的值是1.0,2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0,矩陣同理。
算法包:
? Basic statistics(基本統(tǒng)計(jì)信息)
o summary statistics(摘要統(tǒng)計(jì))
o correlations(相關(guān)性)
o stratified sampling(分層抽樣)
o hypothesis testing(假設(shè))
o streaming significance testing(流量統(tǒng)計(jì))
o random data generation(隨機(jī)數(shù)據(jù)生成)
? Classification and regression(分類和回歸)
o linear models (SVMs, logistic regression, linear regression)(線性模型(向量機(jī)、羅輯回歸、線性回歸))
o naive Bayes(樸素貝葉斯)
o decision trees(決策樹(shù))
o ensembles of trees (Random Forests and Gradient-Boosted Trees)(隨機(jī)森林、梯度樹(shù))
o isotonic regression(保序回歸)
? Collaborative filtering(協(xié)同過(guò)濾)
o alternating least squares (ALS)(最小二乘)
? Clustering
o k-means(聚類)
o Gaussian mixture(高斯混合)
o power iteration clustering (PIC)(迭代聚類)
o latent Dirichlet allocation (LDA)(三層貝葉斯概率模型)
o bisecting k-means(二分聚類)
o streaming k-means(流聚類)
? Dimensionality reduction(降維)
o singular value decomposition (SVD)(奇異值分解)
o principal component analysis (PCA)(主成分分析)
? Feature extraction and transformation(特征提取和轉(zhuǎn)換)
? Frequent pattern mining(頻繁模式挖掘)
o FP-growth(關(guān)聯(lián)分析算法)
o association rules(關(guān)聯(lián)規(guī)則)
o PrefixSpan(序列模式分析算法)
? Evaluation metrics(指標(biāo)評(píng)測(cè))
? PMML model export(PMML模型)
? Optimization (developer)(優(yōu)化算法)
o stochastic gradient descent(隨機(jī)梯度下降法)
o limited-memory BFGS (L-BFGS)(擬牛頓算法)
spark mllib支持哪些機(jī)器學(xué)習(xí)算法?
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 1、機(jī)器學(xué)習(xí)概念 1.1機(jī)器學(xué)習(xí)的定義 在維基百科上對(duì)機(jī)器學(xué)習(xí)提出以下幾種定義: l“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué)...
- 機(jī)器學(xué)習(xí)可以從數(shù)據(jù)中得到有用的見(jiàn)解. 目標(biāo)是縱觀Spark MLlib,采用合適的算法從數(shù)據(jù)集中生成見(jiàn)解。對(duì)于 ...
- 機(jī)器學(xué)習(xí)(Machine Learning)&深度學(xué)習(xí)(Deep Learning)資料(Chapter 1) 注...
- 多年以前,穿著校服、扎著馬尾辮的我認(rèn)識(shí)了在電腦熒幕里的他們,從此一發(fā)不可收拾。今天的我,畫著淡妝,穿著禮服和恨天高...
- Num01-->mysql基本查詢 Num02-->mysql條件查詢 Num03-->mysql聚合函數(shù) Num...