第15章 大數(shù)據(jù)與MapReduce

大數(shù)據(jù)與MapReduce首頁
大數(shù)據(jù) 概述
大數(shù)據(jù): 收集到的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了我們的處理能力。
大數(shù)據(jù) 場景
假如你為一家網(wǎng)絡(luò)購物商店工作,很多用戶訪問該網(wǎng)站,其中有些人會購買商品,有些人則隨意瀏覽后就離開。
對于你來說,可能很想識別那些有購物意愿的用戶。
那么問題就來了,數(shù)據(jù)集可能會非常大,在單機(jī)上訓(xùn)練要運行好幾天。
接下來:我們講講 MapRedece 如何來解決這樣的問題
MapRedece
Hadoop 概述
Hadoop 是 MapRedece 框架的一個免費開源實現(xiàn)。
MapReduce: 分布式的計算框架,可以將單個計算作業(yè)分配給多臺計算機(jī)執(zhí)行。
MapRedece 原理
MapRedece 工作原理
- 主節(jié)點控制 MapReduce 的作業(yè)流程
- MapReduce 的作業(yè)可以分成map任務(wù)和reduce任務(wù)
- map 任務(wù)之間不做數(shù)據(jù)交流,reduce 任務(wù)也一樣
- 在 map 和 reduce 階段中間,有一個 sort 和 combine 階段
- 數(shù)據(jù)被重復(fù)存放在不同的機(jī)器上,以防止某個機(jī)器失效
- mapper 和 reducer 傳輸?shù)臄?shù)據(jù)形式為 key/value對

MapReduce框架的示意圖
MapRedece 特點
優(yōu)點: 使程序以并行的方式執(zhí)行,可在短時間內(nèi)完成大量工作。
缺點: 算法必須經(jīng)過重寫,需要對系統(tǒng)工程有一定的理解。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型數(shù)據(jù)。
Hadoop 流(Python 調(diào)用)
理論簡介
例如: Hadoop流可以像Linux命令一樣執(zhí)行
cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt
類似的Hadoop流就可以在多臺機(jī)器上分布式執(zhí)行,用戶可以通過Linux命令來測試Python語言編寫的MapReduce腳本。
實戰(zhàn)腳本
# 測試 Mapper
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py
# Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt
# 測試 Reducer
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py
# Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py
MapReduce 機(jī)器學(xué)習(xí)
Mahout in Action
- 簡單貝葉斯:它屬于為數(shù)不多的可以很自然的使用MapReduce的算法。通過統(tǒng)計在某個類別下某特征的概率。
- k-近鄰算法:高維數(shù)據(jù)下(如文本、圖像和視頻)流行的近鄰查找方法是局部敏感哈希算法。
- 支持向量機(jī)(SVM):使用隨機(jī)梯度下降算法求解,如Pegasos算法。
- 奇異值分解:Lanczos算法是一個有效的求解近似特征值的算法。
- k-均值聚類:canopy算法初始化k個簇,然后再運行K-均值求解結(jié)果。
使用 mrjob 庫將 MapReduce 自動化
理論簡介
- MapReduce 作業(yè)流自動化的框架:Cascading 和 Oozie.
- mrjob 是一個不錯的學(xué)習(xí)工具,與2010年底實現(xiàn)了開源,來之于 Yelp(一個餐廳點評網(wǎng)站).
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt > input/15.BigData_MapReduce/myOut.txt
實戰(zhàn)腳本
# 測試 mrjob的案例
# 先測試一下mapper方法
# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt
# 運行整個程序,移除 --mapper 就行
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt
項目案例:分布式 SVM 的 Pegasos 算法
Pegasos是指原始估計梯度求解器(Peimal Estimated sub-GrAdient Solver)
Pegasos 工作原理
- 從訓(xùn)練集中隨機(jī)挑選一些樣本點添加到帶處理列表中
- 按序判斷每個樣本點是否被正確分類
- 如果是則忽略
- 如果不是則將其加入到待更新集合。
- 批處理完畢后,權(quán)重向量按照這些錯分的樣本進(jìn)行更新。
上述算法偽代碼如下:
將 回歸系數(shù)w 初始化為0
對每次批處理
隨機(jī)選擇 k 個樣本點(向量)
對每個向量
如果該向量被錯分:
更新權(quán)重向量 w
累加對 w 的更新
開發(fā)流程
收集數(shù)據(jù):數(shù)據(jù)按文本格式存放。
準(zhǔn)備數(shù)據(jù):輸入數(shù)據(jù)已經(jīng)是可用的格式,所以不需任何準(zhǔn)備工作。如果你需要解析一個大規(guī)模的數(shù)據(jù)集,建議使用 map 作業(yè)來完成,從而達(dá)到并行處理的目的。
分析數(shù)據(jù):無。
訓(xùn)練算法:與普通的 SVM 一樣,在分類器訓(xùn)練上仍需花費大量的時間。
測試算法:在二維空間上可視化之后,觀察超平面,判斷算法是否有效。
使用算法:本例不會展示一個完整的應(yīng)用,但會展示如何在大數(shù)據(jù)集上訓(xùn)練SVM。該算法其中一個應(yīng)用場景就是本文分類,通常在文本分類里可能有大量的文檔和成千上萬的特征。
收集數(shù)據(jù)
文本文件數(shù)據(jù)格式如下:
0.365032 2.465645 -1
-2.494175 -0.292380 -1
-3.039364 -0.123108 -1
1.348150 0.255696 1
2.768494 1.234954 1
1.232328 -0.601198 1
準(zhǔn)備數(shù)據(jù)
def loadDataSet(fileName):
dataMat = []
labelMat = []
fr = open(fileName)
for line in fr.readlines():
lineArr = line.strip().split('\t')
# dataMat.append([float(lineArr[0]), float(lineArr[1]), float(lineArr[2])])
dataMat.append([float(lineArr[0]), float(lineArr[1])])
labelMat.append(float(lineArr[2]))
return dataMat, labelMat
分析數(shù)據(jù): 無
訓(xùn)練算法
def batchPegasos(dataSet, labels, lam, T, k):
"""batchPegasos()
Args:
dataMat 特征集合
labels 分類結(jié)果集合
lam 固定值
T 迭代次數(shù)
k 待處理列表大小
Returns:
w 回歸系數(shù)
"""
m, n = shape(dataSet)
w = zeros(n) # 回歸系數(shù)
dataIndex = range(m)
for t in range(1, T+1):
wDelta = mat(zeros(n)) # 重置 wDelta
# 它是學(xué)習(xí)率,代表了權(quán)重調(diào)整幅度的大小。(也可以理解為隨機(jī)梯度的步長,使它不斷減小,便于擬合)
# 輸入T和K分別設(shè)定了迭代次數(shù)和待處理列表的大小。在T次迭代過程中,每次需要重新計算eta
eta = 1.0/(lam*t)
random.shuffle(dataIndex)
for j in range(k): # 全部的訓(xùn)練集 內(nèi)循環(huán)中執(zhí)行批處理,將分類錯誤的值全部做累加后更新權(quán)重向量
i = dataIndex[j]
p = predict(w, dataSet[i, :]) # mapper 代碼
# 如果預(yù)測正確,并且預(yù)測結(jié)果的絕對值>=1,因為最大間隔為1, 認(rèn)為沒問題。
# 否則算是預(yù)測錯誤, 通過預(yù)測錯誤的結(jié)果,來累計更新w.
if labels[i]*p < 1: # mapper 代碼
wDelta += labels[i]*dataSet[i, :].A # 累積變化
# w通過不斷的隨機(jī)梯度的方式來優(yōu)化
w = (1.0 - 1/t)*w + (eta/k)*wDelta # 在每個 T上應(yīng)用更改
# print '-----', w
# print '++++++', w
return w
完整代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/pegasos.py
MR版本的代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/mrSVM.py
- 作者:片刻 小瑤
- GitHub地址: https://github.com/apachecn/MachineLearning
- 版權(quán)聲明:歡迎轉(zhuǎn)載學(xué)習(xí) => 請標(biāo)注信息來源于 ApacheCN