【機(jī)器學(xué)習(xí)實戰(zhàn)】第15章 大數(shù)據(jù)與 MapReduce

第15章 大數(shù)據(jù)與MapReduce

大數(shù)據(jù)與MapReduce首頁

大數(shù)據(jù) 概述

大數(shù)據(jù): 收集到的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了我們的處理能力。

大數(shù)據(jù) 場景

假如你為一家網(wǎng)絡(luò)購物商店工作,很多用戶訪問該網(wǎng)站,其中有些人會購買商品,有些人則隨意瀏覽后就離開。
對于你來說,可能很想識別那些有購物意愿的用戶。
那么問題就來了,數(shù)據(jù)集可能會非常大,在單機(jī)上訓(xùn)練要運行好幾天。
接下來:我們講講 MapRedece 如何來解決這樣的問題

MapRedece

Hadoop 概述

Hadoop 是 MapRedece 框架的一個免費開源實現(xiàn)。
MapReduce: 分布式的計算框架,可以將單個計算作業(yè)分配給多臺計算機(jī)執(zhí)行。

MapRedece 原理

MapRedece 工作原理

  • 主節(jié)點控制 MapReduce 的作業(yè)流程
  • MapReduce 的作業(yè)可以分成map任務(wù)和reduce任務(wù)
  • map 任務(wù)之間不做數(shù)據(jù)交流,reduce 任務(wù)也一樣
  • 在 map 和 reduce 階段中間,有一個 sort 和 combine 階段
  • 數(shù)據(jù)被重復(fù)存放在不同的機(jī)器上,以防止某個機(jī)器失效
  • mapper 和 reducer 傳輸?shù)臄?shù)據(jù)形式為 key/value對
MapReduce框架的示意圖

MapRedece 特點

優(yōu)點: 使程序以并行的方式執(zhí)行,可在短時間內(nèi)完成大量工作。
缺點: 算法必須經(jīng)過重寫,需要對系統(tǒng)工程有一定的理解。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型數(shù)據(jù)。

Hadoop 流(Python 調(diào)用)

理論簡介

例如: Hadoop流可以像Linux命令一樣執(zhí)行

cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt

類似的Hadoop流就可以在多臺機(jī)器上分布式執(zhí)行,用戶可以通過Linux命令來測試Python語言編寫的MapReduce腳本。

實戰(zhàn)腳本

# 測試 Mapper
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py
# Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt

# 測試 Reducer
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py
# Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py

MapReduce 機(jī)器學(xué)習(xí)

Mahout in Action

  1. 簡單貝葉斯:它屬于為數(shù)不多的可以很自然的使用MapReduce的算法。通過統(tǒng)計在某個類別下某特征的概率。
  2. k-近鄰算法:高維數(shù)據(jù)下(如文本、圖像和視頻)流行的近鄰查找方法是局部敏感哈希算法。
  3. 支持向量機(jī)(SVM):使用隨機(jī)梯度下降算法求解,如Pegasos算法。
  4. 奇異值分解:Lanczos算法是一個有效的求解近似特征值的算法。
  5. k-均值聚類:canopy算法初始化k個簇,然后再運行K-均值求解結(jié)果。

使用 mrjob 庫將 MapReduce 自動化

理論簡介

  • MapReduce 作業(yè)流自動化的框架:Cascading 和 Oozie.
  • mrjob 是一個不錯的學(xué)習(xí)工具,與2010年底實現(xiàn)了開源,來之于 Yelp(一個餐廳點評網(wǎng)站).
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt > input/15.BigData_MapReduce/myOut.txt

實戰(zhàn)腳本

# 測試 mrjob的案例
# 先測試一下mapper方法
# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt
# 運行整個程序,移除 --mapper 就行
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt

項目案例:分布式 SVM 的 Pegasos 算法

Pegasos是指原始估計梯度求解器(Peimal Estimated sub-GrAdient Solver)

Pegasos 工作原理

  1. 從訓(xùn)練集中隨機(jī)挑選一些樣本點添加到帶處理列表中
  2. 按序判斷每個樣本點是否被正確分類
    • 如果是則忽略
    • 如果不是則將其加入到待更新集合。
  3. 批處理完畢后,權(quán)重向量按照這些錯分的樣本進(jìn)行更新。

上述算法偽代碼如下:

將 回歸系數(shù)w 初始化為0
對每次批處理
    隨機(jī)選擇 k 個樣本點(向量)
    對每個向量
        如果該向量被錯分:
            更新權(quán)重向量 w
    累加對 w 的更新

開發(fā)流程

收集數(shù)據(jù):數(shù)據(jù)按文本格式存放。
準(zhǔn)備數(shù)據(jù):輸入數(shù)據(jù)已經(jīng)是可用的格式,所以不需任何準(zhǔn)備工作。如果你需要解析一個大規(guī)模的數(shù)據(jù)集,建議使用 map 作業(yè)來完成,從而達(dá)到并行處理的目的。
分析數(shù)據(jù):無。
訓(xùn)練算法:與普通的 SVM 一樣,在分類器訓(xùn)練上仍需花費大量的時間。
測試算法:在二維空間上可視化之后,觀察超平面,判斷算法是否有效。
使用算法:本例不會展示一個完整的應(yīng)用,但會展示如何在大數(shù)據(jù)集上訓(xùn)練SVM。該算法其中一個應(yīng)用場景就是本文分類,通常在文本分類里可能有大量的文檔和成千上萬的特征。

收集數(shù)據(jù)

文本文件數(shù)據(jù)格式如下:

0.365032        2.465645        -1
-2.494175       -0.292380       -1
-3.039364       -0.123108       -1
1.348150        0.255696        1
2.768494        1.234954        1
1.232328        -0.601198       1

準(zhǔn)備數(shù)據(jù)

def loadDataSet(fileName):
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        # dataMat.append([float(lineArr[0]), float(lineArr[1]), float(lineArr[2])])
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat

分析數(shù)據(jù): 無

訓(xùn)練算法

def batchPegasos(dataSet, labels, lam, T, k):
    """batchPegasos()

    Args:
        dataMat    特征集合
        labels     分類結(jié)果集合
        lam        固定值
        T          迭代次數(shù)
        k          待處理列表大小
    Returns:
        w          回歸系數(shù)
    """
    m, n = shape(dataSet)
    w = zeros(n)  # 回歸系數(shù)
    dataIndex = range(m)
    for t in range(1, T+1):
        wDelta = mat(zeros(n))  # 重置 wDelta

        # 它是學(xué)習(xí)率,代表了權(quán)重調(diào)整幅度的大小。(也可以理解為隨機(jī)梯度的步長,使它不斷減小,便于擬合)
        # 輸入T和K分別設(shè)定了迭代次數(shù)和待處理列表的大小。在T次迭代過程中,每次需要重新計算eta
        eta = 1.0/(lam*t)
        random.shuffle(dataIndex)
        for j in range(k):      # 全部的訓(xùn)練集  內(nèi)循環(huán)中執(zhí)行批處理,將分類錯誤的值全部做累加后更新權(quán)重向量
            i = dataIndex[j]
            p = predict(w, dataSet[i, :])              # mapper 代碼

            # 如果預(yù)測正確,并且預(yù)測結(jié)果的絕對值>=1,因為最大間隔為1, 認(rèn)為沒問題。
            # 否則算是預(yù)測錯誤, 通過預(yù)測錯誤的結(jié)果,來累計更新w.
            if labels[i]*p < 1:                        # mapper 代碼
                wDelta += labels[i]*dataSet[i, :].A    # 累積變化
        # w通過不斷的隨機(jī)梯度的方式來優(yōu)化
        w = (1.0 - 1/t)*w + (eta/k)*wDelta             # 在每個 T上應(yīng)用更改
        # print '-----', w
    # print '++++++', w
    return w

完整代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/pegasos.py

MR版本的代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/mrSVM.py


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容