第15章大數(shù)據(jù)與MapReduce

大數(shù)據(jù)與MapReduce首頁

大數(shù)據(jù) 概述

大數(shù)據(jù): 收集到的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了我們的處理能力。

大數(shù)據(jù) 場景

假如你為一家網(wǎng)絡(luò)購物商店工作，很多用戶訪問該網(wǎng)站，其中有些人會購買商品，有些人則隨意瀏覽后就離開。
對于你來說，可能很想識別那些有購物意愿的用戶。
那么問題就來了，數(shù)據(jù)集可能會非常大，在單機(jī)上訓(xùn)練要運行好幾天。
接下來：我們講講 MapRedece 如何來解決這樣的問題

MapRedece

Hadoop 概述

Hadoop 是 MapRedece 框架的一個免費開源實現(xiàn)。
MapReduce: 分布式的計算框架，可以將單個計算作業(yè)分配給多臺計算機(jī)執(zhí)行。

MapRedece 原理

MapRedece 工作原理

主節(jié)點控制 MapReduce 的作業(yè)流程
MapReduce 的作業(yè)可以分成map任務(wù)和reduce任務(wù)
map 任務(wù)之間不做數(shù)據(jù)交流，reduce 任務(wù)也一樣
在 map 和 reduce 階段中間，有一個 sort 和 combine 階段
數(shù)據(jù)被重復(fù)存放在不同的機(jī)器上，以防止某個機(jī)器失效
mapper 和 reducer 傳輸?shù)臄?shù)據(jù)形式為 key/value對

MapReduce框架的示意圖

MapRedece 特點

優(yōu)點: 使程序以并行的方式執(zhí)行，可在短時間內(nèi)完成大量工作。
缺點: 算法必須經(jīng)過重寫，需要對系統(tǒng)工程有一定的理解。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型數(shù)據(jù)。

Hadoop 流(Python 調(diào)用)

理論簡介

例如: Hadoop流可以像Linux命令一樣執(zhí)行

cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt

類似的Hadoop流就可以在多臺機(jī)器上分布式執(zhí)行，用戶可以通過Linux命令來測試Python語言編寫的MapReduce腳本。

實戰(zhàn)腳本

# 測試 Mapper
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py
# Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt

# 測試 Reducer
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py
# Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py

MapReduce 機(jī)器學(xué)習(xí)

Mahout in Action

簡單貝葉斯：它屬于為數(shù)不多的可以很自然的使用MapReduce的算法。通過統(tǒng)計在某個類別下某特征的概率。
k-近鄰算法：高維數(shù)據(jù)下（如文本、圖像和視頻）流行的近鄰查找方法是局部敏感哈希算法。
支持向量機(jī)(SVM)：使用隨機(jī)梯度下降算法求解，如Pegasos算法。
奇異值分解：Lanczos算法是一個有效的求解近似特征值的算法。
k-均值聚類：canopy算法初始化k個簇，然后再運行K-均值求解結(jié)果。

使用 mrjob 庫將 MapReduce 自動化

理論簡介

MapReduce 作業(yè)流自動化的框架：Cascading 和 Oozie.
mrjob 是一個不錯的學(xué)習(xí)工具，與2010年底實現(xiàn)了開源，來之于 Yelp(一個餐廳點評網(wǎng)站).

python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt > input/15.BigData_MapReduce/myOut.txt

實戰(zhàn)腳本

# 測試 mrjob的案例
# 先測試一下mapper方法
# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt
# 運行整個程序，移除 --mapper 就行
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt

項目案例：分布式 SVM 的 Pegasos 算法

Pegasos是指原始估計梯度求解器(Peimal Estimated sub-GrAdient Solver)

Pegasos 工作原理

從訓(xùn)練集中隨機(jī)挑選一些樣本點添加到帶處理列表中
按序判斷每個樣本點是否被正確分類
- 如果是則忽略
- 如果不是則將其加入到待更新集合。
批處理完畢后，權(quán)重向量按照這些錯分的樣本進(jìn)行更新。

上述算法偽代碼如下：

將 回歸系數(shù)w 初始化為0
對每次批處理
    隨機(jī)選擇 k 個樣本點(向量)
    對每個向量
        如果該向量被錯分：
            更新權(quán)重向量 w
    累加對 w 的更新

開發(fā)流程

收集數(shù)據(jù)：數(shù)據(jù)按文本格式存放。
準(zhǔn)備數(shù)據(jù)：輸入數(shù)據(jù)已經(jīng)是可用的格式，所以不需任何準(zhǔn)備工作。如果你需要解析一個大規(guī)模的數(shù)據(jù)集，建議使用 map 作業(yè)來完成，從而達(dá)到并行處理的目的。
分析數(shù)據(jù)：無。
訓(xùn)練算法：與普通的 SVM 一樣，在分類器訓(xùn)練上仍需花費大量的時間。
測試算法：在二維空間上可視化之后，觀察超平面，判斷算法是否有效。
使用算法：本例不會展示一個完整的應(yīng)用，但會展示如何在大數(shù)據(jù)集上訓(xùn)練SVM。該算法其中一個應(yīng)用場景就是本文分類，通常在文本分類里可能有大量的文檔和成千上萬的特征。

收集數(shù)據(jù)

文本文件數(shù)據(jù)格式如下：

0.365032        2.465645        -1
-2.494175       -0.292380       -1
-3.039364       -0.123108       -1
1.348150        0.255696        1
2.768494        1.234954        1
1.232328        -0.601198       1

準(zhǔn)備數(shù)據(jù)

def loadDataSet(fileName):
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        # dataMat.append([float(lineArr[0]), float(lineArr[1]), float(lineArr[2])])
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat

分析數(shù)據(jù): 無

訓(xùn)練算法

def batchPegasos(dataSet, labels, lam, T, k):
    """batchPegasos()

    Args:
        dataMat    特征集合
        labels     分類結(jié)果集合
        lam        固定值
        T          迭代次數(shù)
        k          待處理列表大小
    Returns:
        w          回歸系數(shù)
    """
    m, n = shape(dataSet)
    w = zeros(n)  # 回歸系數(shù)
    dataIndex = range(m)
    for t in range(1, T+1):
        wDelta = mat(zeros(n))  # 重置 wDelta

        # 它是學(xué)習(xí)率，代表了權(quán)重調(diào)整幅度的大小。（也可以理解為隨機(jī)梯度的步長，使它不斷減小，便于擬合）
        # 輸入T和K分別設(shè)定了迭代次數(shù)和待處理列表的大小。在T次迭代過程中，每次需要重新計算eta
        eta = 1.0/(lam*t)
        random.shuffle(dataIndex)
        for j in range(k):      # 全部的訓(xùn)練集  內(nèi)循環(huán)中執(zhí)行批處理，將分類錯誤的值全部做累加后更新權(quán)重向量
            i = dataIndex[j]
            p = predict(w, dataSet[i, :])              # mapper 代碼

            # 如果預(yù)測正確，并且預(yù)測結(jié)果的絕對值>=1，因為最大間隔為1, 認(rèn)為沒問題。
            # 否則算是預(yù)測錯誤, 通過預(yù)測錯誤的結(jié)果，來累計更新w.
            if labels[i]*p < 1:                        # mapper 代碼
                wDelta += labels[i]*dataSet[i, :].A    # 累積變化
        # w通過不斷的隨機(jī)梯度的方式來優(yōu)化
        w = (1.0 - 1/t)*w + (eta/k)*wDelta             # 在每個 T上應(yīng)用更改
        # print '-----', w
    # print '++++++', w
    return w

完整代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/pegasos.py

MR版本的代碼地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/mrSVM.py

作者：片刻小瑤
GitHub地址: https://github.com/apachecn/MachineLearning
版權(quán)聲明：歡迎轉(zhuǎn)載學(xué)習(xí) => 請標(biāo)注信息來源于 ApacheCN

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【機(jī)器學(xué)習(xí)實戰(zhàn)】第15章大數(shù)據(jù)與 MapReduce

【機(jī)器學(xué)習(xí)實戰(zhàn)】第15章大數(shù)據(jù)與 MapReduce

第15章大數(shù)據(jù)與MapReduce

大數(shù)據(jù) 概述

大數(shù)據(jù) 場景

MapRedece

Hadoop 概述

MapRedece 原理

Hadoop 流(Python 調(diào)用)

MapReduce 機(jī)器學(xué)習(xí)

Mahout in Action

使用 mrjob 庫將 MapReduce 自動化

項目案例：分布式 SVM 的 Pegasos 算法

Pegasos 工作原理

開發(fā)流程

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【機(jī)器學(xué)習(xí)實戰(zhàn)】第15章 大數(shù)據(jù)與 MapReduce

第15章 大數(shù)據(jù)與MapReduce

大數(shù)據(jù) 概述

大數(shù)據(jù) 場景

MapRedece

Hadoop 概述

MapRedece 原理

Hadoop 流(Python 調(diào)用)

MapReduce 機(jī)器學(xué)習(xí)

Mahout in Action

使用 mrjob 庫將 MapReduce 自動化

項目案例：分布式 SVM 的 Pegasos 算法

Pegasos 工作原理

開發(fā)流程

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【機(jī)器學(xué)習(xí)實戰(zhàn)】第15章大數(shù)據(jù)與 MapReduce

第15章大數(shù)據(jù)與MapReduce