色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<code id="ikmyk"></code>

<fieldset id="ikmyk"><del id="ikmyk"></del></fieldset>

<pre id="ikmyk"><code id="ikmyk"></code></pre>

登錄注冊寫文章

如何用Apache kylin分析亞馬遜產(chǎn)品評價

如何用Apache kylin分析亞馬遜產(chǎn)品評價

摘要

在“用Apache Spark分析8000萬亞馬遜產(chǎn)品評分評價”中，Max Woolf利用Python，R及Apache Spark分析了亞馬遜數(shù)據(jù)集。

本文將介紹如何利用Apache Kylin和Tableau來輕松生成即席查詢報表并查看其響應(yīng)時間。

軟硬件要求

所需軟件：

Kylin 1.6或以上

BI工具，你可以使用任何你喜愛的BI工具，Tableau Desktop將是本文使用的BI工具。

可選項：如果你沒辦法直接訪問Hadoop集群，可以用Docker來裝載一個Hadoop系統(tǒng) （我裝載了沒有問題）

克隆以下文件包

git clonehttps://github.com/albertoRamon/Kylin.git

關(guān)于亞馬遜產(chǎn)品評價數(shù)據(jù)集

這個數(shù)據(jù)集提供了兩種文件：

評價文件：包含購買完產(chǎn)品后客戶給產(chǎn)品的打分，從0到5顆星，并寫產(chǎn)品評價。

元數(shù)據(jù)文件：包含產(chǎn)品的完整描述：產(chǎn)品名稱，產(chǎn)品品牌，產(chǎn)品圖片，產(chǎn)品分類等。

這些文件中的亞馬遜產(chǎn)品通過asin唯一識別碼進行關(guān)聯(lián)。

我們使用如下兩個文件：

元數(shù)據(jù)文件是一個gz壓縮的json文件，包含940萬的產(chǎn)品數(shù)據(jù)。（大?。?.4GB／10.5GB）

產(chǎn)品評價文件是一個未壓縮的CSV文件，包含8260萬的評價數(shù)據(jù)。

將數(shù)據(jù)下載下來（未壓縮）并存在DataDownloaded文件夾，如圖所示：

注釋1: 下載大文件需要寫郵件提交申請。

注釋2: 產(chǎn)品評價文件可以用subset部分的一個較小文件替代。

準備數(shù)據(jù)集

我們需要把這兩個原始文件加載到Hive表中，執(zhí)行這個命令的python腳本如下

python processItem.pypython processMetadata.py

隨后你會在DataProcessed文件夾中生成兩個新文件，如圖所示：

將數(shù)據(jù)復(fù)制到Hive并創(chuàng)建表

如果你在使用Docker

編輯腳本/01-ImportData.sh并指定ID Docker鏡像

ContainerID=’58b’

執(zhí)行以下腳本：復(fù)制數(shù)據(jù)到Docker容器并創(chuàng)建Hive表

./Scripts/01-ImportData.sh

如果你沒有使用Docker：

手動復(fù)制DataProcessed文件夾中的數(shù)據(jù)到你的集群gateway，編輯腳本/02-CreateTB.sql 并指定路徑。

set hivevar:PathFiles=/Amazon_Review;

連接你的集群并執(zhí)行：

hive -f 02-CreateTB.sql

構(gòu)建Cube

創(chuàng)建新項目

點擊

并輸入一個項目名稱

導(dǎo)入數(shù)據(jù)源

點擊

和

選擇需要導(dǎo)入的表（按住Ctrl多選）

創(chuàng)建數(shù)據(jù)模型

點擊

和

指定一個事實表

指定一個維度表

指定一個維度字段

指定一個計算字段

定義Cube

點擊

選擇之前定義的Amazon_Review的數(shù)據(jù)模型

定義其中兩個維度為Normal

定義計算字段

在配置文件中覆蓋：

開始構(gòu)建：

>

處理8000萬行數(shù)據(jù)，在一臺筆記本上用了30分鐘：

用BI工具連接Cube

用Tableau連接Cube生成報表

最后編輯于：2017.12.11 02:27:52

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

一文讀懂Apache Kylin
“麒麟出沒，必有祥瑞。”—— 中國古諺語前言隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展，近些年人類所積累的數(shù)據(jù)正在呈爆...
柴詩雨閱讀 33,231評論 12贊 86
Apache Kylin 概覽
擴展閱讀： Apache Kylin 查詢流程源碼剖析 - 簡書[http://www.itdecent.cn/...
牛肉圓粉不加蔥閱讀 22,186評論 4贊 27

【運維篇】如何使用SSB壓測Apache Kylin
作者：蔣守壯作者介紹：蔣守壯，現(xiàn)就職于金拱門（中國）有限公司，擔(dān)任大數(shù)據(jù)卓越中心高級工程和平臺經(jīng)理，負責(zé)大數(shù)據(jù)平...
Kyligence閱讀 1,686評論 0贊 2
Apache Kylin 從零開始構(gòu)建Cube(含優(yōu)化策略)
前言 Apache Kylin采用“預(yù)計算”的模式，用戶只需要提前定義好查詢維度，Kylin將幫助我們進行計算，并...
叫我不矜持閱讀 3,015評論 0贊 7
給大數(shù)據(jù)分析師的一雙大禮: Apache Kylin和Superset
作者：趙勇杰何京珂編輯：Sammi 分析師的挑戰(zhàn) 在大數(shù)據(jù)時代，使用傳統(tǒng)數(shù)據(jù)處理方式已經(jīng)無法滿足企業(yè)大規(guī)模數(shù)據(jù)...
Kyligence閱讀 4,877評論 0贊 26

友情鏈接更多精彩內(nèi)容

4贊5贊

贊賞

手機看全文

沾化县| 根河市| 彩票| 舞阳县| 宜兰县| 青神县| 秭归县| 黄冈市| 松溪县| 和硕县| 井冈山市| 宁阳县| 宝山区| 巫山县| 乌审旗| 南部县| 建平县| 邹城市| 莎车县| 二连浩特市| 清原| 高密市| 安陆市| 拉孜县| 吴旗县| 旅游| 宁安市| 中宁县| 西乌珠穆沁旗| 黄大仙区| 嘉定区| 武强县| 顺平县| 平安县| 申扎县| 信宜市| 苍南县| 东兰县| 长乐市| 双峰县| 贺兰县|

<button id="eaqwu"></button>

<dl id="eaqwu"><del id="eaqwu"></del></dl>