Hadoop工具讓數(shù)據(jù)倉庫遷移更輕松

對于大數(shù)據(jù)管理和分析應(yīng)用程序云服務(wù),用戶的關(guān)注度正不斷增長,而為了應(yīng)對這一趨勢,供應(yīng)商已經(jīng)開始努力簡化Hadoop的云部署流程,并試圖降低云端Hadoop的購買價格。

如何簡化Hadoop云部署

大數(shù)據(jù)和云計算現(xiàn)在對于Hadoop供應(yīng)商和一些大數(shù)據(jù)技術(shù)公司來說,已經(jīng)變得十分重要。這些公司正常嘗試使用新方法,來簡化用戶部署Hadoop云系統(tǒng)的步驟,并降低用戶的部署成本。例如,Cloudera將計量功能加入其Cloudera Director工具中,以管理構(gòu)建在Hadoop中的分布式集群。這允許Cloudera用戶采用一種基于使用的定價模型,而不必以節(jié)點為單位進(jìn)行支付,這讓他們能夠運(yùn)行一些因特定目的搭建起來的臨時系統(tǒng),使用完后可以釋放資源,從而避免成本的上升。

在單個Cloudera Director實例的大數(shù)據(jù)云環(huán)境中,用戶現(xiàn)在可以在其中的多個區(qū)域內(nèi)部署集群。此外,新版本的Cloudera Enterprise(一個基于Hadoop的大數(shù)據(jù)平臺)實現(xiàn)了在Amazon Simple Storage Service(S3)數(shù)據(jù)存儲上直接運(yùn)行Apache Impala SQL-on-Hadoop 查詢引擎。這使得不需要移動數(shù)據(jù)到Hadoop分布式文件系統(tǒng)就可以實現(xiàn)查詢操作,這也為用戶在AWS云上部署臨時系統(tǒng)提供了便利。

按需定價以及對Impala-on-S3的支持,在Narasimhan Sampath看來是非常有用的,他是Choice Hotels International Inc.公司的系統(tǒng)架構(gòu)師,這家公司在AWS云上運(yùn)行著Cloudera-based集群,這些集群與Spark數(shù)據(jù)處理引擎和Kafka信息查詢系統(tǒng)等技術(shù)協(xié)同工作,以支持各種自助分析應(yīng)用程序。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群: 658558542? ?一起吹水交流學(xué)習(xí)(?點擊即可加入群聊

把你的集群遷移到云上

在Strata + Hadoop World 2016會談中,Sampath表示,Choice遵循了BYOC的方式,將自己的集群,以按需的方式部署到云環(huán)境。例如,營銷部門的集群可以部署到云中,完成一項工作,然后釋放資源。同樣地,開發(fā)團(tuán)隊的集群每天運(yùn)行12小時,然后在夜間關(guān)閉,以節(jié)省公司在AWS云上的投入。

Cloudera的計量定價方式非常適合這種情景,Sampath在會談結(jié)束后說道?!拔也⒉恍枰徺I500個(Cloudera)許可證,除非我無時無刻都在使用這些資源。這和亞馬遜的模型是一樣的?!彼a(bǔ)充道,Choice過去六個月與Cloudera進(jìn)行了十分緊密的合作,試圖連接S3和Impala,Impala最初由Cloudera作為開源軟件發(fā)布。Choice使用S3作為數(shù)據(jù)存儲。Sampath說,Impala對新查詢的支持為BYOC策略提供了額外的靈活性。

Cloudera負(fù)責(zé)云產(chǎn)品營銷的主管David Tishgart表示,他們已經(jīng)越來越樂意在客戶中推廣云。但直到現(xiàn)在,他們對臨時系統(tǒng)也沒有太好的解決方案,也不能隨便增加或減少工作負(fù)載。他承認(rèn),由于這個原因,大多數(shù)Cloudera用戶選擇了在云中長期運(yùn)行集群,而不是采取臨時的方式。

追上Hadoop 云的腳步

隨著越來越多的用戶展示出對云的興趣,Clouder需要與Amazon Elastic MapReduce(EMR),AWS提供的Hadoop云平臺進(jìn)行競爭。此外,Cloudera還發(fā)現(xiàn),自己在與微軟Azure HDInsight大數(shù)據(jù)云服務(wù)的競爭中也處于劣勢,該平臺基于Hortonworks Inc .的Hadoop的分布式環(huán)境。

根據(jù)Gartner分析師Merv Adrian所述,從用戶數(shù)量的角度看,EMR已經(jīng)讓AWS成為了最大的Hadoop供應(yīng)商。AWS最初落后于其他Apache Hadoop競爭對手,但兩年前這種情況得以改變,現(xiàn)在AWS Hadoop用戶數(shù)比其他廠商總和還要多。

Hortonworks還專注于擴(kuò)展Hadoop云功能,他們表示,HDInsight現(xiàn)在運(yùn)行著2.5版的Hortonworks數(shù)據(jù)平臺(HDP)。此外,Hortonworks現(xiàn)在還支持Microsoft's Azure Active Directory service 和Apache Ranger的集成。(Apache Ranger是一個用來管理Hadoop數(shù)據(jù)安全性和用戶訪問權(quán)限的框架)

盡管與微軟云環(huán)境關(guān)系密切,但Hortonworks也提供HDP的技術(shù)預(yù)覽版,以便AWS用戶使用Spark和Apache Hive搭建臨時集群?!拔覀兞私馑性骗h(huán)境上的工作負(fù)載情況,”該公司主管全球營銷的高級副總裁Matt Morgan說道。

Paxata公司也開始使用云環(huán)境。這家自助服務(wù)數(shù)據(jù)準(zhǔn)備軟件的供應(yīng)商提供了一個新工具,叫做Paxata Connect,它可以匯總運(yùn)行在不同Hadoop集群上的數(shù)據(jù),其中也包括獨立云平臺中的數(shù)據(jù)。Paxata首席產(chǎn)品官Nenshad Bardoliwalla說道,很多Hadoop的工作負(fù)載都已遷移到云,能夠創(chuàng)建“臨時”集群,運(yùn)行特定的工作,然后釋放資源,這種模式的誘惑十分巨大。

結(jié)語

感謝您的觀看,如有不足之處,歡迎批評指正。

如果有對大數(shù)據(jù)感興趣的小伙伴或者是從事大數(shù)據(jù)的老司機(jī)可以加群:

658558542? ? (?點擊即可加入群聊

里面整理了一大份學(xué)習(xí)資料,全都是些干貨,包括大數(shù)據(jù)技術(shù)入門,海量數(shù)據(jù)高級分析語言,海量數(shù)據(jù)存儲分布式存儲,以及海量數(shù)據(jù)分析分布式計算等部分,送給每一位大數(shù)據(jù)小伙伴,這里不止是小白聚集地,還有大牛在線解答!歡迎初學(xué)和進(jìn)階中的小伙伴一起進(jìn)群學(xué)習(xí)交流,共同進(jìn)步!

最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己,祝福大家在往后的工作與面試中一切順利。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容