比別人更聰明:大數(shù)據(jù)應(yīng)用管理
2014-09-14 華融大數(shù)據(jù) 華融世紀大數(shù)據(jù)
如果企業(yè)或組織仍找不到辦法來從大數(shù)據(jù)技術(shù)中獲取到商業(yè)價值,大數(shù)據(jù)可能就逃不掉“來也匆匆,去也匆匆”的命運。要擺脫這樣的命運,僅有一些數(shù)據(jù)科學(xué)家的沙盒分析、實時分析或基于云存儲可擴展性的技術(shù)是不夠的。我們需要開發(fā)出能夠驅(qū)動業(yè)務(wù)發(fā)展的應(yīng)用程序,從而把數(shù)據(jù)轉(zhuǎn)化為能夠產(chǎn)生實際價值的真實行動。
如Concurrent的首席技術(shù)官Chris Wensel所說的,要從大數(shù)據(jù)中獲取商業(yè)價值,我們的動作必須要足夠快,快人一步地找到一種持續(xù)的、完善的從大數(shù)據(jù)中獲取價值的方法:
“你現(xiàn)在擁有這樣一個機會,通過純粹的創(chuàng)新就可以讓你與眾不同——不是因為你比別人更有錢,而是因為你比別人更聰明。你已經(jīng)有了優(yōu)秀的工程師。你現(xiàn)在需要的是一些強大的工具以支持你可以更快地把你的產(chǎn)品推向市場,從而讓你先人一步,與眾不同?!?/p>
Concurrently最近推出了其最新的工具( Driven ),以協(xié)助大數(shù)據(jù)應(yīng)用的生產(chǎn)和監(jiān)控,宣稱是世界上第一個針對大數(shù)據(jù)的績效管理產(chǎn)品。作為一個云服務(wù),在2月4日,Driven開始在它的用戶群中傳播開來。它的目的是完善那些運行于Apache Hadoop上的流行的開源大數(shù)據(jù)應(yīng)用程序開發(fā)框架( Cascading )。
Driven直接影響著大數(shù)據(jù)應(yīng)用程序產(chǎn)生的商業(yè)價值:
縮短開發(fā)時間:通過Driven詳細的用戶界面,它提供了一種企業(yè)應(yīng)用(包括綜合的和專用的)進程可視化的方式,這大大提升了研發(fā)速度從而減少了所需花費的時間,可以更快地把應(yīng)用推向市場。
加強應(yīng)用程序的可靠性:因為在開發(fā)階段就能夠方便地看到應(yīng)用程序的可視化效果,工程師將能夠快速發(fā)現(xiàn)問題,甚至是預(yù)見問題,這樣他們在把產(chǎn)品推向市場之前可以創(chuàng)建出更可靠的應(yīng)用程序。可視化功能還有助于確定最合適的算法和應(yīng)用程序指標,以確保得到的結(jié)果準確一致。
故障排查和優(yōu)化:Driven的可視化功能可以從用戶級別檢查出應(yīng)用程序的問題——包括被操控的數(shù)據(jù)集有哪些,有哪些工作負載,以及哪些應(yīng)用程序正在運行等等。因此,確定應(yīng)用程序故障點的進程得到了非常大的加速,操作人員在短短幾分鐘內(nèi)就能識別出緩慢的時期和優(yōu)化峰值,而不是像過去那樣得花上幾天或幾周的時間。Driven 1.0企業(yè)版(預(yù)計于第二季度發(fā)布,按年收費)包含了通知功能,可以告訴開發(fā)人員哪些應(yīng)用程序出故障了,故障出現(xiàn)什么地方,以及誰在使用這些應(yīng)用程序。
當(dāng)Driven與Cascading提供的框架配合使用時,通過創(chuàng)建加強業(yè)務(wù)目標的應(yīng)用,Driven的管理功能能夠幫助企業(yè)從大數(shù)據(jù)的使用中獲得最大的價值。
Wensel指出,這種行動超越了單純的見解:“你并不只是向數(shù)據(jù)提出一個問題,實際上你是在創(chuàng)建產(chǎn)品、模型或是由數(shù)據(jù)衍生出來的一些東西,并且你使用它們來促進你的業(yè)務(wù)的發(fā)展”。
利用好Hadoop
Driven目前只兼容使用Cascading創(chuàng)建的應(yīng)用程序,后續(xù)的版本將支持Pig和Hive。這其中的一個原因是Cascading的流行度較高,在全球有約6,000項產(chǎn)品部署,其中很多不同行業(yè)的知名公司比如Visa、CBS和百思買等等都使用了Cascading,另外每月在開源社區(qū)還有超過13萬的下載,這主要是由于其對MapReduce和Hadoop的支持(計劃于今年晚些時候?qū)⒅С諵uartz和Sparc)。
此外,Cascading包括了ANSI SQL JVC驅(qū)動器,用戶能夠使用兼容Java與SQL的語言在Hadoop中創(chuàng)建應(yīng)用程序,另外也可以使用任何第三方工具(如商業(yè)智能和分析平臺)。通過整合Driven,開發(fā)人員可以用他們最熟悉的語言設(shè)計應(yīng)用程序,并讓每個編程語句可視化。這樣的組合使他們能夠利用最流行的框架來訪問大數(shù)據(jù)(Hadoop),并查看與業(yè)務(wù)關(guān)注點直接相關(guān)的應(yīng)用程序細節(jié)的可視化效果:Hadoop集群上的負荷有多大,哪些數(shù)據(jù)正在被訪問,以及多少數(shù)據(jù)消耗正在發(fā)生。
最重要的是,Driven提供了一定程度的透明度,這增加了它的易用性。一旦用戶初始連接了Driven所包括的插件,所有的遙測數(shù)據(jù)(如元數(shù)據(jù)和每個特定應(yīng)用程序的功能或用途的描述)將在應(yīng)用程序性能管理平臺上可以被訪問,然后用戶可以對其進行可視化操作。Concurrent的首席執(zhí)行官Gary Nakamura指出:
“Cascading的這個計劃的目的是簡化在類似Hadoop的結(jié)構(gòu)上創(chuàng)建數(shù)據(jù)應(yīng)用程序的過程??蚣芩龅氖虑槭前褟?fù)雜性抽象化,所以你可以按業(yè)務(wù)邏輯的單位進行思考;也可以像數(shù)據(jù)集成那樣把內(nèi)容分離,把每個問題隔離開來作分析。然后Cascading將把它們聚合在一起并在Hadoop上運行?!?/p>
付諸行動
雖然大數(shù)據(jù)計劃的目標很大程度上取決于組織的行業(yè)和業(yè)務(wù)目標,不過最常見的大數(shù)據(jù)用例就是利用大數(shù)據(jù)技術(shù)以提高廣告收入。比如,關(guān)于情緒的數(shù)據(jù)源多如牛毛,但要對這些數(shù)據(jù)進行分析,需要使用特別的算法和涉及特定運行程序的分析要求。
Concurrent與Twitter開始合作的一個原因是后者需要為用戶顯示基于各種數(shù)據(jù)的相關(guān)的匹配的廣告內(nèi)容。其收益部門進入Cascading創(chuàng)建一個API,這減少了定義工作量的復(fù)雜性,也減少了使用領(lǐng)域?qū)S貌樵冋Z言整合用戶功能的測試數(shù)據(jù)源?,F(xiàn)在,收益部門的人員可以根據(jù)最相關(guān)的數(shù)據(jù)進行分析,為廣告商選擇出目標消費者。
Wensel指出了為大數(shù)據(jù)構(gòu)建應(yīng)用程序的必要性:
“大數(shù)據(jù)的關(guān)鍵是能夠運用不同的算法或一些無法使用SQL或其他的Hadoop語言所能表達的計算方式對數(shù)據(jù)進行處理。如果你是一個基因測序公司,而且你已經(jīng)有了一個更好的流匹配算法,你真正想要的是充分發(fā)揮Java的全部能力,讓Java工程師來解決問題?;蛘?,你實際上在創(chuàng)建一個商品推薦引擎,創(chuàng)造一個評分模型,然后把它部署到網(wǎng)站上從而引導(dǎo)人們購買更多的商品。沒有現(xiàn)成的工具可以很好的完成這些工作?!?/p>
智能的應(yīng)用程序管理
最重要的是,Driven的發(fā)布和Cascading在短時間內(nèi)取得的成功表明,只有大數(shù)據(jù)的應(yīng)用程序?qū)iT定位于引導(dǎo)商業(yè)的發(fā)展,大數(shù)據(jù)的能動性才能體現(xiàn)出來。正因為有了這樣的應(yīng)用,分析工作才顯得非常必要。而算法是許多數(shù)據(jù)驅(qū)動的進程中不可缺少的組成部分。有了合適的工具,比如Driven和Cascading,這些以業(yè)務(wù)為中心的應(yīng)用程序使企業(yè)能夠改進產(chǎn)品和服務(wù),甚至能在競爭對手前面更早地開展這些工作。越來越多的開源用戶已經(jīng)意識到了這個事實。而隨著更多的企業(yè)越早的開展這塊的工作,大數(shù)據(jù)將越早地成為主流應(yīng)用并蓬勃發(fā)展。Nakamura談到這樣一個事實:
“企業(yè)已經(jīng)在他們的Hadoop需求上投入了大量資金,所以加快云應(yīng)用在他們的Hadoop集群上的部署并獲得收益,這對于他們的業(yè)務(wù)來說意義重大。確保業(yè)務(wù)的可靠性也非常重要,如有需要,則可根據(jù)業(yè)務(wù)需求優(yōu)化應(yīng)用程序。“