DT時(shí)代,物聯(lián)網(wǎng)的發(fā)展不斷推動(dòng)著市場推出新型的分析工具,尤其是開源數(shù)據(jù)分析工具。物聯(lián)網(wǎng)發(fā)展的同時(shí),帶來了眾多傳感器及其他設(shè)備,這些設(shè)備在源源不斷地生成數(shù)據(jù)流,因此,市場需要更多更全面的完善數(shù)據(jù)分析生態(tài)系統(tǒng)的新工具。今天就來跟隨大圣眾包威客平臺(tái)看看3款勇敢逆襲傳統(tǒng)數(shù)據(jù)分析工具的數(shù)據(jù)分析新星!

一、ApacheKafka
1.起源
最初由LinkedIn開發(fā)的ApacheKafka,在2011年年初開放了源代碼。而LinkedIn當(dāng)初開發(fā)Kafka的那些工程師,還成立了專注于Kafka的Confluent。
2.優(yōu)點(diǎn)
ApacheKafka具有統(tǒng)一、高吞吐量、低延遲等優(yōu)點(diǎn),它提供了處理實(shí)時(shí)數(shù)據(jù)的功能。而上文提到的Confluent及其他組織,還開發(fā)了自定義工具,以便Kafka與數(shù)據(jù)流結(jié)合使用更為方便快捷。作為一種經(jīng)過加固和測試的工具,ApacheKafka項(xiàng)目已憑借實(shí)時(shí)數(shù)據(jù)跟蹤功能,成為一顆數(shù)據(jù)分析新星。
3.影響
得益于強(qiáng)大的功能,使得ApacheKafka在大數(shù)據(jù)產(chǎn)業(yè)的地位越來越重要,現(xiàn)在,許多企業(yè)組織都要求員工擁有ApacheKafka方面的知識(shí)。在實(shí)際應(yīng)用中,一些知名的公司如思科、網(wǎng)飛、貝寶、優(yōu)步、Spotify等,都在使用它。
二、ApacheDrill
1.起源
Dremel是來自Google的一種用來分析大數(shù)據(jù)信息的方法,它能夠幫助Google實(shí)現(xiàn)海量數(shù)據(jù)集的分析處理,如抓取Web文檔的分析、跟蹤AndroidMarket上的應(yīng)用程序數(shù)據(jù)信息、分析垃圾郵件,等等。而主角ApacheDrill,正是基于Dremel而實(shí)現(xiàn)的開源項(xiàng)目。

2.優(yōu)點(diǎn)
ApacheDrill的核心模塊是Drillbit服務(wù)。Drillbit服務(wù)模塊包括遠(yuǎn)程訪問子模塊、SQL解析器、查詢優(yōu)化器、任務(wù)計(jì)劃執(zhí)行引擎、存儲(chǔ)插件接口(DFS、HBase、Hive等的接口)、分布式緩存模塊等幾部分。因此,讓ApacheDrill具有了適于實(shí)時(shí)的分析和快速的應(yīng)用開發(fā)、適于半結(jié)構(gòu)化/嵌套數(shù)據(jù)的分析、兼容現(xiàn)有的SQL環(huán)境和ApacheHive等特征。ApacheDrill之所以在流數(shù)據(jù)應(yīng)用程序中如此出名,是因?yàn)樗且环N分布式、無模式(schema-free)的SQL引擎。
另外,為什么說ApacheDrill敢于逆襲多個(gè)傳統(tǒng)而聞名的數(shù)據(jù)分析工具,如Hadoop和ApacheSpark?因?yàn)?,ApacheDrill是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行交互分析、開源的分布式系統(tǒng),它能夠運(yùn)行在上千個(gè)節(jié)點(diǎn)的服務(wù)器集群上,并且能夠在幾秒內(nèi)處理PB級或者萬億條的數(shù)據(jù)記錄??偟膩碚f,在面對大數(shù)據(jù)時(shí),ApacheDrill能夠幫助企業(yè)用戶快速、高效地進(jìn)行Hadoop數(shù)據(jù)查詢和企業(yè)級大數(shù)據(jù)分析。
3.影響
作為Apache的一個(gè)頂級項(xiàng)目,ApacheDrill與ApacheSpark一同應(yīng)用于許多流數(shù)據(jù)場景。就在今年1月份召開的紐約ApacheDrill大會(huì)上,MapR的系統(tǒng)工程師就展示了在用于涉及數(shù)據(jù)包捕獲、近實(shí)時(shí)查詢及搜索的一種使用場合下,ApacheDrill和ApacheSpark是如何協(xié)同的。ApacheDrill項(xiàng)目在大數(shù)據(jù)領(lǐng)域帶來了重大的影響,以至于MapR等公司甚至把它納入到其Hadoop的發(fā)行版中。
三、Grappa
1.起源
Grappa——起源于一群基于克雷(Cray)系統(tǒng)運(yùn)行大數(shù)據(jù)任務(wù)有豐富經(jīng)驗(yàn)的工程師的構(gòu)想。這群工程師希望有一款可與Cray系統(tǒng)現(xiàn)成商用硬件的實(shí)現(xiàn)分析功能一較高下的硬件,于是,Grappa開源項(xiàng)目華麗誕生了。

2.優(yōu)點(diǎn)
可以在大眾化集群上擴(kuò)展數(shù)據(jù)密集型應(yīng)用程序的Grappa,提供了一種新型的抽象機(jī)制,比經(jīng)典的分布式共享內(nèi)存(DSM)系統(tǒng)更勝一籌。Grappa還采用了BSD許可證,讓其在GitHub上可以免費(fèi)獲取。只要在應(yīng)用程序的README文件中,遵照通俗易懂的快速啟動(dòng)說明構(gòu)建Grappa應(yīng)用程序,就可以在集群上運(yùn)行,可以獲得Grappa的源代碼,這樣,你就可以親身感受這款開源項(xiàng)目的魅力了。
3.影響
進(jìn)入大數(shù)據(jù)時(shí)代,眾多企業(yè)組織正致力研究從數(shù)據(jù)流提取寶貴信息的新方法。在這些數(shù)據(jù)流里面,包含了許多在處理集群上生成的數(shù)據(jù),及處理商用硬件上生成的數(shù)據(jù)。這樣一來,成本合理的、以數(shù)據(jù)為中心的方法便受到了重視,這也是Grappa開始被廣泛使用的原因之一。
流數(shù)據(jù)分析工具,可以用來幫助新型藥物的發(fā)現(xiàn),甚至分析TB級的復(fù)雜的外太空無線電信號(hào)流等等,于人類,于社會(huì),都在貢獻(xiàn)著它獨(dú)特而又強(qiáng)大的功能。
原文地址:http://www.dashengzb.cn/articles/a-272.html
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書,可添加個(gè)人微信號(hào)(dashenghuaer))