玩轉(zhuǎn)大數(shù)據(jù),你需要了解這8種項(xiàng)目類型!

【編者按】本文作者為大數(shù)據(jù)咨詢公司 Mammoth Data 的創(chuàng)始人 Andrew Oliver,主要介紹適宜應(yīng)用大數(shù)據(jù)的8大項(xiàng)目類型。文章系國內(nèi) ITOM 管理平臺(tái) OneAPM 編譯呈現(xiàn),以下為正文。

在過去的 12 個(gè)月里,筆者一直在大數(shù)據(jù)的戰(zhàn)壕里挖掘。好吧,其實(shí)大部分時(shí)間我只是坐在比我更聰明的人旁邊,看他們怎么在戰(zhàn)壕里挖掘數(shù)據(jù),再把所做的事情進(jìn)行簡化以上報(bào)給管理層。

很少有真正獨(dú)具一格的 IT 項(xiàng)目,那些聽起來比較特別的項(xiàng)目最終也只是大同小異。不過你們今天有眼福了,因?yàn)槲覜Q定出來冒個(gè)泡兒,跟大家分享一下過去 12 個(gè)月里接觸到的8大項(xiàng)目類型。

1、探索交易周期

那些做電子商務(wù)的公司想當(dāng)然地認(rèn)為,裝幾個(gè)工具就能掌握網(wǎng)頁訪客從銷售到付款的成交情況。但是很多公司處理的數(shù)據(jù)集遠(yuǎn)遠(yuǎn)不止網(wǎng)頁成交率,而且這些數(shù)據(jù)集主要來自經(jīng)銷商。

每個(gè)經(jīng)銷商提供格式各異的不同數(shù)據(jù)集。當(dāng)然,從根本上說,這是一個(gè)帶有BI/可視化前端的核心ETL/數(shù)據(jù)整合項(xiàng)目。但是,對(duì)許多公司而言,要真正了解交易的生命周期(從開始、進(jìn)展到結(jié)束)比想象中要困難。你需要整合大量的 CRM 數(shù)據(jù)、網(wǎng)站分析數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù),最后才能肯定地說:“是的,PPC(點(diǎn)擊付費(fèi)廣告)帶來了交易,但是40%的客戶連第一筆交易都未能成功走到付款,那么……”

2、挖掘潛在客戶

很多公司都想知道你在做什么,然后再根據(jù)你的活動(dòng)情況向你推銷產(chǎn)品。例如,你手機(jī)上可能裝了一個(gè)提供遙測數(shù)據(jù)的 app,這樣公司就會(huì)知道你在商場的哪個(gè)位置。憑借這些大數(shù)據(jù),他們就能預(yù)測你在任意時(shí)刻的購買需求。

3、衡量營銷效果

營銷人員做事講求效益,他們想知道具體要做哪些事情,以及這些事情對(duì)KPI有何影響。從本質(zhì)上說,這又是一個(gè) BI 項(xiàng)目,而且往往涉及到大量的變更數(shù)據(jù)捕獲(CDC)和 ETL 數(shù)據(jù)整合工作。他們測量的實(shí)際KPI變化很大,有時(shí)還涉及到 Kylin 或 Greenplum 等工具中的數(shù)據(jù)庫。至于其他情況,可能屬于下一個(gè)類別——社交媒體。

4、測量社交媒體熱度

通常,公眾會(huì)在公開或半公開的社交網(wǎng)絡(luò)上談?wù)撃悖ɑ蚰愕墓荆?。在這些地方你可以獲取很多有用的信息,比如大家怎么看待你的品牌,你的營銷活動(dòng)是否有成效。既然美國地震勘探局可以通過 Twitter 探測到地震和震級(jí),那么你也可以通過這樣的平臺(tái)了解剛推出的廣告活動(dòng)效果如何。隨著越來越多的專業(yè)社交平臺(tái)出現(xiàn),對(duì)于某些垂直行業(yè)而言,其數(shù)據(jù)采集范圍遠(yuǎn)遠(yuǎn)不止 Twitter 和 Facebook。

5、專攻日志文件

無論是為了入侵檢測還是應(yīng)對(duì)安全審計(jì),你都需要捕獲并收集日志文件并使其可檢索。在這一領(lǐng)域,Splunk 無疑大賺了一筆。當(dāng)然,在大數(shù)據(jù)中還有其他更靈活的選擇。

6、因?yàn)椴幌胭ITeradata!

現(xiàn)在已經(jīng)不是 Teradata 獨(dú)統(tǒng)天下的時(shí)代了,大數(shù)據(jù)正在從邊緣向核心發(fā)展,而且 Apache Kylin 的數(shù)據(jù)庫已對(duì)所有人開放。得益于 Impala、HAWQ 和 Greenplum,MPP 分布式系統(tǒng)的地位也更加重要。那些價(jià)格昂貴、功能單一而且還不能兼容其他數(shù)據(jù)分析的工具,其發(fā)展空間越來越小——更別說是那些只能依靠某單一供應(yīng)商的私有云。

7、經(jīng)久不衰的ETL

ETL (Extract-Transform-Load)可能依舊是如今最常見的Hadoop工作負(fù)載——而且我敢說,ETL 是適用于 Spark 的最常見的非流式工作負(fù)載。順便提一下,現(xiàn)在已經(jīng)有上百個(gè)創(chuàng)業(yè)公司冒出來說自己能夠處理這種任務(wù)了。

8、先捕獲傳感器數(shù)據(jù)再想辦法處理

不管是電網(wǎng)、制造業(yè)、水泵,還是老司機(jī)開的車,都在向我們傳遞信息。這些信息都需要捕獲。甚至有些人已經(jīng)弄清了該如何處理這些數(shù)據(jù)。但是,及時(shí)捕獲數(shù)據(jù)才是最重要的一步,因?yàn)楹芏嗳硕加X得從技術(shù)上來說捕獲數(shù)據(jù)并不那么容易。

此外,筆者還經(jīng)常督促大家在大數(shù)據(jù)項(xiàng)目初期就要考慮數(shù)據(jù)分析問題。為什么呢?因?yàn)轭A(yù)先設(shè)計(jì)并確定好數(shù)據(jù)流的大小,遠(yuǎn)比數(shù)據(jù)已經(jīng)準(zhǔn)備好時(shí)再重新考慮整體布局要容易得多。但是有時(shí)候還是得細(xì)細(xì)咀嚼,做最好的打算。

近一年來,筆者見過不少其他項(xiàng)目類型,但是大多數(shù)用例都屬于以上八種之一。不知各位老司機(jī)是否還有補(bǔ)充?

OneAPM 能為您提供端到端的 Java 應(yīng)用性能解決方案,我們支持所有常見的 Java 框架及應(yīng)用服務(wù)器,助您快速發(fā)現(xiàn)系統(tǒng)瓶頸,定位異常根本原因。分鐘級(jí)部署,即刻體驗(yàn),Java 監(jiān)控從來沒有如此簡單。想閱讀更多技術(shù)文章,請(qǐng)?jiān)L問 OneAPM 官方技術(shù)博客。

本文轉(zhuǎn)自 OneAPM 官方博客

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容