從0到1構(gòu)建數(shù)據(jù)生態(tài)系列之一:蠻荒時代

《從0到1構(gòu)建數(shù)據(jù)生態(tài)系列》,這將是一個完整的系列,這是第一篇《蠻荒時代》。

題圖--蠻荒時代

文·blogchong

1 緣起

前面剛好爬取了多個招聘網(wǎng)站的大數(shù)據(jù)JD信息,做了一份《2016大數(shù)據(jù)領(lǐng)域職位需求畫像報告》,我們知道,當前大數(shù)據(jù)的需求基本屬于遍地開花。

無論是帝都還是魔都,還是廣州深圳,亦或者是全國其他各地,都在搞大數(shù)據(jù);不管是不到百人的微小公司,還是幾百人上千人的中型公司,亦或者是上萬的大型公司,都在需求數(shù)據(jù)崗位。

大公司暫且不論,他們一切都走在前頭。那么,對于中小型企業(yè)來說,開始嘗試以數(shù)據(jù)的思維去思考問題,開始涉足大數(shù)據(jù)領(lǐng)域,這就是一個從0到1的過程了。

有(bu)幸(xing),這近半年來,我親自見證以及親身體會到了這個過程(好吧,這就是為何我半年沒有文字更新的原因了),或者至今仍然在完善1這個過程中。

期間,有痛苦有坑、有喜悅有成功、有沉靜有反思,這是一件快樂又痛苦,同時最終又注定很有成就感的事。

所以,我打算寫一個系列,名字就暫定為《從0到1構(gòu)建大數(shù)據(jù)生態(tài)系列》吧,當然,目標群體僅僅是中小型企業(yè)中,從0到1開始構(gòu)建數(shù)據(jù)生態(tài)的同行們。

希望,我整理的這些東西,或者說一個技術(shù)小故事能夠幫助到各位同行朋友們,能夠給你們在某些階段一些有用的建議或者參考。

至于大嬸們,有興趣的就略瞅兩眼,沒興趣的就高抬貴腳,從旁繞過。當然,限于個人的知識累積以及能力,必然會存在一些誤差或者觀點錯誤,歡迎指正以及交流。

我想盡量以輕松的語句,去呈現(xiàn)這整個事件,去描述我自己的觀點(其中會夾著很多我自己對行業(yè),對問題的看法觀點),去講述我其中遇到的一些故事。

這樣也可能會有趣點,降低純技術(shù)的枯燥感,當然,也更符合我自己的文字筆法,希望你們能喜歡!

2 蠻荒時代

企業(yè)為什么想起要做大數(shù)據(jù)?

一個中小型企業(yè),為什么突然就想起要開始做數(shù)據(jù),開始組建大數(shù)據(jù)團隊呢?從目前現(xiàn)狀來看,這是一個很正常的現(xiàn)象。大家都做嘛!

但有沒有想過,為什么大家都做?

大數(shù)據(jù)這個鬼東西怎么在四五年前一下子就火的不行了,然后在這兩年更是成了香饃饃,大批大批的傳統(tǒng)IT從業(yè)人員,紛紛轉(zhuǎn)行搞大數(shù)據(jù)。這是真的,這近一年來,我面試的很多人里,很多都是從傳統(tǒng)行業(yè)轉(zhuǎn)型到大數(shù)據(jù)的,甚至有六七年開發(fā)經(jīng)驗,依然毅然決然轉(zhuǎn)型的。這定然是市場驅(qū)動使然,有利益就有市場,有市場就有需求。

而資本市場也偏好靠數(shù)據(jù)說話的企業(yè),甚至出現(xiàn)了很多以數(shù)據(jù)業(yè)務(wù)為核心的企業(yè)公司,甚至專門做數(shù)據(jù)服務(wù)的行業(yè),一樣融到了大把大把的錢。

個人認為企業(yè)開始關(guān)注,甚至是涉身大數(shù)據(jù),資本偏好只是表象,在其內(nèi)層必然還有更深層的原因。

在大數(shù)據(jù)真正興起的08/09年之前,整個互聯(lián)網(wǎng)都是一個蓬勃發(fā)展的時代,互聯(lián)網(wǎng)自身普及以及覆蓋度的提升,互聯(lián)網(wǎng)基礎(chǔ)實施、電腦智能設(shè)備等進一步普及,為各個互聯(lián)網(wǎng)企業(yè)帶來了巨大的紅利。

15年的時候,我跟一個創(chuàng)業(yè)公司的CEO聊天時,他說過一句話,我感覺很難概況這個情況:“當年,我那個小論壇要是能堅持做下去,現(xiàn)在估計早就發(fā)達了?!?/p>

是的,沒錯,當年就是隨便搞個網(wǎng)站,只要好好搞,基本都能吸引到一大片的人,有人就能產(chǎn)生利益。

換做更專業(yè)點的術(shù)語就是:流量紅利!

那么,到了現(xiàn)在,流量紅利早已消息不見了。面向各種人群、滿足各種需求的網(wǎng)站、軟件、APP等等,鋪天蓋地而來,讓用戶應(yīng)接不暇。

你需要的、你不需要的、你能想到的、你想不到的,五花八門的企業(yè)都會為你提供,你怎么選?!

所以,流量紅利消失了!那該怎么搞?

效率和效果這個事情就不得不重視起來了,讓用戶更好的使用你的東西,讓你的東西更精準化、讓你的員工策略方案更具有效率,那么,你就更能在千千萬萬的類似企業(yè)中生存下去。

那么,你的企業(yè)必然需要慢慢的遠離“我覺得吧”“我感覺”“可能”“或者”“按道理應(yīng)該”這種詞匯,一切回歸到數(shù)據(jù)中去,讓你的決策跟著數(shù)據(jù)走。

快速進行方案假設(shè)、快速進行數(shù)據(jù)反饋、快速進行策略修正、快速進行決策,讓自己跑的路線更準、讓自己跑的更快。

讓你的用戶體驗更好、用的更爽,讓他感覺更親切自然,而不是你強加于其上的意志,讓他被迫看你安排的東西、用既定功能。

所以,企業(yè)慢慢的開始講究預測用戶的心理,開始談必言其“個性化”。這聽起來很玄乎,但確實是實實在在的用戶本質(zhì)需求。因為,用戶的口味也被我們各種同質(zhì)化嚴重應(yīng)用、軟件,給養(yǎng)刁了。

插圖--小得意

于是乎,大數(shù)據(jù)大行其道;于是乎,轉(zhuǎn)行者如過江之鯽。最重要的是,哈哈,它給了我一口飯吃。

你看到的是一個飲毛茹血的現(xiàn)狀!

在引入大數(shù)據(jù)這個概念之前,試想一下,企業(yè)的數(shù)據(jù)層面會是處于一個什么樣的狀況?

這里我想引用原始社會的一個標志詞--“飲毛茹血”。

中小型企業(yè)一般使用傳統(tǒng)的數(shù)據(jù)庫來存儲業(yè)務(wù)數(shù)據(jù),并且很大一部分是MySQL(別問我為什么,因為它免費啊),我想,這點毋庸置疑。而一般的中小型企業(yè),特別是小型創(chuàng)業(yè)公司,基本是不配置專門的數(shù)據(jù)庫工程師的,都是業(yè)務(wù)開發(fā)人員兼任。

于是乎,你會看到各種各樣奇葩設(shè)計的數(shù)據(jù)庫表、各種各樣錯綜復雜數(shù)據(jù)表關(guān)系、各種各樣看起來不合理其實用起來也不合理的數(shù)據(jù)存儲方式。

你以為你來做大數(shù)據(jù)的,這些業(yè)務(wù)數(shù)據(jù)就跟你沒關(guān)系嗎?!關(guān)系可大發(fā)了,你第一個要處理的數(shù)據(jù)就是業(yè)務(wù)數(shù)據(jù)。

你將會忙于天天跟業(yè)務(wù)開發(fā)人員溝通交流,焦頭爛額地去梳理清楚這些業(yè)務(wù)關(guān)系,甚至是轉(zhuǎn)換成你要的數(shù)據(jù)形態(tài)。

然后你會不自覺地吐槽:我湊,尼瑪關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)也要做清洗呀!

其實這也是沒有辦法的事,歷史原因使然,人力成本使然,這是我們處于0的階段必然需要面對的東西。

在大數(shù)據(jù)這個體量中,業(yè)務(wù)數(shù)據(jù)只是占據(jù)了很小的一部分。是的,更多的是用戶的行為數(shù)據(jù),業(yè)務(wù)的訪問數(shù)據(jù)。

你可能會很高興的說,對了,不是有業(yè)務(wù)服務(wù)的log嗎?我們可以從log中清洗出很多有用的Visitor數(shù)據(jù)來,一個MapReduce就搞定啦,分分鐘的事。

“啊,這個呀,當時沒有想到要記錄下這些東西喲,沒有打這些LOG?!?/p>

是不是想大噴一口血?情況好點的公司,雖然處理不了數(shù)據(jù),但是依然是有意識的在很多業(yè)務(wù)邏輯中,埋下業(yè)務(wù)的服務(wù)LOG,落成LOG文件,待有處理能力時再做處理。

再好點的,已經(jīng)有點數(shù)據(jù)意識了,開始在業(yè)務(wù)中主動埋下一些數(shù)據(jù)收集點,開始收集用戶的行為軌跡數(shù)據(jù)。

但依然是把數(shù)據(jù)存儲到了MySQL中,很多點位邏輯是錯亂的,點位的收集目標是不清晰的(也沒辦法清晰,因為我都不知道要怎么用,都是提前埋下,將來可能要用而已)。

這已經(jīng)很不錯了,雖然點位是不準確的,雖然我不知道一天50萬、100萬的數(shù)據(jù)量,你的MySQL能撐幾天,但好歹是有了吧,已經(jīng)很不錯了。

再好點的就是,已經(jīng)有大數(shù)據(jù)的一到兩個儲備人員了,已經(jīng)能夠近乎的將數(shù)據(jù)以近乎正確的姿勢存儲到hive或者HBase中,哪怕是HDFS里頭。

這已經(jīng)是偉大的進步了,至少恭喜你,你已經(jīng)踏過了0的階段,步入了0.1時代!

插圖--一臉懵逼

以上基本上就是你進入一個即將要開始做大數(shù)據(jù)的公司,所看到的東西。是不是一臉懵逼、大寫的尷尬?恨不得把這些亂七八糟的,一下子磁盤格式化掉。

這個時候,你需要做點什么?

這里,我所說的做什么,不是指開始動手干。而是之前的準備工作,算是前期工作吧。

進入之后,第一時間當然掌握如上那些信息了。接著,你需要好好跟你的老板談一談人生,啊不,是談?wù)勊降紫敫墒裁矗?/p>

他想達到一個什么樣的數(shù)據(jù)業(yè)務(wù)目標,想花多大的成本,下了多大決心去做這件事,僅僅是跟跟風、炒炒概念,還是真的想解決問題。

這很重要,這關(guān)乎到你后續(xù)將投入的人力,不同階段的規(guī)劃,怎么去做這件事,做好這件事。

其實不單純這里,其他方面也是一樣的,遇到一個問題,一定是需要了解夠足夠的信息,徹底的了解需求才去做的,這不耽誤事,不然吃力不討好,妥妥的。

于此同時,你需要慢慢根據(jù)蛋碎菊緊的現(xiàn)狀以及BOSS的“偉大宏圖”,去規(guī)劃你的人力了。至于說人力怎么搭配,什么年份、什么水平,這就需要看“菊花”到底有多緊,“宏圖”到底有多大,時間到底還有多少去思考了。

好了,背起你的鋤頭,去挖別人家的墻角吧,或者,刷臉的時候到了,萬能的朋友圈,彰顯你的威力吧!

3 寫在最后

這一章節(jié),打算就寫這些了,以后保證每個篇幅不要太長,以免看的太累。我認為,一個章節(jié),只需要描述清楚一個事情就夠了。

在這里,我極力想給大家呈現(xiàn)的東西就是,從0構(gòu)建,這個0的現(xiàn)狀是什么,以及試圖去解釋需求的源頭,以及為何會產(chǎn)生這種現(xiàn)狀,以及最后給大家略微的講述一下處理這種事情的方法論。

當然,期間為了描述清楚現(xiàn)象,夾著很多我對行業(yè)、技術(shù)領(lǐng)域的看法、以及其他自己的觀點。一家之言,無論對錯,只是一個觀點而已,所以,請不要噴,也不要嘲諷,更歡迎一起討論,一起碰撞!

里頭也有自己處理事情的方式,思路,甚至是方法論,在我認為,這反倒是更重要的東西。

在這里可能會少涉及,在后面詳細進入主題的文章中,將會大量給大家呈現(xiàn)我處理事情的方式、方法論,在我認為,這是我在大數(shù)據(jù)領(lǐng)域里摸爬打滾四年的財富,我愿意把這些財富分享給大家。

打完收工。敬請期待下一章,名字我都想好了,《從0到1構(gòu)建數(shù)據(jù)生態(tài):拓荒》!我將給你講述一個如何連續(xù)加班到晚十二點甚至凌晨一兩點兩個月的勵志故事/(ㄒoㄒ)/~~

(全文完)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容