
22歲的某一天,我坐在學校圖書館外的空地上,準備打個電話,看看有沒去研究中心實習的機會。室外的氣溫不冷也不熱,灰蒙蒙的云朵覆蓋了天際,膝蓋上躺著一本書,書的主題是數(shù)據(jù)挖掘。
對的,數(shù)據(jù)挖掘,當時還沒有“大數(shù)據(jù)”這么高大上的名詞,干這行的大體就是數(shù)據(jù)挖掘。流行的案例是沃爾瑪把銷售數(shù)據(jù)做了統(tǒng)計后發(fā)現(xiàn),超市的啤酒和炸雞——哦,不,是啤酒和尿布——放在一起,銷量異常地好。至于為什么,超市專家也不知道。通過事后諸葛亮的分析,結論大概是年輕的爸爸們被老婆交代出門買尿布時都會異常地煩躁,然后順便拿起啤酒犒勞自己。這就是非線性的統(tǒng)計學的魅力,未來肯定大有可為。
這門技術也是我報考的研究中心的專業(yè)方向之一,還可以跟人工智能、模糊數(shù)學之類聽起來很有趣的領域結合在一起。所以特地借了這方面的書來看看,沒想到被作者澆了一頭冷水。這本書的大意是,這門技術好處多多,數(shù)據(jù)可以橫著挖豎著挖,上天入地無所不能,只是有個前提,你得先建立起數(shù)據(jù)倉庫,而建立數(shù)據(jù)倉庫的前提是你得有海量的數(shù)據(jù),冷冰冰的現(xiàn)實是國內企業(yè)基本沒有海量數(shù)據(jù),除了銀行和電信運營商。換句話說,工作不太好找。
當時我沒想到,多年以后,自己偏偏就進入了電信運營商。那個作者也不知道,在他寫書的同時,淘寶正準備快速崛起,互聯(lián)網(wǎng)將帶來“羊毛出在狗身上,讓豬來買單”的千億產(chǎn)值數(shù)據(jù)市場。而他看好的銀行和電信運營商,在數(shù)據(jù)應用方面,也許還真比不上互聯(lián)網(wǎng)企業(yè)的境況。半年前,我曾興致勃勃地參加技術部門的會議,研討大數(shù)據(jù)分析項目。沒探討幾分鐘,話題就從“要怎么分析數(shù)據(jù)”轉到“有沒辦法拿到準確的數(shù)據(jù)”上了,而且結論是——沒辦法。
沒錯,運營商是積累了大量用戶數(shù)據(jù),規(guī)模大、維度多,算是個數(shù)據(jù)的富礦。但是有個致命的干擾因素,那就是KPI指標考核。為了這神秘的考核指標,各級單位會做出許多奇葩的事情,比如給豬肉注水、在荒山上刷綠油漆、各省GDP總合超過全國GDP……做這種數(shù)據(jù)的分析,純粹是個臟活累活。個中心酸,只有統(tǒng)計局的朋友才能理解。
對于同一個數(shù)據(jù),要套用哪種口徑,學問也很大。有時你想統(tǒng)計的要素A偏偏不單獨體現(xiàn)在數(shù)據(jù)中,而是和要素B、要素C混雜在某個口徑的維度里?;蛘咭谹成分很復雜,有不少以次充好、以假亂真的東西裝作要素A,就和歷史書里的寫的一樣,19世紀的英國商船,運著中國茶葉,為了多賺錢還往里面塞了不少柳樹葉、鋸末、花瓣和羊糞,你叫大家還怎么愉快地玩耍?
而且,數(shù)據(jù)分析也不完全等同于大數(shù)據(jù)。只是這個名詞被提出以后,短短一兩年間,就經(jīng)歷了從脫俗到通俗,從通俗到庸俗的過程,直到所有和數(shù)據(jù)有關的東西,都被掛上大數(shù)據(jù)的羊頭。真正的大數(shù)據(jù),按照《大數(shù)據(jù)時代》的定義,大概就是人類科技文明進步了,電腦越來越快了,以前這么多數(shù)據(jù)需要搞抽樣統(tǒng)計的,現(xiàn)在統(tǒng)統(tǒng)不需要,全部硬算!這種簡單粗暴的風格倒是挺符合電信運營商的老子天下第一的思維,所以后來我附庸風雅買了本《大數(shù)據(jù)營銷》,那作者也在津津樂道英國電信的案例,通過分析海量通信數(shù)據(jù),很厲害地拓展了N多潛在客戶,而且還給出了運算的思路。結合長期和注水豬肉打交道的經(jīng)驗,我只能呵呵冷笑幾聲了。
不過,這不是運營商一家的問題。有個大數(shù)據(jù)的博客,博主在阿里巴巴的從事數(shù)據(jù)分析工作,而且也在美國亞馬遜的實習過。在這兩家成熟的公司,數(shù)據(jù)清洗依然占據(jù)著70%的工作量,這還僅僅是多源的數(shù)據(jù)轉化、填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù)這些簡單工作,碰到人為因素或天生缺失部分維度的數(shù)據(jù),恐怕要大吐一口老血了。
而且,很多數(shù)據(jù)的分析是相當依賴行業(yè)經(jīng)驗的。今年上級單位發(fā)了一個號碼清單給我們,說這些客戶都是忠誠客戶,長期穩(wěn)定不離網(wǎng),請大家分析原因,分享經(jīng)驗,繼續(xù)做好存量保有工作。我看了一會清單,笑了。不用什么算法分析,肉眼都能看出來,這些號碼都是隸屬于幾個本地GPS公司的,不是普通人用的手機卡,而是用于車載GPS設備通信的,當然離網(wǎng)率低忠誠度高了,只要卡不壞掉基本不會換的。這種情況,如果由毫無市場運作經(jīng)驗的數(shù)學家來分析,肯定要大費周章,牛頭不對馬嘴。
所以,大數(shù)據(jù)不是一把神奇的萬能鑰匙。奇怪的是,你在各種場合下又經(jīng)常能見到它,這就是所謂流行吧。上周參加了咨詢公司辦的講座,關于傳統(tǒng)企業(yè)如何轉型做O2O。本來主題是移動互聯(lián)網(wǎng),說著說著又落到數(shù)據(jù)分析去了,畢竟客戶還需要深度運營、定制化服務,這些都屬于大數(shù)據(jù)的范疇。同理,那些時髦的名詞,互聯(lián)網(wǎng)思維、粉絲營銷、物聯(lián)網(wǎng)、智慧城市,背后也有大數(shù)據(jù)的一席之地。也許,現(xiàn)代商業(yè)的前沿領域,都是互相跨界的,創(chuàng)新的業(yè)務模式才會在這種氛圍中逐漸涌現(xiàn)出來。然后,也有些聽起來比較靠譜的點子慢慢成為現(xiàn)實。
美國有家創(chuàng)業(yè)公司叫Curebit,幫助線下的連鎖商超做口碑營銷,具體方法是請消費者在結賬的同時,給自己的朋友發(fā)“紅包”。紅包其實是優(yōu)惠券,由商家免費提供,朋友收到后購物時可以享受折扣優(yōu)惠。一方面,有個口碑營銷的效果,精準投放,節(jié)省大量的廣告投入;另一方面,消費者的購物信息與Curebit共享后,該推薦什么、打多少折扣,這些就是數(shù)據(jù)分析的強項了,也是這類型公司的核心競爭力。同理,國內在BAT之外,也有做線上購物推薦的第三方公司。專注一個行業(yè)積累數(shù)據(jù)和經(jīng)驗,不斷修正模型,建立自己的保護性技術壁壘,這種前景,想想也還蠻令人激動的。
只是,22歲的我沒能預知到這些。
電話撥通后,傳來一個慈祥的聲音,問我考了多少分后,說應該可以來實習了,那么我想選擇哪個研究方向呢?我看了看那本數(shù)據(jù)挖掘的書,想了想畢業(yè)后找工作的前景,毫不猶豫拋棄了即將爛大街的大數(shù)據(jù),選擇了另一個孤高特立的方向,叫Web服務。
結果,后來它也有了個爛大街的新名字——云計算。