如果從大四跟著某老師做關于網(wǎng)絡學堂數(shù)據(jù)挖掘的SRT開始算起,與大數(shù)據(jù)的緣分竟已有7年之久,雖然一直都只是淺嘗輒止?!洞髷?shù)據(jù)時代》是大數(shù)據(jù)的先河之作,對于幫助讀者厘清大數(shù)據(jù)的基本概念、構建大數(shù)據(jù)知識框架有著十分重要的作用。這篇讀書筆記主要討論《大數(shù)據(jù)時代》一書的前一至三章,即大數(shù)據(jù)帶來的三大轉(zhuǎn)變。
更多,不是隨機樣本,而是全體數(shù)據(jù)。大數(shù)據(jù)是采用所有數(shù)據(jù)的方法,所有數(shù)據(jù)既可以是相撲比賽中運動員過去所有的比賽資料,也可以是龐大的以PB計量的數(shù)據(jù)庫。大數(shù)據(jù)的“大”是因為“全”,雖然“全”了不一定數(shù)據(jù)量巨大,就如相撲比賽中運動員的比賽資料,其數(shù)據(jù)量可能不超過一張高清晰度的照片。當然,一般來說,在現(xiàn)階段這個數(shù)據(jù)大爆炸的時代,數(shù)據(jù)的“全”往往也意味著數(shù)據(jù)的大。
對所有數(shù)據(jù)的采用,有助于克服隨機采樣的缺陷,并得以對數(shù)據(jù)進行深度探討。一直以來,隨機采樣是小數(shù)據(jù)時代的利器,可以憑借最少的數(shù)據(jù)獲得最多的信息,但是采樣難以絕對隨機、不適合考察子類別、調(diào)查結果缺乏延展性等限制,讓數(shù)據(jù)無法更好“發(fā)聲”?,F(xiàn)階段,我們擁有了足夠的的數(shù)據(jù)處理和存儲能力,也擁有了最先進的分析技術,我們可以讓所有數(shù)據(jù)自由起舞,無需戴著鐐銬,盡情展示它們最迷人的、我們從未想過見過的舞姿。
更雜,不是精確性,而是混雜性。“小而精”的時代已經(jīng)過去,大數(shù)據(jù)讓我們擁抱“大而雜”。對于追求完美主義的人來說,放棄精確性是一件讓人很痛苦的事情,但是,我們必須看到,通過犧牲一定程度上的精確性,換來的是更廣泛、更高頻率的數(shù)據(jù)。大量、格式不一致的數(shù)據(jù)混雜在一起,與簡單的算法也能配合默契,大數(shù)據(jù)彌補了數(shù)據(jù)不夠精確的缺憾,讓數(shù)據(jù)的混雜性成為一種標準途徑。
于是,在只有5%的數(shù)字數(shù)據(jù)是結構化的、能適用于傳統(tǒng)數(shù)據(jù)庫的背景下,曾經(jīng)苦苦追求數(shù)據(jù)結構化的數(shù)據(jù)庫設計,也開始被不精確滲入,以犧牲一部分精確性為代價,換來了數(shù)據(jù)的大而全,換取了事物的全貌。需要注意的是,精確性的犧牲并不意味著數(shù)據(jù)可以是錯誤的,雖然在一定程度上這種錯誤的影響也可以被抵消,但是,我們必須牢固樹立一個意識,那就是,不論是在大數(shù)據(jù)時代、還是小數(shù)據(jù)時代,錯誤都需要盡可能避免。
更好,不是因果關系,而是相關關系。上周末可能是最后一次的國家司法考試,當年被各種虐的因果關系,在大數(shù)據(jù)面前,似乎也不那么重要了,心里產(chǎn)生一種“因果關系你也有今天”的愉悅感。其實,因果關系是一種特殊的相關關系,只不過這種相關關系太有魅力,吸引著無數(shù)人上下求索。
相關關系分析重點關注“是什么,而不是為什么”,打敗亞馬遜書評團隊的數(shù)據(jù)推薦系統(tǒng),并不懂為什么這個人要買這本書,但它知道這個人要買,然后做出相應的推薦,這就足夠了,不是么。關聯(lián)物是預測的關鍵,通過找到一個現(xiàn)象良好的關聯(lián)物,甚至可以幫助我們捕捉現(xiàn)在、預測未來,提示沃爾瑪在颶風季節(jié)把蛋撻和颶風用品放在一起的成功實踐,就是一個很好的例證。大數(shù)據(jù)的核心,就是建立在相關關系分析法基礎上的預測,相關關系分析法更準確、更快,且不易受偏見影響,能夠克服快速思維中對因果關系武斷認定的缺陷,為我們提供新的、更加清晰的視角。
知行合一,知為先。大數(shù)據(jù)帶來的大轉(zhuǎn)變,最先改變的就應該是思維。這三章內(nèi)容,其實是為后文奠定基礎,也為大數(shù)據(jù)描繪了一個基本框架。更多,更雜,更好,才能擁抱大數(shù)據(jù),才能讓數(shù)據(jù)更好發(fā)聲,讓生活更多改變。