《大數(shù)據(jù)時(shí)代》是國外大數(shù)據(jù)研究的先河之作,作者為奧地利商業(yè)分析大師維克托·邁爾·舍恩伯。
維克托·邁爾·舍恩伯格在書中前瞻性地指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維。
本文主要講解該書的Part1,詳細(xì)闡述了全量數(shù)據(jù)應(yīng)用、宏觀洞察與更看重相關(guān)關(guān)系的大數(shù)據(jù)思維。
《大數(shù)據(jù)時(shí)代》思維導(dǎo)圖
大數(shù)據(jù)與三個(gè)相互聯(lián)系相互作用的思維轉(zhuǎn)變有關(guān)
- 要分析與事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的樣本數(shù)據(jù)(本章重點(diǎn))
- 樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性
- 我們的思想發(fā)生了轉(zhuǎn)變,從探求難以捉摸的因果關(guān)系轉(zhuǎn)為關(guān)注事物的相關(guān)關(guān)系
01 更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)
技術(shù)條件的提高,大大拓展了我們收集數(shù)據(jù)、處理數(shù)據(jù)的能力,但我們依然沒有完全意識(shí)到自己擁有了能夠收集和處理大規(guī)模數(shù)據(jù)的能力。
小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息
- 人口普查——1086年英國調(diào)查當(dāng)時(shí)的人口土地和財(cái)產(chǎn)進(jìn)行全面的記載形成《末日審判書》,然耗資費(fèi)時(shí)
- 無奈之舉——采樣分析
- 采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大(樣本數(shù)量到達(dá)一定數(shù)量,從新樣本得到的信息將遞減,類比經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減)
- 每年采用多次小規(guī)模樣本人口普查
- 推廣:商業(yè)領(lǐng)域的質(zhì)檢
- 隨機(jī)采樣取得了巨大的成功,但它存在固有缺陷:
- 一旦采樣過程存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)
- 隨機(jī)采樣不適合考察子類別的情況
- 隨機(jī)采樣需要實(shí)現(xiàn)設(shè)計(jì)好問題的結(jié)果,調(diào)查缺乏延展性,數(shù)據(jù)不能重新分析以獲得計(jì)劃之外的目的
全數(shù)據(jù)模式:樣本 = 總體
- 全面性+即時(shí)性:技術(shù)的進(jìn)步使得我們可以收集全面完整的數(shù)據(jù),提高微觀層面分析的準(zhǔn)確性以及快速分析反應(yīng)的能力
- 大數(shù)據(jù)不是絕對意義上的“大”,而是相對于隨機(jī)分析法來說,采用所有數(shù)據(jù)的方法(全數(shù)據(jù))
- 社科應(yīng)用舉例:對小團(tuán)體或是整個(gè)社會(huì),多樣性都有其額外價(jià)值
02 更雜:不是精確性,而是混雜性
樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性
允許不精準(zhǔn)
- 數(shù)據(jù)量的大幅增加及數(shù)據(jù)采集頻率的增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)會(huì)混入數(shù)據(jù)庫
- 各種各樣的混亂
- 格式的不一致性-清洗數(shù)據(jù)
- 大數(shù)據(jù)通常用概率說話,而不是一副確鑿無疑的面孔
大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效
大數(shù)據(jù)的絕對數(shù)量優(yōu)勢壓倒了其帶來的紛雜錯(cuò)誤
紛雜的數(shù)據(jù)越多越好
- 全面的數(shù)據(jù)庫使我們不需要擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對整套分析的不利影響
- 我們需要做的是接受這些紛雜的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性(關(guān)注焦點(diǎn)的變化)
- 大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性
- 錯(cuò)誤性不是數(shù)據(jù)固有的,而是測量、記錄和交流數(shù)據(jù)的工具的缺陷
- 錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是亟待解決并可能長期存在的現(xiàn)實(shí)問題
新的數(shù)據(jù)庫設(shè)計(jì)的誕生
- 非關(guān)系型數(shù)據(jù)庫的出現(xiàn)——不預(yù)設(shè)記錄結(jié)構(gòu),允許繁雜數(shù)據(jù)的記錄
- 更多的處理和存儲(chǔ)資源——大大降低的存儲(chǔ)和處理成本
- 大的數(shù)據(jù)庫的分布式存儲(chǔ)對數(shù)據(jù)庫提出更多的要求
- Hadoop:與谷歌的MapReduce系統(tǒng)相對應(yīng)的開源式分布系統(tǒng)的基礎(chǔ)構(gòu)架
- 實(shí)現(xiàn)超大量數(shù)據(jù)的處理
- 內(nèi)部建立數(shù)據(jù)副本(應(yīng)對硬件可能的癱瘓)
- 假定數(shù)據(jù)之大導(dǎo)致數(shù)據(jù)在處理之前不可能整齊排列
- 假定數(shù)據(jù)量巨大使其完全無法移動(dòng),需要在本地進(jìn)行數(shù)據(jù)分析
- 適用于不要求極端精確的任務(wù),例如顧客分群營銷等
- 只有5%的數(shù)據(jù)是結(jié)構(gòu)化的,能夠適用于傳統(tǒng)數(shù)據(jù)庫,接受不確定性,擁抱剩下95%的非結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)頁和照片視頻資源等)
- 大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接觸事實(shí)的真相(小數(shù)據(jù)-可能出現(xiàn)管中窺豹的情況)
03 更好:不是因果關(guān)系,而是相關(guān)關(guān)系
知道是什么就夠了,不需要知道為什么
林登與亞馬遜推薦系統(tǒng)
- 個(gè)性化推薦系統(tǒng)在亞馬遜的使用
- 知道是什么可以更直接的作用,而為什么需要復(fù)雜的推導(dǎo)運(yùn)算
關(guān)聯(lián)物,預(yù)測的關(guān)鍵
- 相關(guān)關(guān)系的核心:量化兩個(gè)數(shù)據(jù)值之間的數(shù)量關(guān)系
- 相關(guān)關(guān)系通過識(shí)別有用的關(guān)聯(lián)來幫助我們分析一個(gè)現(xiàn)象,而不是揭示其內(nèi)部的運(yùn)作機(jī)制
- 相關(guān)關(guān)系沒有絕對,只有可能性,但強(qiáng)相關(guān)關(guān)系鏈接成功的概率還是很高的
- 利用某個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測未來
- 如果尋找關(guān)聯(lián)物
- 機(jī)器計(jì)算能力,代替了人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似數(shù)據(jù)進(jìn)行逐一分析
- 用數(shù)據(jù)驅(qū)動(dòng)的關(guān)于大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的易出錯(cuò)的方法
- 大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、快速,且不容易受偏見的影響
- 大數(shù)據(jù)的核心是建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測
- 社會(huì)環(huán)境下尋找關(guān)聯(lián)物
- 通過找出新種類數(shù)據(jù)間的相互聯(lián)系來解決日常需要 例如用于監(jiān)測橋梁、機(jī)器等的傳感器數(shù)據(jù)用于故障預(yù)測
“是什么”,而不是“為什么”
- 小數(shù)據(jù)時(shí)代獲取相關(guān)關(guān)系和因果關(guān)系都耗費(fèi)巨大(建立假設(shè) >>> 進(jìn)行實(shí)驗(yàn) ,存在受偏見影響的可能,且數(shù)據(jù)收集困難),當(dāng)前這些困難迎刃而解
- 相關(guān)關(guān)系:線性關(guān)系到非線性關(guān)系的發(fā)展
- 快速思維模式與慢性思維模式
- 快速思維模式使人們偏向于用因果聯(lián)系看待周圍的一切,即使這種關(guān)系并不存在
- 直覺得來的因果關(guān)系很多時(shí)候并沒有加深我們對這個(gè)世界的理解,只是給我們一種自己已經(jīng)理解的錯(cuò)覺。大數(shù)據(jù)的相關(guān)關(guān)系將經(jīng)常證明直覺的因果聯(lián)系是錯(cuò)誤的
- 因果關(guān)系的證明要求單一變量實(shí)驗(yàn),難以在現(xiàn)實(shí)中實(shí)現(xiàn)
- 相關(guān)關(guān)系很有用,它為我們提供新的視角,而且提供視角清洗。而一旦我們把因果關(guān)系考慮進(jìn)來,這些視角就可能被蒙蔽