引言
在發(fā)明印刷機(jī)之前,書籍已經(jīng)存在,但知識(shí)的積累很困難。主要的問題是成本高、抄寫錯(cuò)誤多、受眾少。出現(xiàn)印刷機(jī)之后,知識(shí)進(jìn)入快速積累期,同時(shí)伴隨著新的、更嚴(yán)峻的問題。印刷內(nèi)容良莠不齊,觀點(diǎn)五花八門。在長(zhǎng)期接受外界信息的過程中,越來越多的人出于個(gè)人喜好篩選信息。從根源上分析,其實(shí)是因?yàn)槿祟愄幚硇畔⒌哪芰υ鲩L(zhǎng)幅度遠(yuǎn)不如信息增長(zhǎng)的幅度。
作者用信號(hào)和噪聲進(jìn)一步區(qū)分信息。一切信息處理的目的都是保留信號(hào)、去除噪聲,但不可避免的主觀因素導(dǎo)致數(shù)據(jù)處理過程無法總是遂愿。幸運(yùn)的是,這些大數(shù)據(jù)終將推動(dòng)人類社會(huì)進(jìn)步。
人類的處理信息的核心機(jī)制是堅(jiān)持以自己的看法讓世界更加簡(jiǎn)單,避免信息超負(fù)荷。在充滿不確定的世界,人類隨時(shí)都需要預(yù)測(cè)未來并制訂相應(yīng)的策略,以維持正常的發(fā)展。預(yù)測(cè)之所以重要,是因?yàn)樗B接了主觀世界和客觀現(xiàn)實(shí),人類的目標(biāo)就是從海量的信息中篩選出真正的信號(hào),做出接近真相的預(yù)測(cè)。
預(yù)測(cè)失敗的災(zāi)難性后果
失敗的預(yù)測(cè)的共同點(diǎn)是預(yù)測(cè)者只關(guān)注符合預(yù)測(cè)者期望的信息,而不在乎真實(shí)性。如果僅是失敗了一次,或許可以歸結(jié)為運(yùn)氣等外部原因,但多次失敗或者犯下嚴(yán)重的錯(cuò)誤,則說明預(yù)測(cè)者的預(yù)測(cè)方法有問題,因?yàn)槭〉念A(yù)測(cè)和客觀世界無關(guān)。 但存在另一種情況,預(yù)測(cè)者成功預(yù)測(cè)未來,卻視而不見。原因很多,可能是僥幸心理,可能是盲目自大,認(rèn)為風(fēng)險(xiǎn)在可控范圍,或者不愿因小修小補(bǔ)而改變現(xiàn)狀,盡管問題酒出現(xiàn)在細(xì)節(jié)處。 可能會(huì)出錯(cuò)的事情和不可能出錯(cuò)的事情的區(qū)別在于,一旦不可能出錯(cuò)的事情出了錯(cuò),那么這個(gè)錯(cuò)誤往往無法挽回。
以2008年金融危機(jī)為例。首先,房地產(chǎn)泡沫破裂,房?jī)r(jià)下跌,接著嚴(yán)重影響普通民眾資產(chǎn)。盡管房地產(chǎn)市場(chǎng)只占金融體系中不大的部分,普通民眾的消費(fèi)型支出趨于保守,但金融大亨仍舊大力投資房地產(chǎn),導(dǎo)致相當(dāng)一部分公司和銀行高負(fù)債經(jīng)營。一般上,投資者會(huì)謹(jǐn)慎的避開此類公司,但3A評(píng)級(jí)機(jī)構(gòu)提供擔(dān)保,雖然事實(shí)證明評(píng)估漏洞百出,但結(jié)果是投資者選擇冒險(xiǎn)。雷曼兄弟成為第一個(gè)受害者,他的破產(chǎn)直接波及相關(guān)債務(wù)公司,最后沖擊整個(gè)金融市場(chǎng)。 金融危機(jī)發(fā)生后,人們沒能預(yù)測(cè)到長(zhǎng)久的經(jīng)濟(jì)衰退的可能性,政府、企業(yè)的后續(xù)手段加劇危機(jī)。為什么預(yù)測(cè)會(huì)失敗?作者認(rèn)為,失敗的預(yù)測(cè)都是非樣本預(yù)測(cè),錯(cuò)誤的用之前并不貼近當(dāng)前的數(shù)據(jù)解釋當(dāng)前情況或預(yù)測(cè)未來。
政治選舉預(yù)測(cè):狐貍和刺猬,誰更聰明?
狐貍型專家原則一,用概率的方法思考問題,結(jié)果可能會(huì)有幾個(gè)。二,當(dāng)實(shí)際情況與之前不同時(shí),不應(yīng)受限于過去的結(jié)論,而應(yīng)該時(shí)刻更新預(yù)測(cè),最大程度的利用有限的信息。預(yù)測(cè)出現(xiàn)波動(dòng)要么因?yàn)樵O(shè)計(jì)的模型很差勁,要么因?yàn)轭A(yù)測(cè)對(duì)象不具備可預(yù)測(cè)性。三,尋求共識(shí),群體預(yù)測(cè)一般比個(gè)人準(zhǔn)確。但狐貍型專家可以通過獨(dú)立思考,反復(fù)自己發(fā)問而效仿集體預(yù)測(cè)。預(yù)測(cè)時(shí),定性定量的信息同等重要,兩者不能獨(dú)立分析。
棒球比賽預(yù)測(cè):球探和數(shù)據(jù)怪才,誰更勝一籌?
一個(gè)好的棒球預(yù)測(cè)系統(tǒng)可以完成三個(gè)任務(wù)。一,考慮影響球員表現(xiàn)的外在因素。本任務(wù)相對(duì)簡(jiǎn)單,主要通過“球場(chǎng)因素”來解釋球員面對(duì)的困難的程度。二,區(qū)別對(duì)待技術(shù)和運(yùn)氣因素。短期內(nèi),運(yùn)氣常常會(huì)主導(dǎo)棒球比賽,但長(zhǎng)期內(nèi)技術(shù)才是主要因素。某些數(shù)據(jù)比較善變,容易受運(yùn)氣影響,而某些數(shù)據(jù)穩(wěn)定,則體現(xiàn)個(gè)人技術(shù)。主要體現(xiàn)三,熟知老化曲線,不同工作的巔峰年齡不同。
天氣預(yù)測(cè):蝴蝶扇動(dòng)翅膀,有可能引起龍卷風(fēng)
氣象系統(tǒng)符合混沌理論,動(dòng)態(tài)而且非線性。這意味著之前某個(gè)時(shí)間點(diǎn)發(fā)生的動(dòng)作會(huì)影響未來,并且以指數(shù)形式增長(zhǎng)。 初始數(shù)值哪怕發(fā)生微小的變化,結(jié)果也會(huì)造成巨大的差距??上?,精確程度很有限。經(jīng)分析可知,這種預(yù)測(cè)方式屬于決定論,結(jié)果完全由初始值確定。在現(xiàn)代氣象預(yù)測(cè)中,人們通過大量輸入只有微小區(qū)別的初始數(shù)據(jù),使多個(gè)結(jié)果以概率形式對(duì)比出現(xiàn),結(jié)果成為或然。 人類的視覺相對(duì)計(jì)算機(jī)具有天然優(yōu)勢(shì),人類可以瞬間發(fā)現(xiàn)數(shù)據(jù)中的異常值并且給出解釋或預(yù)測(cè)。計(jì)算機(jī)缺乏想象力,無法識(shí)別圖案(比如驗(yàn)證碼)。
地震預(yù)測(cè):一個(gè)困惑了人類1000年的難題
地震學(xué)家熱衷于含時(shí)預(yù)測(cè),地震發(fā)生的概率在一段時(shí)間內(nèi)總會(huì)出現(xiàn)波動(dòng)。余震可以證明地震存在一定的模式。一般而言,地震伴隨著余震,余震的威力小于地震。但歷史上曾多次出現(xiàn)無法判斷余震的情況,因?yàn)檫B續(xù)出現(xiàn)的地震等級(jí)驚人的接近。對(duì)于地震,還有個(gè)誤區(qū)是認(rèn)為地震活動(dòng)高發(fā)期是大地震的預(yù)警。如果預(yù)測(cè)某地每35年發(fā)生一次大地震,并不意味著地震但間隔時(shí)間相等,更保險(xiǎn)的說法是每年發(fā)生大地震的可能性是35分之1,無論前一次地震何時(shí)發(fā)生,下一次但概率也不會(huì)改變。地震預(yù)測(cè)之所以陷入困境,很大程度因?yàn)槿藗儫o法直接測(cè)量地殼的壓力,只能獲得純統(tǒng)計(jì)數(shù)據(jù),而沒有具有可分析性的數(shù)據(jù)。在預(yù)測(cè)中,最常見的是過度擬合,將噪聲誤認(rèn)為信號(hào)。
經(jīng)濟(jì)預(yù)測(cè):經(jīng)濟(jì)學(xué)家為什么沒有預(yù)測(cè)到2008年經(jīng)濟(jì)危機(jī)
經(jīng)濟(jì)學(xué)家并非都是理性的,相當(dāng)一部分人過度自信。除了預(yù)測(cè)者本身因素,外界因素也足夠復(fù)雜,難以預(yù)測(cè)。首先,相關(guān)性并非等于因果關(guān)系。政府每年公布與經(jīng)濟(jì)指標(biāo)相關(guān)的數(shù)據(jù)上萬個(gè),一些經(jīng)濟(jì)學(xué)家把大量并沒有因果關(guān)系的數(shù)據(jù)混在一起。某些數(shù)據(jù)存在滯后性,經(jīng)濟(jì)預(yù)測(cè)和經(jīng)濟(jì)政策之間的反饋也難以正常進(jìn)行,模型中的自變量和因變量在經(jīng)濟(jì)領(lǐng)域混亂使用。
第二個(gè)原因是經(jīng)濟(jì)變換莫測(cè),某一時(shí)期的經(jīng)濟(jì)運(yùn)行狀況無法解釋未來經(jīng)濟(jì)的發(fā)展。經(jīng)濟(jì)周期并不穩(wěn)定,沒有知道下一個(gè)轉(zhuǎn)變何時(shí)出現(xiàn)。雖然建立在穩(wěn)定運(yùn)行狀況的經(jīng)濟(jì)模型毫無價(jià)值,但預(yù)測(cè)轉(zhuǎn)折點(diǎn)絕非易事。
第三,預(yù)測(cè)者的原始數(shù)據(jù)質(zhì)量不高。 經(jīng)濟(jì)學(xué)家面臨兩個(gè)困難,一是經(jīng)濟(jì)是動(dòng)態(tài)系統(tǒng),處于永久的運(yùn)動(dòng)中。二是受到某些不確定的初始條件的約束,并不精確的初始數(shù)據(jù)會(huì)導(dǎo)致完全相反的結(jié)果。經(jīng)濟(jì)學(xué)家對(duì)經(jīng)濟(jì)運(yùn)行中的因果關(guān)系認(rèn)識(shí)的迷糊不清,既是給出一系列變量和方程式,也容易把噪聲當(dāng)成信號(hào)。這種情況在大數(shù)據(jù)時(shí)代很常見,沒有理論支撐,沒有深入研究根源,僅僅是純統(tǒng)計(jì)學(xué)。此外,偏見不可避免。名氣越小,預(yù)測(cè)越不怕冒險(xiǎn),相反亦成立。解決辦法有兩個(gè),一是為準(zhǔn)確的經(jīng)濟(jì)預(yù)測(cè)創(chuàng)造市場(chǎng),更多的人對(duì)預(yù)測(cè)感興趣。二是我們應(yīng)該成為更好的預(yù)測(cè)用戶,關(guān)注真正的專家,知道什么是噪聲,什么是信息。
傳染性疾病預(yù)測(cè):禽流感為何會(huì)突然爆發(fā),又突然消失?
外推法認(rèn)為,未來是現(xiàn)在趨勢(shì)持續(xù)發(fā)展的結(jié)果。預(yù)測(cè)者把已有數(shù)據(jù)畫成圖,并據(jù)此推斷未來的發(fā)展模式。這種方法顯然不適用于現(xiàn)實(shí)。 之所以禽流感會(huì)突然爆發(fā),主要因?yàn)轭A(yù)測(cè)本身會(huì)改變?nèi)说男袨?。要么讓結(jié)果無效,要么更準(zhǔn)確。自我實(shí)現(xiàn)預(yù)測(cè)就是指預(yù)測(cè)自動(dòng)實(shí)現(xiàn),人們?cè)綋?dān)心某種情況這種情況就越容易成為討論的話題,相關(guān)報(bào)道越接近真相。與之相反的是自我否定預(yù)測(cè),預(yù)測(cè)會(huì)自我破壞。對(duì)于流感預(yù)測(cè)而言,最好的預(yù)測(cè)無法達(dá)到結(jié)果,因?yàn)檫@樣的預(yù)測(cè)會(huì)促使人們做出更有利于健康的選擇。 為什么我們無法預(yù)測(cè)出禽流感? ? 傳統(tǒng)流感模型過于簡(jiǎn)單,而且依賴于大量假設(shè),其中很多難以實(shí)現(xiàn)。對(duì)于復(fù)雜的現(xiàn)實(shí),傳統(tǒng)模型顯然落后時(shí)代。但復(fù)雜的模型同樣不能提高預(yù)測(cè)的準(zhǔn)確性?,F(xiàn)在,越來越多的人采用“基于Agent建模方法”,本質(zhì)上是對(duì)研究區(qū)域的模擬,預(yù)測(cè)者需要大量的數(shù)據(jù),以及對(duì)認(rèn)知心理學(xué)等學(xué)科深入的了解。就目前而言,這種模型難以投入應(yīng)用。
貝葉斯公式:只有正確的預(yù)測(cè)才能讓我們更接近真相
成功的賭客,從來不會(huì)以穩(wěn)賺不賠的心態(tài)、無懈可擊的理論和極其準(zhǔn)確的尺度去看待未來。 通常,我們會(huì)把焦點(diǎn)集中到最新最塊的信息上,而忽略全局。有時(shí)候,新證據(jù)的力量十分強(qiáng)大,會(huì)壓到其他的證據(jù)。合理的做法是不斷的增加新證據(jù),不斷的更新預(yù)測(cè)結(jié)果。在大數(shù)據(jù)時(shí)代,擁有的信息指數(shù)增長(zhǎng),需要驗(yàn)證的假設(shè)以同樣速度增長(zhǎng)。預(yù)測(cè)因此更容易失敗。 頻率主義認(rèn)為,僅從人口樣本中收集數(shù)據(jù)是統(tǒng)計(jì)學(xué)問題中出現(xiàn)不確定性的原因。