信號(hào)與噪聲:大數(shù)據(jù)時(shí)代預(yù)測(cè)的科學(xué)與藝術(shù)
作者(Nate Silver[美]納特?西爾弗)是我們《快公司》2013年的Most Creative People之一。唯一的遺憾是,本書(shū)似乎只披露了他小部分心得,我不相信他只靠這些就能做對(duì)那么多預(yù)測(cè)。
預(yù)測(cè)之所以重要,是因?yàn)樗B接著主觀世界與客觀現(xiàn)實(shí)??茖W(xué)哲學(xué)大師卡爾·波普爾早就意識(shí)到了這一點(diǎn)。對(duì)他來(lái)說(shuō),假設(shè)并不科學(xué),可證偽的假設(shè)才是科學(xué)的。這就意味著在真實(shí)世界里,假設(shè)可以通過(guò)預(yù)測(cè)得到檢驗(yàn)。
1940~1960 年這 20 年間,美國(guó)的自有住宅率從 44%猛增至 62%,主要集中在城郊地區(qū)。房地產(chǎn)繁榮的同時(shí),也迎來(lái)了嬰兒潮:戰(zhàn)后,美國(guó)人口以每 10 年 20%的速度增長(zhǎng),這個(gè)增長(zhǎng)率是 21 世紀(jì)初人口增速的兩倍。這便意味著當(dāng)時(shí)美國(guó)的房屋業(yè)主數(shù)量在 10 年內(nèi)增加了 80%,這個(gè)增幅與房?jī)r(jià)的增速相吻合甚至超過(guò)了房?jī)r(jià)的增速。
我的專(zhuān)業(yè)背景主要包括兩大學(xué)科:體育運(yùn)動(dòng)和牌類(lèi)游戲。浸淫在這兩個(gè)領(lǐng)域中,你會(huì)明白什么叫見(jiàn)慣不怪。牌類(lèi)游戲玩多了,你會(huì)輕而易舉地抓到“皇家同花順”,久而久之,當(dāng)你的對(duì)手抓到一手“同花”牌時(shí),你的牌可能已經(jīng)滿(mǎn)堂紅了。體育運(yùn)動(dòng),尤其是棒球,其中也有很多出現(xiàn)概率很低的事件最終實(shí)實(shí)在在地發(fā)生了。2011 年,波士頓紅襪隊(duì)當(dāng)時(shí)有 99.7%的機(jī)會(huì)成功打入季后賽,可還是鎩羽而歸。對(duì)此我很無(wú)奈,只能說(shuō),一般的概率法則對(duì)紅襪隊(duì)和芝加哥小熊隊(duì)不起作用。
1814 年,拉普拉斯做出以下假設(shè),后來(lái)這些假設(shè)被稱(chēng)作拉普斯的惡魔: 我們可以把宇宙的現(xiàn)狀看作其過(guò)去已經(jīng)發(fā)生的事情和未來(lái)可能發(fā)生的事情共同影響的結(jié)果。假設(shè)我們具備一種理解能力,能在某一個(gè)特定時(shí)刻認(rèn)識(shí)到使大自然運(yùn)動(dòng)的所有力量,能夠知曉構(gòu)成大自然的所有事物的位置。若這種理解能力足夠強(qiáng)大,可以對(duì)所有這些數(shù)據(jù)進(jìn)行分析,就必然能夠用一種最簡(jiǎn)單的公式或準(zhǔn)則涵蓋這個(gè)宇宙中最大的星體和最微小原子的所有運(yùn)動(dòng)。有了這種理解能力,就沒(méi)有什么是不能確定的,未來(lái)和過(guò)去都能盡收眼底。
1888 年 1 月發(fā)生“校舍暴風(fēng)雪”事件之后,公眾開(kāi)始更多地關(guān)注氣象預(yù)報(bào)問(wèn)題。那年 1 月 12 日,起初還算是大平原地區(qū)相對(duì)溫暖的氣溫,可幾個(gè)小時(shí)之后,氣溫驟降 30 攝氏度,緊接著,讓人眼暈的暴風(fēng)雪驟起。數(shù)以百計(jì)的學(xué)生剛剛放學(xué)就被暴風(fēng)雪困住,凍死在回家的路上。早期的氣象預(yù)報(bào)如此粗糙,但對(duì)于這種嚴(yán)酷的天氣情況,人們還是期望氣象預(yù)報(bào)至少能提供一些預(yù)警。于是,美國(guó)國(guó)家氣象局被劃歸農(nóng)業(yè)部管轄,接手一些面向大眾的任務(wù)。
與虛假的天氣預(yù)報(bào)相比,人們對(duì)氣象預(yù)報(bào)未能預(yù)測(cè)到大雨天氣的失誤更為關(guān)注。當(dāng)大雨不期而至?xí)r,人們就會(huì)抱怨是氣象預(yù)報(bào)員破壞了他們的野炊,而天氣意外放晴則會(huì)被視為額外的嘉獎(jiǎng)。這并不是科學(xué),但是就像氣象頻道的羅斯博士對(duì)我說(shuō)的那樣:“如果預(yù)測(cè)是客觀的,對(duì)降水概率的預(yù)報(bào)沒(méi)有任何偏向,那我們可能就有麻煩了?!?/p>
地震本身是一個(gè)復(fù)雜的過(guò)程。復(fù)雜性理論是由已故物理學(xué)家佩·巴克與他人共同創(chuàng)立的,盡管人們經(jīng)常將這一理論和混沌理論混為一談,但二者之間是有差別的。復(fù)雜理論認(rèn)為,當(dāng)一個(gè)簡(jiǎn)單的事物和其他事物互相作用時(shí),就會(huì)表現(xiàn)得神秘怪異。?
巴克最?lèi)?ài)舉沙堆的例子。如果一粒沙(有什么比一粒沙更簡(jiǎn)單呢?)落入一個(gè)沙堆中,有可能會(huì)發(fā)生 3 種情況。依據(jù)沙堆的形狀和大小,這粒沙可能會(huì)停留在落下的位置;或者它會(huì)沿著沙堆的斜坡緩緩地流到沙堆底部;還可能出現(xiàn)另外一種情況:如果沙堆太陡,一粒沙就可能撼動(dòng)整堆沙子,使沙堆崩塌。
復(fù)雜的系統(tǒng)似乎都有這樣的特性,會(huì)有很長(zhǎng)一段明顯的停滯期,而這種停滯狀態(tài)總是伴隨著突發(fā)性和災(zāi)難性的失敗。這些過(guò)程也許真不是隨機(jī)的,而是具有不可簡(jiǎn)化的復(fù)雜性。因此,一旦這種復(fù)雜性超越了某種水平,我們就不可能對(duì)這些過(guò)程做出預(yù)測(cè)。
美國(guó)政府每年公布的數(shù)據(jù),與經(jīng)濟(jì)指標(biāo)直接相關(guān)的有 4.5 萬(wàn)個(gè),而私人數(shù)據(jù)提供者要追蹤高達(dá) 400 萬(wàn)個(gè)統(tǒng)計(jì)數(shù)據(jù)。一些經(jīng)濟(jì)學(xué)家忍不住想要把所有數(shù)據(jù)都混合在一起,并給一般的數(shù)據(jù)穿上優(yōu)質(zhì)的“外衣”。第二次世界大戰(zhàn)之后只出現(xiàn)了 11 次經(jīng)濟(jì)衰退的情況,如果一個(gè)統(tǒng)計(jì)模型試圖解釋這 11 次衰退帶來(lái)的后果,就必須從 400 萬(wàn)個(gè)數(shù)據(jù)中選擇數(shù)據(jù),由此得出的許多相關(guān)性都將會(huì)帶有欺騙性。(這是過(guò)度擬合的又一個(gè)經(jīng)典例子——將噪聲誤認(rèn)為是信號(hào)——在本書(shū)前面的內(nèi)容中,這個(gè)問(wèn)題發(fā)生在地震預(yù)測(cè)者身上。)
美國(guó)橄欖球超級(jí)杯大賽的冠軍隊(duì)伍曾一度是經(jīng)濟(jì)預(yù)測(cè)中非常有名的“領(lǐng)先指標(biāo)”。從 1967 年的第一屆超級(jí)杯大賽到 1997 年的第 31 屆超級(jí)杯大賽,當(dāng)來(lái)自原美國(guó)國(guó)家橄欖球聯(lián)盟(NFL)的隊(duì)伍贏得比賽時(shí),那么股市就會(huì)平均上漲 14%,而如果是來(lái)自原美國(guó)職業(yè)橄欖球聯(lián)盟的隊(duì)伍贏得比賽時(shí),那么股市就會(huì)平均下跌 10%。?
1997 年之前的 31 年里,有 28 年該指標(biāo)都正確地“預(yù)測(cè)”了股市的走向。從理論上來(lái)看,統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)測(cè)試可以表明這種相關(guān)關(guān)系絕非偶然,是偶然的可能性只有 470 萬(wàn)分之一。 然而事實(shí)上,這種關(guān)系的出現(xiàn)只是巧合。最終,這一指標(biāo)的表現(xiàn)還是退步了。1998 年,原美國(guó)職業(yè)橄欖球聯(lián)盟的丹佛野馬隊(duì)贏得了美國(guó)橄欖球超級(jí)杯大賽,按照慣例,這應(yīng)該是一個(gè)不好的預(yù)兆,然而,這次股市非但沒(méi)有下跌,反而在網(wǎng)絡(luò)公司的強(qiáng)勢(shì)帶動(dòng)下上漲了 28%。2008 年,原美國(guó)國(guó)家橄欖球聯(lián)盟的紐約巨人隊(duì)奮力直追,外接手戴維·泰里大放異彩,打亂了新英格蘭愛(ài)國(guó)者隊(duì)奪冠大衛(wèi)輪胎隊(duì)的計(jì)劃,然而,新英格蘭愛(ài)國(guó)者隊(duì)的失利并沒(méi)能阻止房地產(chǎn)泡沫的破滅,這次房市崩潰導(dǎo)致股市暴跌了 35%。事實(shí)上,自 1998 年以來(lái),每次原美國(guó)橄欖球聯(lián)盟的隊(duì)伍贏得超級(jí)杯大賽時(shí),股市非但不會(huì)下跌,反而會(huì)有約 10%的上漲幅度,與傳說(shuō)中這一指標(biāo)的預(yù)測(cè)走勢(shì)截然相反。?
為何一個(gè)本來(lái)失敗概率只有 470 萬(wàn)分之一的指標(biāo)會(huì)一敗涂地?出于同樣的原因,盡管美國(guó)的全國(guó)性彩票強(qiáng)力球彩票的中獎(jiǎng)概率達(dá)到 1.95 億分之一,但每隔幾周還是會(huì)有人中獎(jiǎng)。對(duì)于所有買(mǎi)彩票的人來(lái)講,中獎(jiǎng)概率都是相當(dāng)小的,但數(shù)百萬(wàn)張彩票一經(jīng)出售,總會(huì)有人走運(yùn)中獎(jiǎng)。同樣的,在世界上數(shù)百萬(wàn)統(tǒng)計(jì)指標(biāo)中,有一些恰好與股票價(jià)格、GDP、失業(yè)率有很大的相關(guān)性。如果不是超級(jí)杯的冠軍,就可能是烏干達(dá)的雞肉產(chǎn)量。這種關(guān)系僅僅是一個(gè)巧合而已。
由倫敦政治經(jīng)濟(jì)學(xué)院教授提出的“古德哈特定律”認(rèn)為,政策制定者一旦鎖定一個(gè)特定變量,這個(gè)變量就會(huì)逐漸失去其作為經(jīng)濟(jì)指標(biāo)的價(jià)值。比如,如果美國(guó)政府人為地上調(diào)房?jī)r(jià),房?jī)r(jià)會(huì)上漲,但房?jī)r(jià)就不再是衡量整體經(jīng)濟(jì)是否健康的指標(biāo)了
某一區(qū)域若滿(mǎn)足以下 3 個(gè)條件,就會(huì)成為 H1N1 病毒的完美孵化器: 1.人、豬毗近,也就是說(shuō),豬肉是日常飲食中的主食。 2.靠近海洋,豬和越海遷徙的鳥(niǎo)類(lèi)可能發(fā)生接觸。 3.很可能位于發(fā)展中國(guó)家,由于國(guó)家貧窮、個(gè)人衛(wèi)生和公共衛(wèi)生水平較低,動(dòng)物病毒更易傳播給人類(lèi)。 上述 3 個(gè)條件正好描繪出東南亞許多國(guó)家的現(xiàn)狀,比如中國(guó)、印度尼西亞、泰國(guó)和越南(僅中國(guó)現(xiàn)存豬的數(shù)量就占世界數(shù)量的 1/2)等國(guó)。這些國(guó)家通常都是流感的源頭,從每年常見(jiàn)的流感類(lèi)型到特殊的變體,而后者可能引起全球性的流行病。
19 世紀(jì)末 20 世紀(jì)初,許多城市的規(guī)劃者被馬糞所擾,馬車(chē)的數(shù)量日益增加,使得路上的馬糞越積越多。1894 年一位來(lái)自《倫敦時(shí)報(bào)》的作家致力于研究街道上的馬糞問(wèn)題,他預(yù)測(cè)到 20 世紀(jì) 40 年代,倫敦每條街道會(huì)被厚達(dá) 2.7 米的馬糞覆蓋。幸運(yùn)的是,大約 10 年后,亨利·福特生產(chǎn)了福特 T 型汽車(chē),避免了這場(chǎng)馬糞危機(jī)。
與自我實(shí)現(xiàn)預(yù)測(cè)相反的是自我否定預(yù)測(cè),自我否定預(yù)測(cè)是指預(yù)測(cè)會(huì)自我破壞。越來(lái)越普及的 GPS 就是一個(gè)有趣的例子。曼哈頓有兩條南北走向的主干道,一條是西部高速公路,靠近哈德遜河;另一條是羅斯福路,位于曼哈頓東部。根據(jù)目的地的位置,司機(jī)也許沒(méi)有必須走哪條路的強(qiáng)烈愿望。然而,GPS 導(dǎo)航系統(tǒng)會(huì)依據(jù)車(chē)流量預(yù)測(cè)哪條路通行的時(shí)間更短,然后用語(yǔ)音提示你應(yīng)該選的道路??墒?,當(dāng)很多車(chē)主都用同一款導(dǎo)航儀時(shí),問(wèn)題就出現(xiàn)了,大家都會(huì)選同一條路,于是道路突然會(huì)被車(chē)流塞滿(mǎn),暢通的路反而變得擁堵。理論和現(xiàn)實(shí)的雙重證據(jù)表明,在紐約、波士頓和倫敦都出現(xiàn)了類(lèi)似的問(wèn)題,這些導(dǎo)航系統(tǒng)的作用有時(shí)只會(huì)適得其反。
盡管貝葉斯所著圖書(shū)的種類(lèi)并不算多,但還是被選為英國(guó)皇家學(xué)會(huì)會(huì)員,在英國(guó)皇家學(xué)會(huì),他擔(dān)任內(nèi)部評(píng)論家或者智力辯論的裁判員。盡管《神的慈愛(ài)》這篇短文是用約翰·努恩的署名發(fā)表的,但大部分學(xué)者認(rèn)為這篇文章其實(shí)就是貝葉斯的作品。
文中,貝葉斯思考了古老的神學(xué)問(wèn)題:如果上帝真的是慈愛(ài)的,這世上為何還會(huì)有苦難和邪惡?貝葉斯給出的答案大體上是,我們不能將人類(lèi)的瑕疵誤認(rèn)作上帝的缺陷,我們可能并不完全理解上帝所創(chuàng)造的這個(gè)世界。貝葉斯在給另一個(gè)神學(xué)家的回信中寫(xiě)道:“所以一切看起來(lái)都那么奇怪……因?yàn)樯系壑豢吹绞澜缱畹讓拥纳?,他?yīng)該由此推斷出整個(gè)人類(lèi)會(huì)喪失幸福感?!?/p>
研究發(fā)現(xiàn),已婚夫婦任何一年的出軌概率都在 4%左右,所以,我們可以將這個(gè)概率視為先驗(yàn)概率。
烏爾加利斯總是想盡辦法搜集籃球信息,因?yàn)槿魏问露伎赡芨淖兯母怕使乐怠O駷鯛柤永惯@樣的職業(yè)競(jìng)技體育賭客,只有在認(rèn)為勝算達(dá)到 54%以上時(shí)才會(huì)下注,因?yàn)檫@樣才足以抵消“抽頭”(博彩經(jīng)營(yíng)者從賭客的贏利中抽的份子錢(qián))和下注風(fēng)險(xiǎn)。憑借著高超的技藝和勤奮的工作,烏爾加利斯躋身當(dāng)今世界最成功的競(jìng)技體育賭客之列,但其下注的準(zhǔn)確率僅為 57%。要想超過(guò)這一數(shù)字,比登天還難。
1989 年“深思”迎戰(zhàn)卡斯帕羅夫時(shí),輸?shù)靡凰???ㄋ古亮_夫向來(lái)尊敬計(jì)算技術(shù)在國(guó)際象棋中的作用,也一直向計(jì)算機(jī)學(xué)習(xí)以提高棋藝,但他對(duì)“深思”卻少有贊譽(yù),只是說(shuō)希望有朝一日能出現(xiàn)一臺(tái)需要他“用盡全力”才能戰(zhàn)勝的計(jì)算機(jī)。?
由許峰雄和默里·坎貝爾領(lǐng)銜的“深思”設(shè)計(jì)團(tuán)隊(duì)最終受雇于 IBM,在那里他們將“深思”的系統(tǒng)優(yōu)化升級(jí)為“深藍(lán)”。1996 年,“深藍(lán)”在費(fèi)城對(duì)陣卡斯帕羅夫時(shí)只贏得了首局,卡斯帕羅夫宣稱(chēng)剩下的幾局他贏得很輕松。次年,“深藍(lán)”和卡斯帕羅夫紐約再戰(zhàn),意想不到的事情發(fā)生了。史上最出色、最令人敬畏的國(guó)際象棋大師加里·卡斯帕羅夫竟然被一臺(tái)計(jì)算機(jī)打敗了。
利用業(yè)余時(shí)間——隨著“非法互聯(lián)網(wǎng)賭博強(qiáng)制法案”的頒布,我對(duì)政治產(chǎn)生了日益濃厚的興趣——我最終建成了“538”網(wǎng)站。盡管將贏來(lái)的錢(qián)輸?shù)袅?1/3 讓我感覺(jué)不舒服,但總好過(guò)把錢(qián)全部輸光,而那些繼續(xù)玩牌的玩家的運(yùn)氣就沒(méi)有這么好了。2011 年,美國(guó)司法部提交了訴狀——永久關(guān)閉在線(xiàn)撲克牌網(wǎng)站,這一天被在線(xiàn)撲克牌網(wǎng)站稱(chēng)為“黑色星期五”,其中一些網(wǎng)站被證明無(wú)償還能力,無(wú)法退還玩家的賭金。?
我有時(shí)會(huì)想,如果這事發(fā)生在我身上會(huì)怎么樣。一個(gè)理論上的長(zhǎng)勝玩家確實(shí)有可能連續(xù)數(shù)月或一整年都只輸不贏。一個(gè)總輸錢(qián)的玩家也有可能連贏幾局之后,才意識(shí)到自己水平不夠。撲克牌游戲就是如此捉摸不定,難以掌控。
- 您在位置 #5044-5047的標(biāo)注 | 添加于 2015年2月26日星期四 下午5:00:37
2009年,也就是 2008 年金融危機(jī)摧毀了全球經(jīng)濟(jì)的一年之后,紐約證券交易所一開(kāi)市,美國(guó)投資者每秒的股票交易額就高達(dá) 800 萬(wàn)美元。一個(gè)完整的交易日結(jié)束后,交易總額達(dá)到 1 850 億美元,大約相當(dāng)于尼日利亞、菲律賓和愛(ài)爾蘭等國(guó)一年的經(jīng)濟(jì)總量。2009 年全年,美國(guó)股票的交易總額超過(guò) 46 萬(wàn)億美元,這個(gè)數(shù)字是世界 500 強(qiáng)企業(yè)年收入總和的 5 倍。
自由市場(chǎng)論和貝葉斯定理是由同一個(gè)知識(shí)系統(tǒng)演變而來(lái)的。亞當(dāng)·斯密和托馬斯·貝葉斯是同齡人,都在蘇格蘭接受的教育,都深受哲學(xué)家戴維·休謨的影響。亞當(dāng)·斯密的“無(wú)形之手”可以被視為貝葉斯定理的應(yīng)用過(guò)程:價(jià)格受供求關(guān)系影響而上下波動(dòng),最終實(shí)現(xiàn)等價(jià)交換。而貝葉斯定理的推理過(guò)程也被視為一只“無(wú)形的手”,我們?cè)跒樽约籂?zhēng)辯時(shí),也是在潛移默化地更新和改進(jìn)觀點(diǎn),爭(zhēng)論無(wú)果時(shí),就會(huì)放手賭一把自己的觀點(diǎn)。這兩種情況都是尋求共識(shí)、博采眾長(zhǎng)。