暴露于數(shù)據(jù)之下的真實你我
從今天開始,咱們分幾次說一本5月9號剛剛出版的新書,《人人說謊:大數(shù)據(jù)、新數(shù)據(jù)以及關(guān)于真實的你我,互聯(lián)網(wǎng)能告訴我們什么》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are),作者是賽斯·史蒂芬斯-大衛(wèi)德威茨(Seth Stephens-Davidowitz)。
這位作者的姓實在太長,咱們以后就直接叫他的名字。賽斯的簡歷很有意思,本科是在斯坦福大學學的哲學,博士是哈佛學的經(jīng)濟學,他之前在Google做數(shù)據(jù)科學家,現(xiàn)在在沃頓商學院當老師。這樣的經(jīng)歷你很難在中國復制,我們的文科教育不太可能培養(yǎng)出來數(shù)據(jù)科學家 —— 而賽斯這個跨學科的經(jīng)歷,對他在這本書里說的事情卻是十分重要的。
我估計你以聽到書名就笑了,因為前一陣我們剛剛解讀過麥茲伯格的《意會》,等于是我們剛說完大數(shù)據(jù)不行,還是得靠人,今天又反過來,說要想了解真實的人,還是得靠數(shù)據(jù)。
但是你當然明白,看似矛盾并不一定矛盾,正如菲茨杰拉德說的:“檢驗一流智力的標準,就是看你能不能在頭腦中同時存在兩種相反的想法,還維持正常行事的能力?!贝髷?shù)據(jù)和“意會”這兩種方法有不同的適用范圍,就如同陰和陽,是互相補充的關(guān)系,并不像武俠小說里說的“氣宗”和“劍宗”那樣對立。上次我們說了“陰”,這次我們談談“陽”。
《意會》那本書告訴我們,有很多東西是大數(shù)據(jù)看不到的,需要我們身臨其境地去理解和體驗。而賽斯這本書,說的是有很多東西是我們平時看不到,也打聽不到的,只有通過大數(shù)據(jù)才能了解到 —— 關(guān)鍵就在于你得知道去哪里看。
1.別人不知道,Google 知道
什么東西非得靠大數(shù)據(jù)才能知道呢?比如說人的真實想法。一個人可能情緒低落甚至抑郁,但是在人前的表現(xiàn)還是陽光外向。一個人可能有強烈的種族歧視心理,但是他不會告訴做民意測驗的人。一個人可能對感情生活很不滿,但是連他的配偶都不知道。
但是 Google 可能知道。人們可能會偷偷地搜索一些東西,他的搜索關(guān)鍵詞暴露了他的內(nèi)心。所有這些搜索動作,包括關(guān)鍵詞、時間、地點、乃至于是哪個人搜索的、前后有什么關(guān)聯(lián),Google 全都記錄在案,而且數(shù)據(jù)會被保留多年。當然,Google 不會公布具體哪個人搜索了什么,但研究者不需要知道具體的個人,他只要知道有這么一些人在做這樣的搜索,就足以對“人”多出很多了解了。
咱們干脆說一個少兒不宜的例子。比如你要做一個調(diào)查,你想知道美國人民的性生活頻率是怎么樣的。那么哪怕你這個調(diào)查是完全匿名的,我們也可以想象,人們面對這個問題一定會吹噓一下。根據(jù)一項非常權(quán)威的調(diào)查顯示,僅限于異性戀,美國女性平均每年性生活次數(shù)是55次,其中16%的情況下使用了避孕套 —— 那么按照這個數(shù)據(jù)計算,美國每年應該用掉11億個避孕套。而如果調(diào)查對象是男性,那么數(shù)據(jù)就更大一點,是美國每年會用掉16億個避孕套。
這就顯然有問題了 —— 避孕套一對男女共用一個,那兩個數(shù)據(jù)應該是相同的才對,為什么會有這么大的差別呢?看來是有人在吹牛。
事實上,你再去看真實的避孕套銷量,實際美國每年賣出去的避孕套還不到6億個。所以吹牛的成分還很嚴重。把六十五歲以下的已婚男性告訴調(diào)查者的數(shù)據(jù)平均起來,是每人每周都有一次性生活,而實際肯定沒有這么多。
賽斯使用 Google 搜索的數(shù)據(jù),發(fā)現(xiàn)了更深入的真相。根據(jù) Google 的記錄,“無性婚姻”這個關(guān)鍵詞組合的搜索次數(shù)比“不幸婚姻”高3.5倍,比“無愛婚姻”要高8倍。人們對婚姻最大的抱怨就是無性婚姻!所以無性婚姻是比人們想象中大得多的問題,只不過在公開場合調(diào)查中,人們不愿意說實話而已。
一個被無性婚姻困擾的人,平時沒有向任何人抱怨過,甚至面對問卷調(diào)查他還吹噓了一番。可是夜深人靜之時,他忍不住想要了解自己的無性婚姻到底正不正常,于是把問題輸入了 Google 的搜索框。
如此說來,搜索引擎提供了一個可以窺探人們心里到底在想什么的窗口。
這本書的序言是大名鼎鼎的實驗心理學家和認知科學家史迪芬·平克寫的。平克非常羨慕賽斯有這樣的研究工具。傳統(tǒng)上心理學家想要想知道人們想什么只能依賴問卷調(diào)查,現(xiàn)在更高級的方法是用功能性核磁共振掃描大腦,但是人們在問卷調(diào)查里可以撒謊,掃描大腦掃不出什么細節(jié)。而在這個幾乎人人上網(wǎng)的時代,人們向 Google 吐露了心聲。
賽斯有了這個工具,就發(fā)現(xiàn)了一系列有意思的事實。今天咱們先說一個:種族歧視。
2.奧巴馬能當上總統(tǒng),就說明美國沒有種族歧視了嗎?
2008年奧巴馬當選總統(tǒng)的投票前夜,民調(diào)顯示他有很大的領(lǐng)先優(yōu)勢。當時美國學者擔心,也許選民會說一套做一套,跟民調(diào)的人說支持奧巴馬,但是內(nèi)心還是種族歧視,投票的時候不會投給他。結(jié)果是奧巴馬高票當選,學者都松了一口氣。2012年奧巴馬又輕松連任,這時候絕大多數(shù)學者就認為,今天的美國已經(jīng)沒有什么種族歧視了。
美國真的沒有種族歧視了嗎?或者說,美國的種族歧視已經(jīng)不足以影響大選結(jié)果了嗎?學者不知道,Google 知道。
賽斯關(guān)注的搜索關(guān)鍵詞,是“nigger” —— 這個詞的意思是“黑鬼”,是對黑人非常嚴重的辱罵,有時候黑人之間互相開玩笑可以用,但你不是黑人千萬不能用。當人們搜索“nigger”的時候,有20%的情況是想找個黑人笑話讀,剩下的情況則幾乎就是直接的恨意:“stupid niggers”、“I hate niggers”。
賽斯發(fā)現(xiàn),奧巴馬第一次當選總統(tǒng)前夕,跟“Obama”這個詞連在一起的搜索中,有1%,包含“nigger”這個詞。在某些州,搜索“nigger president(黑鬼總統(tǒng))”的人,比搜索“first black president(第一位黑人總統(tǒng))”的人還要多。
這個比例似乎不大,但是落實到選票上,賽斯估計,以全國總數(shù)而論,奧巴馬至少因為種族歧視少拿了4個百分點的選票。
奧巴馬當選總統(tǒng),不是因為美國沒有種族歧視,也不是因為種族歧視對選舉的影響很小,而是因為奧巴馬和民主黨在其他方面的優(yōu)勢實在太大!
而且 Google 數(shù)據(jù)還能告訴我們一些更深入的事實。
3.哪里的人最有心機
關(guān)于種族歧視,傳統(tǒng)上我們有兩個刻板印象。一個是我們總覺得民主黨的人思想進步,比較少有種族歧視;共和黨的人思想保守,更有種族歧視。另一個是北方經(jīng)濟發(fā)達,人比較開明,不搞種族歧視;而南方經(jīng)濟落后,人比較閉塞,種族歧視比較嚴重 —— 這當然是南北戰(zhàn)爭給人留下的印象。
可是賽斯從 Google 數(shù)據(jù)判斷,這兩個印象都是錯的。真正能劃分種族歧視的,不是政黨也不是南北,而是東西 —— 美國東部的幾個州,有更多人有種族歧視思想,而西部尤其是加州一帶,人們的確沒有什么歧視思想。
所以有這么一幫人,他們是民主黨人,住在發(fā)達的東部,經(jīng)濟條件和受教育程度都不錯,代表先進文化和先進生產(chǎn)力,平時隱藏的很深 —— 但是他們內(nèi)心深處是個種族主義者,一到選舉的關(guān)鍵時刻就會偷偷投出帶有歧視的一票。
這一票有時候就能左右大局。比如這次特朗普當選總統(tǒng),簡直是美國數(shù)據(jù)預測界的一大恥辱,所有民調(diào)、包括大神級的人物 Nate Silver (《信號與噪聲》一書的作者)事先都沒預測到。那事先的預測和最后的結(jié)果到底差在哪呢?Nate Silver 后來做了大量的分析,發(fā)現(xiàn)正是因為種族歧視者在關(guān)鍵時刻表里不一,表面上說要投給希拉里,但實際上卻投票給了特朗普。
這些人都住在哪呢?正好和賽斯發(fā)現(xiàn)的結(jié)果一致,也就是美國東部那幾個搜索“nigger”這個詞頻率很高的州。
我們看電視劇《紙牌屋》里有個情節(jié),說互聯(lián)網(wǎng)公司可以左右選情?,F(xiàn)在沒有任何跡象表明 Google 有這樣的能力 —— 不但不能左右選情,而且也沒有能力精確預測大選結(jié)果。不過賽斯的確發(fā)現(xiàn)一些能一定程度上幫助預測的辦法。
比如說今天晚上有一場總統(tǒng)競選辯論,特朗普對希拉里。你想知道辯論是在幾點進行、哪個臺直播,于是你上網(wǎng)搜索。你可能會搜索“特朗普希拉里辯論”,也可能會搜索“希拉里特朗普辯論”,對吧?賽斯把這一次搜索關(guān)鍵詞,和同一個人其他時候搜索的關(guān)鍵詞聯(lián)系起來,就發(fā)現(xiàn)一個大體有效的規(guī)律:你支持誰,就會把誰的名字放前面。
把像這樣的蛛絲馬跡都利用起來,賽斯就發(fā)現(xiàn)了一些非常有意思的事實。
***
美國學術(shù)圈流傳一個說法。說你如果去加州的那些大學作報告,比如說去伯克利,聽報告的人問你什么問題,肯定都是真誠的提問,他們是不懂才問。但如果你去東部的那些傳統(tǒng)名校作報告,比如說去普林斯頓,那有時候聽眾問你的問題是他本來就知道答案的 —— 他不但不想暴露無知,還想要證明自己厲害。
所以美國東部人民的心機重,學術(shù)界還是有共識的啊 —— 只不過一直沒有他們種族歧視的證據(jù)。
好在人們問 Google 的問題,都是真誠的提問。