避開陷阱才能讀準(zhǔn)數(shù)據(jù)的語言

世上很多事物的表象具有迷惑性正如蘇軾古詩《題西林壁》縮寫:橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同,不識廬山真面目,只緣身在此山中。這首詩描寫的是人在面對一座山時(shí),從不同的角度看會有不同的印象。時(shí)下人在面對更為復(fù)雜的各種現(xiàn)象時(shí)難免會碰到更多的迷霧,這時(shí)人們會借助各種數(shù)據(jù)分析來協(xié)助研究得出結(jié)論。但眾多結(jié)論里面可能既有真理也有陷阱,如何插亮火眼金睛識破一本正經(jīng)的胡說八道呢?我們需要掌握一些基本的統(tǒng)計(jì)學(xué)原理。

《簡單統(tǒng)計(jì)學(xué)》是美國統(tǒng)計(jì)學(xué)家加里·史密斯所寫。加里·史密斯是耶魯大學(xué)博士,曾在耶魯大學(xué)任教7年,他的課程因結(jié)合日常生活中的常見案例,深入淺出地分析數(shù)據(jù)而火爆日常。

《簡單統(tǒng)計(jì)學(xué)》本書的編寫風(fēng)格與其教學(xué)風(fēng)格相近,通篇基本由案例組成,沒有復(fù)雜的公式和高深的統(tǒng)計(jì)原理,既像聽故事也像在看偵探破案。作者巧妙地揭示生活中的各種數(shù)據(jù)騙局,并用簡單的統(tǒng)計(jì)學(xué)原理揭穿了其中的把戲,加深讀者對統(tǒng)計(jì)學(xué)原理的理解。《簡單統(tǒng)計(jì)學(xué)》一共有19章,前面18章各自針對生活種常見的統(tǒng)計(jì)謬論來介紹案例,然后講解出現(xiàn)這種謬論的原因、做法,每章結(jié)尾都有一個(gè)小結(jié),教你如何輕松識破一本正經(jīng)地胡說八道。第19章則是概括總結(jié),教你面對數(shù)據(jù)分析何時(shí)相信,何時(shí)懷疑?總結(jié)了一系列可能導(dǎo)致謬論的陷阱如:模式誘惑、混雜因素、自選擇偏差、幸存者偏差、圖像變形、邏輯錯(cuò)誤、聚集現(xiàn)象、均值回歸和平均定律等等。

這些陷阱基本可分為兩大類:一方面來源于數(shù)據(jù)自身,如自選擇偏差、幸存者偏差、隨機(jī)數(shù)據(jù)的聚集現(xiàn)象和均值回歸等。另一方面來源于研究人員或者讀者,如模式誘惑、圖像變形和平均定律等。

數(shù)據(jù)自身的特點(diǎn)可能導(dǎo)致統(tǒng)計(jì)謬論。如自選擇偏差是指做出不同選擇的人本身可能就是不同的。很多數(shù)據(jù)在進(jìn)入統(tǒng)計(jì)分析之前就有傾向性,比如對不同學(xué)歷學(xué)生畢業(yè)后的工資對比。我們常聽說大學(xué)畢業(yè)生的工資高于高中畢業(yè)生,工資差異似乎可以衡量上大學(xué)的財(cái)務(wù)回報(bào),實(shí)際上大學(xué)畢業(yè)生工資高可能因?yàn)樗麄儽旧砀斆?,更有抱?fù),而不僅限為學(xué)歷的不同。幸存者偏差則往往出現(xiàn)在回溯性研究者中,比如一家航空公司的滿意度調(diào)查中顯示84%的人更喜歡這家航空公司,這個(gè)測試是在這家公司一架航班上的乘客中開展的。那么選擇這家航空公司的旅行者當(dāng)然更喜歡這家公司,這沒什么好奇怪的。數(shù)據(jù)的聚集現(xiàn)象是指某種數(shù)據(jù)會巧合性地多次出現(xiàn),比如連續(xù)性地投中三分球就像你拋硬幣連續(xù)出現(xiàn)3次正面朝上,這無需過于驚奇進(jìn)而尋找解釋。均值回歸是指極端值向平均值靠攏并不是平庸化,這是由于表現(xiàn)相對于能力波動導(dǎo)致的。這些大多由于數(shù)據(jù)來源或者數(shù)據(jù)本質(zhì)屬性被人們過度關(guān)注或解釋而導(dǎo)致的一些謬誤。

另一方面的陷阱來自研究人員或者讀者。很多研究人員分析數(shù)據(jù)時(shí)沉迷于對模式、結(jié)論和統(tǒng)計(jì)顯著性的追求,進(jìn)而對數(shù)據(jù)進(jìn)行修剪、取舍,基于一些特定的數(shù)據(jù)來開展數(shù)據(jù)分析。用數(shù)據(jù)來編造理論,自然會證明這種理論和這些數(shù)據(jù)相符合,但這可能只是相關(guān)性或者是統(tǒng)計(jì)謬論。圖像變形是指改變橫縱數(shù)軸的起點(diǎn)數(shù)據(jù)或者間距,故意夸大或縮小數(shù)據(jù)起伏,達(dá)到視覺上的誤導(dǎo)作用。平均定律如人們認(rèn)為賭博多次成功后則會迎來失敗,或者多次失敗后必會成功,這是錯(cuò)誤的。就像人們?nèi)佑矌?,正面代表成功,背面代表失敗,哪怕連續(xù)5次扔硬幣是正面向上,但第6次正面向上的概率還是50%,并不會因前面的狀況而增加或者減少。

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析就是一種分析工具。如同一把刀,用得好能幫你撥開迷霧,披荊斬棘,發(fā)現(xiàn)研究現(xiàn)象的因果關(guān)系;用得不好可能為數(shù)據(jù)所累,用搜刮的數(shù)據(jù)編造理論自欺欺人,甚至欺騙大眾增加迷霧。

如何保持清醒避開陷阱無論對研究人員還是讀者都至關(guān)重要。面對數(shù)據(jù)分析后的結(jié)論,我們保持警惕,既看結(jié)論,也查數(shù)據(jù)。思考原始數(shù)據(jù)的清理搜刮是否合理,數(shù)據(jù)模式的建立是否得到理論的解釋,理論是否言之有理,能否通過新數(shù)據(jù)的檢驗(yàn)。正如書名所言,簡單統(tǒng)計(jì)學(xué)其原理大道至簡。實(shí)踐出真知,通過掌握基本原理,檢查數(shù)據(jù)分析的理論能否經(jīng)得起新數(shù)據(jù)的檢驗(yàn)就是很好的考量標(biāo)準(zhǔn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容