辛普森悖論
對于存在相關(guān)關(guān)系的兩組因子A、B,可能存在一種現(xiàn)象,A、B為正相關(guān),而將A分組后的A1和A2分別與B成反相關(guān),這種現(xiàn)象即為辛普森悖論。
簡言之,就是分組和數(shù)據(jù)整體討論相關(guān)性時(shí)不同。
一個(gè)構(gòu)想的例子:
男女兩人對比兩家家餐廳推薦率時(shí),發(fā)生分歧。一人看的是兩家所有就餐人員的推薦率,選擇其中一家,一個(gè)人看中的是和根據(jù)篩選不同性別的推薦率來看,選擇另外一家(不同性別下,均推薦率高)。
數(shù)據(jù)構(gòu)成:
性別????????M餐廳????????????????????N餐廳
男????????????50/150=30% ????????180/360=50%
女????????????200/250=80%????????36/40=90%
總????????????250/400=62.5%? ? ?216/400=54%
①總體來看 ?推薦M餐廳;②分性別來看,推薦N餐廳
那為什么分性別來看推薦率高的反而總體看推薦率低:
N餐廳的女性推薦率高達(dá)90%,但它的樣本只有40個(gè),只占總評論人數(shù)的10%;而M餐廳的女性推薦率雖然只有80%,但女性評論者有250個(gè),這顯然會(huì)大幅拉高餐廳的總體好評率。
其實(shí)也就是看分組后的主要群體。在N餐廳的男性360,M餐廳女性250占比較大。那么這些主要群體的評論高低將影響評論的方向。所以我們可以看到總體上,M餐廳更高,這個(gè)和M餐廳的主要分組群體(女性)推薦率80%高于N餐廳主要分組群體(男性)推薦率50%一致。
簡單來說就是分組后其中的主要群組的影響權(quán)重更大。反過來就是樣本相對較小的群組雖然可能在數(shù)據(jù)指標(biāo)上表現(xiàn)更高,但是此時(shí)對于總體指標(biāo)表現(xiàn)影響較小,從而形成了辛普森悖論。
那么是不是說,一味考慮大群組的指標(biāo)表現(xiàn)就可以了呢?在上面的假想例子中是可以說的通的,我們吃飯選擇餐廳,考慮的是整體大眾化的口味,來讓做出選擇的兩人都能滿意最后的選擇,那么也就是可以選擇不考慮性別因素。而是考慮整體,也可以說是考慮整體中大分組群體的“眾數(shù)”表現(xiàn)即可。但是,現(xiàn)實(shí)生活中還有就是有些情景下我們需要具體對待。
下面看一個(gè)典型的例子:
兩種治療腎結(jié)石的方案取舍,兩種方案的治愈率如下:
結(jié)石大小????????????方案x? ? ? ? ? ? ? ? ? ? ?方案y
小結(jié)石????????????????81/87=93%? ? ? ? ? ?234/270=87%
大結(jié)石????????????????192/263=73%? ? ? ?55/80=69%
總體????????????????????273/350=78%? ? ? ?289/350=83%
一樣的,分開看,選x;合并看,選y
方案x中的大結(jié)石群體和方案y中小結(jié)石群體為主要群體,所以它們的比率高低基本上影響了整體方案的治愈率高低。
這里簡單插入一下實(shí)際操作的場景:大結(jié)石肯定是比小結(jié)石嚴(yán)重,這個(gè)時(shí)候醫(yī)生處理的時(shí)候x方案更具有侵入性(醫(yī)學(xué)上帶有一定創(chuàng)傷性的治療措施),結(jié)石小就會(huì)更傾向選擇保守方案y。大概意思可以理解為,重病猛藥,輕病帶著治。
這種場景下,就是說,治愈率和方案xy有關(guān),又和結(jié)石大小有關(guān);
而選擇方案xy本身在實(shí)際操作中是受到了結(jié)石大小影響的。(這里感覺和辛普森悖論提出的人種膚色死刑率的案例有相似性,感興趣的可以去了解下)
那么其實(shí)看這個(gè)方案選擇問題的,其實(shí)綜合來看總體情況是不切合實(shí)際的,是需要分開大小結(jié)石來看的,那么分開看的的角度下,最終答案就是選x。
這么看來,聚合數(shù)據(jù)看很有用,但是有些情況下,分組看,也許更貼近真相。
另外還有運(yùn)動(dòng)和病情惡化的例子,50歲分界線兩組數(shù)據(jù),運(yùn)動(dòng)多,病情惡化少;合并一起,運(yùn)動(dòng)多,惡化多;實(shí)際上是合在一起,年齡越大,惡化越多,運(yùn)動(dòng)成了非唯一變量。



再看最后一個(gè)例子:
杰拉爾德·福特?fù)?dān)任美國總統(tǒng)期間的稅收、稅率變化,各收入群體稅率下降(tax/income),社會(huì)整體稅率卻提高了。因?yàn)榭傊嫡急容^低的非高收入群體的稅率降低的多,總值占比較高的高收入群體降低的少,所以稅率變化主要受高收入群體的影響,整體稅收水平的漲幅高于收入總值,使得稅率不降反增。

但是從理解數(shù)據(jù)需求角度來說,個(gè)人仍更關(guān)注個(gè)人自己的稅率,是下降的,工資水平是增長的,這對于個(gè)人來說才是比較重要的信息。
總結(jié)下來:
①一般都是遭遇比率類的問題;
②辛普森悖論和樣本大小存在一定關(guān)系;
③辛普森悖論其實(shí)受“眾數(shù)”影響較大,眾數(shù)的比率指標(biāo)往往反映了整體的比率指標(biāo)情況,那么在分析決策時(shí)候,我們要選擇的就是,是否要信賴分組中“眾數(shù)群體”的表現(xiàn),作為決策指引;
④辛普森悖論跟混淆變量有關(guān),需要控制變量,找到實(shí)際的相關(guān)因素,拆開表面數(shù)據(jù);
⑤方法上可以多用散點(diǎn)圖來觀察問題。