卡方檢驗(yàn),統(tǒng)計(jì)學(xué)的方法,現(xiàn)在機(jī)器學(xué)習(xí)看變量的時(shí)候也會(huì)用到。
很多不知道的人,一聽(tīng)到這個(gè)名詞,會(huì)馬上聯(lián)想到,
???還要拿張卡來(lái)檢驗(yàn)嗎?
其實(shí)卡方檢驗(yàn)是英文Chi-Square Test 的諧音。在大數(shù)據(jù)運(yùn)營(yíng)場(chǎng)景中,通常用在某個(gè)變量(或特征)值是不是和應(yīng)變量有顯著關(guān)系。
我常聽(tīng)到運(yùn)營(yíng)和分析師這樣的對(duì)話,
分析師:“這個(gè)變量我做了卡方檢驗(yàn)了,不顯著,所以我沒(méi)有放進(jìn)模型。”
這時(shí)候,你要是仔細(xì)觀察運(yùn)營(yíng)經(jīng)理的話,他們很多人其實(shí)是不明白的,有些好學(xué)的會(huì)直接問(wèn)什么是卡方檢驗(yàn),有些要面子,會(huì)偷偷百度一下什么是卡方檢驗(yàn),但多數(shù)運(yùn)營(yíng)經(jīng)理就這么接受了分析師的建議。
畢竟運(yùn)營(yíng)經(jīng)理是以業(yè)務(wù)和結(jié)果為導(dǎo)向的,這些細(xì)節(jié)的東西,他們覺(jué)得也不用自己去糾結(jié)。
我寫(xiě)這篇的目的,是為了讓運(yùn)營(yíng)經(jīng)理能夠確實(shí)的知道卡方檢驗(yàn)是什么,不要害怕聽(tīng)到這些專有名詞,下次遇到這些情況知道如何和分析師互動(dòng),并且從業(yè)務(wù)層面上提出更有價(jià)值的變量建議。
而分析師的話,能夠讓他們?cè)诤推渌羌夹g(shù)部門人員溝通的時(shí)候,學(xué)習(xí)怎么說(shuō)些普通人能聽(tīng)的懂的話。
01 什么是卡方檢驗(yàn):
卡方檢驗(yàn)就是檢驗(yàn)兩個(gè)變量之間有沒(méi)有關(guān)系。
以運(yùn)營(yíng)為例:
- 卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫?duì)線上買生鮮食品有沒(méi)有區(qū)別;
- 不同城市級(jí)別的消費(fèi)者對(duì)買SUV車有沒(méi)有什么區(qū)別;
如果有顯著區(qū)別的話,我們會(huì)考慮把這些變量放到模型或者分析里去。
02 投硬幣:
那我們先從一個(gè)最簡(jiǎn)單的例子說(shuō)起。
1) 根據(jù)投硬幣觀察到的正面,反面次數(shù),判斷這個(gè)硬幣是均衡的還是不均衡。
現(xiàn)在有一個(gè)正常的硬幣,我給你投50次,你覺(jué)得會(huì)出現(xiàn)幾個(gè)正面,幾個(gè)反面?
按照你的經(jīng)驗(yàn)?zāi)銜?huì)這么思考,最好的情況肯定是25個(gè)正面,25個(gè)反面,但是肯定不可能這么正正好好的,嗯,差不多28個(gè)正面,22個(gè)反面吧;
23個(gè)正面,27個(gè)反面也可能的,
但是10個(gè)正面,40個(gè)反面肯定不可能的,除非我運(yùn)氣真的那么碰巧。
你上面的這個(gè)思維方式,就是拿已經(jīng)知道的結(jié)果(硬幣是均衡的,沒(méi)有人做過(guò)手腳),推測(cè)出會(huì)出現(xiàn)的不同現(xiàn)象的次數(shù)。
而卡方檢驗(yàn)是拿觀察到的現(xiàn)象(投正面或反面的次數(shù)或者頻數(shù)),來(lái)判斷這個(gè)結(jié)果(硬幣是不是均衡的)。
繼續(xù)上面這個(gè)例子,
如果我不知道這個(gè)硬幣是不是均衡的,我想用正面,反面的頻次來(lái)判斷,我投了50次,其中28個(gè)正面,22個(gè)反面。我怎么用卡方檢驗(yàn)來(lái)證明這個(gè)硬幣是均衡的還是不均衡的呢?
這里要引出卡方檢驗(yàn)的公式:

這個(gè)公式可以幫我們求出卡方檢驗(yàn)的值,我們用
- 1 這個(gè)公式求得的值
- 2 自由度(degree of freedom,不熟悉的可以去看我在簡(jiǎn)書(shū)的用可視化思維解讀統(tǒng)計(jì)自由度)
- 3 置信度
其中,自由度我們可以求出來(lái),置信度的話,我們按照我們自己意愿挑選,一般我們會(huì)挑90%或者95%。
這三個(gè)數(shù)值計(jì)算方法如下:

我們拿到這3個(gè)信息,去查表,因?yàn)?.72小于查表得到的3.841,所以我們得出這個(gè)硬幣是均衡的結(jié)論。

這里還涉及到假設(shè)檢驗(yàn)中,拒絕H0還是不拒接H0,這篇文章就不詳細(xì)展開(kāi)了。
如果你們查表后,還是不知道是該大于的時(shí)候說(shuō)均衡,還是小于的時(shí)候說(shuō)均衡,那么你們可以想一下具體這個(gè)例子,
如果硬幣是均衡的話,你覺(jué)得卡方的值是越小越可能是均衡的,還是越大越可能是均衡的呢?
03 投篩子
接下來(lái),我們?cè)賮?lái)看一個(gè)稍微難一點(diǎn)的例子,投骰子。
有一個(gè)篩子,我不知道它是不是均衡的,于是我打算投36次看一下。

按照投硬幣的方式,我先要畫(huà)出一個(gè)表格,然后計(jì)算出3個(gè)數(shù)值,

帶著這3個(gè)值,我們?nèi)ゲ楸恚谑俏覀兊贸鲞@個(gè)現(xiàn)象不能判定他是個(gè)均衡的篩子。

現(xiàn)在你明白其實(shí)卡方檢驗(yàn)一點(diǎn)都不深?yuàn)W吧。
以后如果分析師說(shuō),這個(gè)變量不顯著,我把這個(gè)變量去掉了,
你就可以反問(wèn)他,那卡方值是多少?
你選了多大的置信度?
04 電商中消費(fèi)者的性別和購(gòu)買生鮮:
最后講個(gè)平時(shí)運(yùn)營(yíng)分析中的案例:
我們要觀察性別和在線上買不買生鮮食品有沒(méi)有關(guān)系,現(xiàn)實(shí)生活中,女性通常去菜市場(chǎng)買菜的比較多,那么在線上是不是也這樣。

我們得出觀察到數(shù)據(jù),并且形成表格后,我們需要計(jì)算理論的數(shù)據(jù),在上面的例子我們發(fā)現(xiàn),我們發(fā)現(xiàn)有66%的人不在線上買生鮮(599除以907),34%的人會(huì)在線上買。 那如果,男的有733個(gè)人,女的有174個(gè)人,根據(jù)這些比例,我們可以得出的理論值是什么呢?


根據(jù)理論和實(shí)際值,我們可以算出卡方值,自由度,并且結(jié)合我們定義的置信度,查表得到性別和線上買生鮮是顯著相關(guān)的。
所以我們?nèi)绻麓慰吹揭粋€(gè)女性來(lái)訪問(wèn)我們的網(wǎng)站,多投放一些廣告,說(shuō)不定會(huì)轉(zhuǎn)化哦。
看了這幾個(gè)例子,是不是覺(jué)得卡方檢驗(yàn)一點(diǎn)都不復(fù)雜,其實(shí)和我們生活這么貼近,我們平時(shí)的思維方式,其實(shí)就隱含著卡方檢驗(yàn)的道理。
轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/69888032