卡方檢驗(yàn)

卡方檢驗(yàn),統(tǒng)計(jì)學(xué)的方法,現(xiàn)在機(jī)器學(xué)習(xí)看變量的時(shí)候也會(huì)用到。

很多不知道的人,一聽(tīng)到這個(gè)名詞,會(huì)馬上聯(lián)想到,
???還要拿張卡來(lái)檢驗(yàn)嗎?

其實(shí)卡方檢驗(yàn)是英文Chi-Square Test 的諧音。在大數(shù)據(jù)運(yùn)營(yíng)場(chǎng)景中,通常用在某個(gè)變量(或特征)值是不是和應(yīng)變量有顯著關(guān)系。

我常聽(tīng)到運(yùn)營(yíng)和分析師這樣的對(duì)話,
分析師:“這個(gè)變量我做了卡方檢驗(yàn)了,不顯著,所以我沒(méi)有放進(jìn)模型。”

這時(shí)候,你要是仔細(xì)觀察運(yùn)營(yíng)經(jīng)理的話,他們很多人其實(shí)是不明白的,有些好學(xué)的會(huì)直接問(wèn)什么是卡方檢驗(yàn),有些要面子,會(huì)偷偷百度一下什么是卡方檢驗(yàn),但多數(shù)運(yùn)營(yíng)經(jīng)理就這么接受了分析師的建議。
畢竟運(yùn)營(yíng)經(jīng)理是以業(yè)務(wù)和結(jié)果為導(dǎo)向的,這些細(xì)節(jié)的東西,他們覺(jué)得也不用自己去糾結(jié)。

我寫(xiě)這篇的目的,是為了讓運(yùn)營(yíng)經(jīng)理能夠確實(shí)的知道卡方檢驗(yàn)是什么,不要害怕聽(tīng)到這些專有名詞,下次遇到這些情況知道如何和分析師互動(dòng),并且從業(yè)務(wù)層面上提出更有價(jià)值的變量建議。
而分析師的話,能夠讓他們?cè)诤推渌羌夹g(shù)部門人員溝通的時(shí)候,學(xué)習(xí)怎么說(shuō)些普通人能聽(tīng)的懂的話。

01 什么是卡方檢驗(yàn):
卡方檢驗(yàn)就是檢驗(yàn)兩個(gè)變量之間有沒(méi)有關(guān)系。
以運(yùn)營(yíng)為例:

  • 卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫?duì)線上買生鮮食品有沒(méi)有區(qū)別;
  • 不同城市級(jí)別的消費(fèi)者對(duì)買SUV車有沒(méi)有什么區(qū)別;

如果有顯著區(qū)別的話,我們會(huì)考慮把這些變量放到模型或者分析里去。

02 投硬幣:
那我們先從一個(gè)最簡(jiǎn)單的例子說(shuō)起。
1) 根據(jù)投硬幣觀察到的正面,反面次數(shù),判斷這個(gè)硬幣是均衡的還是不均衡。
現(xiàn)在有一個(gè)正常的硬幣,我給你投50次,你覺(jué)得會(huì)出現(xiàn)幾個(gè)正面,幾個(gè)反面?

按照你的經(jīng)驗(yàn)?zāi)銜?huì)這么思考,最好的情況肯定是25個(gè)正面,25個(gè)反面,但是肯定不可能這么正正好好的,嗯,差不多28個(gè)正面,22個(gè)反面吧;

23個(gè)正面,27個(gè)反面也可能的,
但是10個(gè)正面,40個(gè)反面肯定不可能的,除非我運(yùn)氣真的那么碰巧。

你上面的這個(gè)思維方式,就是拿已經(jīng)知道的結(jié)果(硬幣是均衡的,沒(méi)有人做過(guò)手腳),推測(cè)出會(huì)出現(xiàn)的不同現(xiàn)象的次數(shù)。

而卡方檢驗(yàn)是拿觀察到的現(xiàn)象(投正面或反面的次數(shù)或者頻數(shù)),來(lái)判斷這個(gè)結(jié)果(硬幣是不是均衡的)。

繼續(xù)上面這個(gè)例子,
如果我不知道這個(gè)硬幣是不是均衡的,我想用正面,反面的頻次來(lái)判斷,我投了50次,其中28個(gè)正面,22個(gè)反面。我怎么用卡方檢驗(yàn)來(lái)證明這個(gè)硬幣是均衡的還是不均衡的呢?

這里要引出卡方檢驗(yàn)的公式:


這個(gè)公式可以幫我們求出卡方檢驗(yàn)的值,我們用

其中,自由度我們可以求出來(lái),置信度的話,我們按照我們自己意愿挑選,一般我們會(huì)挑90%或者95%。

這三個(gè)數(shù)值計(jì)算方法如下:

我們拿到這3個(gè)信息,去查表,因?yàn)?.72小于查表得到的3.841,所以我們得出這個(gè)硬幣是均衡的結(jié)論。

這里還涉及到假設(shè)檢驗(yàn)中,拒絕H0還是不拒接H0,這篇文章就不詳細(xì)展開(kāi)了。

如果你們查表后,還是不知道是該大于的時(shí)候說(shuō)均衡,還是小于的時(shí)候說(shuō)均衡,那么你們可以想一下具體這個(gè)例子,
如果硬幣是均衡的話,你覺(jué)得卡方的值是越小越可能是均衡的,還是越大越可能是均衡的呢?

03 投篩子
接下來(lái),我們?cè)賮?lái)看一個(gè)稍微難一點(diǎn)的例子,投骰子。
有一個(gè)篩子,我不知道它是不是均衡的,于是我打算投36次看一下。

按照投硬幣的方式,我先要畫(huà)出一個(gè)表格,然后計(jì)算出3個(gè)數(shù)值,

帶著這3個(gè)值,我們?nèi)ゲ楸恚谑俏覀兊贸鲞@個(gè)現(xiàn)象不能判定他是個(gè)均衡的篩子。

現(xiàn)在你明白其實(shí)卡方檢驗(yàn)一點(diǎn)都不深?yuàn)W吧。

以后如果分析師說(shuō),這個(gè)變量不顯著,我把這個(gè)變量去掉了,
你就可以反問(wèn)他,那卡方值是多少?
你選了多大的置信度?

04 電商中消費(fèi)者的性別和購(gòu)買生鮮:
最后講個(gè)平時(shí)運(yùn)營(yíng)分析中的案例:

我們要觀察性別和在線上買不買生鮮食品有沒(méi)有關(guān)系,現(xiàn)實(shí)生活中,女性通常去菜市場(chǎng)買菜的比較多,那么在線上是不是也這樣。

我們得出觀察到數(shù)據(jù),并且形成表格后,我們需要計(jì)算理論的數(shù)據(jù),在上面的例子我們發(fā)現(xiàn),我們發(fā)現(xiàn)有66%的人不在線上買生鮮(599除以907),34%的人會(huì)在線上買。 那如果,男的有733個(gè)人,女的有174個(gè)人,根據(jù)這些比例,我們可以得出的理論值是什么呢?

根據(jù)理論和實(shí)際值,我們可以算出卡方值,自由度,并且結(jié)合我們定義的置信度,查表得到性別和線上買生鮮是顯著相關(guān)的。
所以我們?nèi)绻麓慰吹揭粋€(gè)女性來(lái)訪問(wèn)我們的網(wǎng)站,多投放一些廣告,說(shuō)不定會(huì)轉(zhuǎn)化哦。

看了這幾個(gè)例子,是不是覺(jué)得卡方檢驗(yàn)一點(diǎn)都不復(fù)雜,其實(shí)和我們生活這么貼近,我們平時(shí)的思維方式,其實(shí)就隱含著卡方檢驗(yàn)的道理。

轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/69888032

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容