AB實驗和假設(shè)檢驗——面試總結(jié)

?? ? ? ?發(fā)現(xiàn)這篇文章字數(shù)破3K了……作為一枚新時代的懶惰社畜,白天工作不停擼代碼,晚上回家繼續(xù)碼字真的……有點累。

? ? ? ?寫下這個標題的時候,我有點心驚膽戰(zhàn)。作為一個統(tǒng)計學學渣,想了很久覺得實在不好意思班門弄斧大肆介紹假設(shè)檢驗的原理,畢竟在關(guān)注我的人里不乏統(tǒng)計學大佬。既然是介紹面試的經(jīng)驗,我準備在文章里,結(jié)合自己面試過程中遇到的一些問題,概括假設(shè)檢驗的基本概念以及如何將其運用在工作的AB實驗中。對假設(shè)檢驗的詳細論述感興趣的同學,建議自己琢磨安德森的《商務(wù)經(jīng)濟統(tǒng)計》(后臺回復“數(shù)據(jù)”即可領(lǐng)取電子書)。

? ? ? AB實驗是數(shù)據(jù)分析、產(chǎn)品運營、算法開發(fā)在工作中都時常接觸到的工作。按鈕顏色、廣告算法、標簽排序,這些互聯(lián)網(wǎng)產(chǎn)品里常見的功能與展示都是在一次次AB實驗中得到優(yōu)化。

? ? ? 在實習中,并不是每一個實習生都能接觸到AB實驗,這也讓很多沒有相關(guān)經(jīng)歷的人誤認為AB實驗是一項高大上的工作任務(wù)。但其實——

? ? ? 許多公司搭建了可(sha)視(gua)化的AB實驗平臺,業(yè)務(wù)、運營以及產(chǎn)品都一眼看出AB實驗的結(jié)果……不過,由于企業(yè)搭建的AB實驗平臺在權(quán)限、監(jiān)控上有諸多限制,加上很多Leader出于實習生實習期短、留用概率小的顧慮,大部分實習生都不會參與完整的AB項目。

? ? ? ? 可是——

? ? ? ?盡管在實習中沒有接觸過AB實驗,在簡歷中也沒提到絲毫,這不代表在面試中就能逃過一劫……

? ? ? ? 我在實習中就沒有接觸過AB實驗,但面試官仍然對我拋出來的項目分析過程饒有興趣,也會問我有沒有使用AB實驗作出優(yōu)化。得益于面試前全方位的準備,我的面試回(tao)答(lu)往往是:

? ? ? ? 面試官:“你有沒有想過用AB實驗來優(yōu)化項目?”

? ? ? ? 瑟瑟發(fā)抖的我:“不好意思,我在做項目的時候想過用AB實驗,但由于XXXX的原因無法落實。不過我自己構(gòu)思了比較完整的實驗思路……(此處省略若干字),如果有機會讓我實施AB實驗,我相信能夠讓項目表現(xiàn)更好?!?/p>

? ? ? ?其實這是一個很加分的回答。在面試官看來,眼前的候選人雖然沒有參與AB實驗,但自己琢磨思考了項目優(yōu)化方案,應(yīng)該有不錯的自我學習和自我驅(qū)動能力? (給自己鼓掌撒花ing)。

? ? ? 引申一步,當你對自己的項目足夠熟悉時,哪怕沒有機會開展AB實驗,仍然可以和我一樣,在回答項目相關(guān)問題時,代入自己對AB實驗的思考。

? ? ?好了,言歸正傳,進入今天的正題。

01?我們先介紹統(tǒng)計檢驗

? ? ? ?在統(tǒng)計學中,想要證明一個命題是正確的,只能通過證明其否命題是錯誤的來達到目的。假設(shè)檢驗是用統(tǒng)計數(shù)據(jù)來判斷命題真?zhèn)蔚姆绞?。我們常常會假設(shè)兩個命題:

???? ? H0:備受質(zhì)疑的命題

? ? ? ?H1:有待驗證的問題

? ? ?那如何來證明H0和H1孰對孰錯呢?這時候我們需要用到P值。

? ? ?P值是什么?P值就是在H0假設(shè)成立的情況下,得到樣本觀察結(jié)果或更極端的觀察結(jié)果出現(xiàn)的概率。

? ? ?這句話好繞口,我們可以簡單的理解成P代表了對H0命題的支持程度。所以P值越小,H0命題正確的概率就越小,H1命題正確的概率越大。我們有常常會指定顯著性水平α=0.05,當P<α時,H0命題成立的概率<0.05,這是一個受到統(tǒng)計學支持的假命題。

? ? ?在學習統(tǒng)計學時,我們接觸了一大堆顯著性水平,顯著區(qū)間的概念;在考完統(tǒng)計學后,統(tǒng)統(tǒng)還給了大學老師……如果是面試數(shù)據(jù)分析相關(guān)的崗位,強烈建議復習一下,再總結(jié)成方便自己記憶的文字,存入面試文檔(插播一句,后臺好多人私信我面試文檔里準備了哪些內(nèi)容……按當前進度,一只偽裝加班狗表示寫到這一塊預計應(yīng)該要4月了吧emmmm)。

? ? ?若是有面試官問我:“置信區(qū)間和置信度你了解嗎?”

? ? ?根據(jù)準備在面試文檔中的內(nèi)容,我能夠脫口而出:“在假設(shè)檢驗的過程中,我們往往采用樣本數(shù)據(jù)特征來估計整體的數(shù)據(jù)特征。在中心極限定理里,我們知道從總體中進行N次樣本抽取,N次樣本的均值會圍繞總體均值上下波動。因此,置信區(qū)間就是為總體的均值提供了一個可波動的范圍,置信區(qū)間與置信度是相對應(yīng)的。例如,在95%的置信度下,置信區(qū)間為【a,b】,也就是說,抽取100次樣本,其中有95次樣本的均值能夠落在【a,b】范圍內(nèi)?!?/p>

? ? ?可惜我做了充分的準備,并沒有面試官問我這個問題(哭)

? ? ? ? 也有人問,面試中面試官會以什么形式來問假設(shè)檢驗的知識點呢?舉一個栗子?:

? ? ?面試VIVO的時候面試官隨口提問:“你會怎么證明中醫(yī)的有效性?”

? ? ?我當時的回答是:

? ? ?“我會用假設(shè)檢驗來做證明。

? ? ?第一步,提出兩個命題。H0命題是中醫(yī)無效;H1命題是中醫(yī)有效。在這里,H0命題是我希望被推翻的命題,而H1命題是我希望被證實的命題。

? ? ?第二步,隨機選擇兩組生理特征、疾病狀況一致的人。一組人不給予治療;另一組人給予中藥治療,持續(xù)觀測兩撥人生理狀況。

? ? ?第三步,對兩組人的生理數(shù)據(jù)進行獨立樣本t檢驗,觀測統(tǒng)計結(jié)果P值。

? ? ?第四步:設(shè)定顯著性水平α=0.05,如果統(tǒng)計結(jié)果P≤0.05,則推翻了H0假設(shè),證明在該顯著性水平下,中醫(yī)是有效的。”

? ? 所以我們簡化一下,回答假設(shè)檢驗相關(guān)題目的時候,遵循“提出命題-選擇實驗對象-檢驗-輸出結(jié)論”的流程即可。只是有一點,建議多使用“第一第二第三”、“首先其次最后”這些次序詞,用以展示相對流暢的思考邏輯。

? ? ? 不知道我講清楚了沒有……如果沒有,建議結(jié)合《商務(wù)經(jīng)濟統(tǒng)計》再繼續(xù)理解幾遍,自我感覺以上內(nèi)容應(yīng)該可以應(yīng)付絕大多數(shù)面試過程中的假設(shè)檢驗問題。

? ? ?好了……不管了,我要強行進入第二個話題了……

02?工作中的AB實驗是如何開展的?

? ? ? 再舉一個簡單的栗子。過去在對首頁產(chǎn)品進行排序時,往往是運營人員結(jié)合自己工作經(jīng)驗進行人工排序,現(xiàn)在算法小哥更新了產(chǎn)品排序的邏輯,希望通過AB實驗證明自己的算法優(yōu)于運營人工推薦,提高轉(zhuǎn)化效果。

? ? ? 算法小哥和開發(fā)溝通好上線AB實驗,用轉(zhuǎn)化率(CR)來評估不同排序方式的效果,并設(shè)定顯著性水平α=0.05。在這場AB實驗中,用到的兩個假設(shè)分別是:

? ? ?H0:運營的人工排序效果好(備受質(zhì)疑、希望被推翻的命題)

? ? ?H1:算法的推薦算法效果好(有待驗證,希望被證實的命題)

? ? ?在AB平臺觀察今天的實驗效果,數(shù)據(jù)結(jié)果顯示P=0.003,可以理解成數(shù)據(jù)統(tǒng)計結(jié)果對H0的支持力度只有0.003,小于顯著性水平0.05,這時候H1命題成立,相比運營的手工排序,算法工程師的推薦算法取得了更好的效果。

? ? ?那在這個實驗里,有什么要注意的點嗎?

? ? ——嗯,AB實驗有很多需要注意的問題。

?(1)AB組是否真的只有一個變量

? ? ? 這場AB實驗的變量是產(chǎn)品排序的邏輯,但大家都想開展AB實驗,在首頁上同期開展的AB實驗有幾十個,UI想測試篩選框的顏色、產(chǎn)品想測試標簽的文案……。這種背景下,我們AB實驗里被劃分為A群體和B群體的用戶往往同時參與了N多實驗,不能絕對保證變量的唯一性。一般而言認為流量足夠大,其AB實驗和我們觀測的AB實驗沒有直接交集,可以忽略其影響。

(2)新策略是否真的上線了

? ? ? 因為研發(fā)每天都有很多AB實驗,而且AB實驗平臺出錯也是常有的事情。所以我們要在別人告訴我們AB實驗上線了以后,自己驗證實驗策略是否真的上線了。

(3)在實驗前確定評估指標

? ? ? 我們的實驗評估指標是CR轉(zhuǎn)化率。這一點在實驗上線前就要溝通好。

(4)多觀察幾天數(shù)據(jù)

? ? ?很多AB實驗上線后前幾天數(shù)據(jù)表現(xiàn)是不穩(wěn)定的,最好持續(xù)觀察半個月再給出結(jié)論。

(5)存檔AB測試的結(jié)果

? ? ? 對于數(shù)據(jù)分析師來說,每一個項目、每一個分析都需要做復盤和存檔。比如AB實驗項目,可以用一個標準化的模板來記錄測試內(nèi)容,為什么測試,測試對接人,測試效果等等,在年終的時候可以更好的匯報和復盤。

? ? ? 在大半年的工作中,終于有機會接觸到諸多的AB實驗,慢慢感知到各種AB實驗原來殊途同歸。但不可置否,它仍然是互聯(lián)網(wǎng)產(chǎn)品迭代的利器,仍然是分析師證明自身價值的手段之一。想來這也是為什么諸多的面試官喜歡在面試中詢問AB實驗、假設(shè)檢驗的原因。

? ? ? ——如果將來我成為了面試官,我也會這么問

? ? ? ——對了,攜程的春招內(nèi)推暫時結(jié)束了,后臺私信我就不一一回復了……如果7月我還在,歡迎大家繼續(xù)找我內(nèi)推……

近一年的工作中也攢下了不少的經(jīng)驗,準備在公眾號慢慢整理數(shù)據(jù)分析方向校招的知識點和準備方式,目前想好的內(nèi)容主要是:

【1】費米估算問題(已完成)

【2】業(yè)務(wù)場景題(已完成)

【3】AB實驗和假設(shè)檢驗(已完成)

【4】應(yīng)屆生-數(shù)據(jù)分析方向自我介紹怎么準備(已完成)

【5】面試常見的SQL語法

【6】不懂算法但害怕面試中問到怎么辦

【7】如何在面試中展示數(shù)據(jù)分析報告或者項目

【8】我的自我剖析文檔有什么內(nèi)容

………………

關(guān)注公眾號回復“數(shù)據(jù)”即可收到一波我整理的pdf電子書,包括

1.精益數(shù)據(jù)分析

2.增長黑客

3.數(shù)據(jù)化管理

4.統(tǒng)計數(shù)字會撒謊

5.growing io出品的互聯(lián)網(wǎng)第一本數(shù)據(jù)分析手冊

等等

想要書或者想跟進的可以關(guān)注我~平時也會更新一些工作中對數(shù)據(jù)分析、數(shù)據(jù)產(chǎn)品、數(shù)據(jù)可視化的思考,一起交流啦~~~

微信公眾號:阿貍和小兔

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容