原文作者:Pradeep Menon
原文鏈接:https://towardsdatascience.com/data-science-simplified-key-concepts-of-statistical-learning-45648049709e
譯者:TalkingData 張永超
昨天的文章中,我們討論了統(tǒng)計學(xué)習(xí)的關(guān)鍵概念——參數(shù)模型、訓(xùn)練與測試、方差與偏差等等,今天我們再來看一看機(jī)器學(xué)習(xí)的基石概念之一假設(shè)檢驗(yàn)

著名的物理學(xué)家愛德華·特勒曾經(jīng)引用過:
“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”
假設(shè)檢驗(yàn)的應(yīng)用在數(shù)據(jù)科學(xué)中占主導(dǎo)地位,它是簡化和結(jié)構(gòu)的必備之選。就像犯罪小說的故事一樣,基于數(shù)據(jù)的假設(shè)檢驗(yàn),將從一個新穎的建議引向一個有效的命題。
概念
假設(shè)是指用有限的證據(jù)作出的想法,它是進(jìn)一步調(diào)查分析的起點(diǎn)。該概念非常簡單,但是在實(shí)際應(yīng)用中很強(qiáng)大。在日常生活中,通常按照如下7個步驟進(jìn)行:
做出假設(shè);
初始狀態(tài)設(shè)定;
確定替代的問題;
設(shè)置驗(yàn)收標(biāo)準(zhǔn);
?進(jìn)行基于事實(shí)的測試;
評估結(jié)果。評估是否支持初始狀態(tài)?確定結(jié)果不是偶然的?
達(dá)到以下結(jié)論之一:拒絕原來的位置以支持替代位置或拒絕原始位置。

以一個故事來進(jìn)一步解釋假設(shè)檢驗(yàn)的概念?;魻栺R維克是冰島西部的一個小鎮(zhèn),這個小鎮(zhèn)有其獨(dú)特之處是,它被稱為巫術(shù)博物館。即使現(xiàn)在,那里也有人聲稱是巫師。伊西爾德和甘道夫就是這樣的人。
他們聲稱自己具有千里眼的超能力,能夠透視任何物體,于是一些研究人員想要驗(yàn)證他們的能力,讓他們玩一種叫做透視紙牌的游戲。
該游戲的規(guī)則如下:
伊西爾德和甘道夫隨機(jī)從四副撲克牌中選擇10張紙牌;
他們必須確認(rèn)每張紙牌屬于那副牌;
該測試每次重復(fù)10次。
在進(jìn)行此次測試驗(yàn)證之前,已經(jīng)對正常人進(jìn)行了測試,得到的結(jié)論是正常人能夠預(yù)測正確的平均次數(shù)在6次左右。這個就是本次假設(shè)檢驗(yàn)的基礎(chǔ),而本次假設(shè)檢驗(yàn)的目的是統(tǒng)計確定伊西爾德和甘道夫是否是巫師。
第一步:做出假設(shè)
不同種類的假設(shè)檢驗(yàn)需要做出不同的假設(shè)。而假設(shè)與數(shù)據(jù)的分布、采樣以及線性有關(guān)。一些常見的假設(shè)如下:
分布:?每種數(shù)據(jù)都會遵循特定的分布,需要掌握數(shù)據(jù)中的規(guī)律。許多自然發(fā)生的數(shù)據(jù)點(diǎn)如股票市場數(shù)據(jù)、人體重量和高度、在酒吧喝酒的人的薪水等等都近似正態(tài)分布。正態(tài)分布只是意味著很多觀測值都在中間位置,較少的觀察值大于或小于中間值。中間值也稱為中位數(shù)。
采樣:?假設(shè)為測試采樣的數(shù)據(jù)是隨機(jī)選擇的,沒有偏見。
對于上述透視紙牌游戲,以下假設(shè)是正確的:
在透視卡牌游戲中,所選紙牌的分布將是正態(tài)分布的。這是真的,因?yàn)檫@些紙牌是隨機(jī)選擇的。隨機(jī)選擇紙牌意味著將被挑選的十張紙牌中的每一張都具有被選擇用于測試的相同概率。
在該問題中,紙牌沒有偏見。
第二步:空假設(shè)
空假設(shè)是假設(shè)驗(yàn)證的初始情況,也就是當(dāng)下的狀態(tài),是拒絕或者失敗的立場,在整個假設(shè)驗(yàn)證的過程中處于需要驗(yàn)證和測試的位置。
對于上述紙牌游戲來說,空假設(shè)如下:
伊西爾德/甘道夫并沒有千里眼的能力。
第三步:備用假設(shè)
備用假設(shè)和空假設(shè)正好是相反的。如果統(tǒng)計學(xué)獲得的證據(jù)正好表明備選假設(shè)是有效的,那么空假設(shè)就是被拒絕的。
對于上述紙牌游戲,備用假設(shè)如下:
伊西爾德/甘道夫具有千里眼的能力。
第四步:設(shè)置驗(yàn)收標(biāo)準(zhǔn)
空假設(shè)和備用假設(shè)定義好之后,初始位置為空假設(shè)?,F(xiàn)在需要設(shè)定一個閾值,我們知道一個普通人,即不是巫師的人會在10次中得到正確的六次。如果伊西爾德和甘道夫能夠在一次測試中預(yù)測超過六張正確的紙牌,那么有更多的證據(jù)表明他們確實(shí)可能是巫師。有一種度量評估方法叫做t-統(tǒng)計,t-統(tǒng)計估計值遠(yuǎn)離備選假設(shè)越多越合理。
假設(shè)檢驗(yàn)結(jié)果可能會出錯。有四種可能的情況:
測試發(fā)現(xiàn),伊西爾德和甘道夫具有千里眼能力,他們是名巫師;
測試發(fā)現(xiàn),伊西爾德和甘道夫沒有千里眼能力,他們不是巫師;
測試發(fā)現(xiàn),伊西爾德和甘道夫具有千里眼能力,他們不是巫師;
測試發(fā)現(xiàn),伊西爾德和甘道夫沒有千里眼能力,他們是名巫師。
測試的結(jié)果可能顯示結(jié)論1和結(jié)論2是正確的,結(jié)論3和結(jié)論4是無效的。
如果結(jié)論3屬實(shí),這樣會導(dǎo)致空假設(shè)失效,屬于一種誤報,此類情況也稱為Ⅰ型錯誤;
如果結(jié)論3無效,這樣會是的空假設(shè)屬實(shí),屬于一種錯誤的否定,此類情況稱為Ⅱ型錯誤。
類型所有的統(tǒng)計驗(yàn)證,假設(shè)驗(yàn)證也必須處理不確定性,也就是必須處理概率,而概率并沒有絕對的。
對于概率來說,需要設(shè)定概率層級,以便確定發(fā)生I型錯誤的機(jī)會,這個水平被稱為顯著性水平,使用α表示它。 α越低意味著測試越嚴(yán)格。相對較高的α意味著測試不是那么嚴(yán)格。 α的值是根據(jù)假設(shè)檢驗(yàn)的性質(zhì)設(shè)定的。典型值為0.001,0.05或0.1。
如果所觀察到的結(jié)果僅僅是偶然的呢?如果這只是一個巧合呢?如果他們在測試進(jìn)行的那一天剛好幸運(yùn)呢?這種不確定性需要得到度量,假設(shè)檢驗(yàn)有一個衡量這個不確定性的指標(biāo),p值是該度量。
p值表示為概率。這意味著它的值在0和1之間。p值是在假設(shè)為真的假設(shè)下偶然觀察到的t統(tǒng)計量的概率。
對于透視紙牌游戲,決定如果伊西爾德可以正確猜測超過8張牌,那么備選假設(shè)是合理的。他可能確實(shí)是一位千里眼。 t統(tǒng)計量是8。
作為一名千里眼人是沒有生命危險的。沒有人處于危險之中。顯著性水平設(shè)定為0.05。 α是0.05。
第五步:進(jìn)行測試
通過重復(fù)十次的測試和驗(yàn)證,得到了一些結(jié)果。假設(shè)統(tǒng)計引擎最終得到如下的結(jié)果:
伊西爾德:
t-統(tǒng)計:8
P值:0.1
甘道夫:
t-統(tǒng)計:9
P值:0.01
第六步:評估結(jié)果
概率(p值)和顯著性水平之間的比較產(chǎn)生以下結(jié)果:
對于伊西爾德來說:
t統(tǒng)計量為8,這意味著,他平均預(yù)測了八張牌,比正常人預(yù)測的要高。
p值是0.1,這意味著觀察到的t統(tǒng)計數(shù)據(jù)歸因于偶然的概率是10%。 p值很高。
設(shè)定的顯著性水平(α)是0.05,轉(zhuǎn)化為5%。
p值大于設(shè)定的顯著性水平,即10%> 5%。
第七步:得出結(jié)論
測試已結(jié)束,指標(biāo)是已知的。誰是真正的巫師呢?
對于伊西爾德:p值大于設(shè)定的顯著性水平(10%> 5%)。盡管平均而言,他已經(jīng)預(yù)測了八張牌;從統(tǒng)計上,結(jié)論如下:
伊西爾德的結(jié)論:沒有實(shí)質(zhì)證據(jù)反對空假設(shè),空假設(shè)未被拒絕。
對于甘道夫:平均而言,他已經(jīng)預(yù)測了九張牌。,p值低于設(shè)定的顯著性水平(1%<5%);從統(tǒng)計上,結(jié)論如下:
甘道夫的結(jié)論:有很好的證據(jù)反對空假設(shè),空假設(shè)被拒絕,備選假設(shè)被接受。
最終,伊西爾德被否認(rèn),甘道夫很高興。然而,伊西爾德也并不那個傷心,測試并沒有確定他不是一位具有千里眼的巫師,空假設(shè)沒有被驗(yàn)證是錯誤的,也沒有證據(jù)表明備選假設(shè)是不成立的,這意味著沒有足夠的證據(jù)來確定空假設(shè)是無效的,在現(xiàn)實(shí)中,這樣的情況普遍存在。
結(jié)語
假設(shè)檢驗(yàn)是機(jī)器學(xué)習(xí)的基石概念之一,很多評估方法使用假設(shè)檢驗(yàn)來評估模型的魯棒性。在我們?yōu)g覽本系列時,我們將深入探索其構(gòu)造。