01 寫(xiě)在前面
數(shù)據(jù)分析師的必備技能棧里,除了熟悉業(yè)務(wù)、掌握業(yè)務(wù)分析思維和工具外,還有一個(gè)特別重要的知識(shí)點(diǎn),就是統(tǒng)計(jì)學(xué),無(wú)論在簡(jiǎn)歷的技能描述中還是實(shí)際的面試過(guò)程中,統(tǒng)計(jì)學(xué)都是必備的基礎(chǔ)知識(shí)。
為什么對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)統(tǒng)計(jì)學(xué)那么重要?其實(shí)答案顯而易見(jiàn),數(shù)據(jù)分析的價(jià)值就是通過(guò)數(shù)據(jù)去洞察業(yè)務(wù)背后的信息,避免之前的“一拍腦袋決定,二拍胸脯保證,三拍屁股走人”的主觀誤判,一切用數(shù)據(jù)說(shuō)話!數(shù)據(jù)怎么能說(shuō)話呢,算出一個(gè)數(shù)據(jù),怎么知道這個(gè)數(shù)據(jù)是好還是壞?有多好有多壞??jī)山M數(shù)據(jù)呈現(xiàn)在你面前,怎么判斷這兩組數(shù)據(jù)是否有明顯差異?要回答這些問(wèn)題,就必須要用到統(tǒng)計(jì)學(xué)知識(shí),而不是相信自己的眼睛,因?yàn)檠劬τ袝r(shí)候也會(huì)說(shuō)謊,你看到的“好”不一定是好,你看到的“沒(méi)有差異”不代表沒(méi)有差異。
但是很多剛?cè)腴T(mén)的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí)時(shí)都很頭疼(也包括我哈哈哈),因?yàn)榻y(tǒng)計(jì)學(xué)的書(shū)籍里都是寫(xiě)晦澀難懂的公式,真不是一般人能看懂的。其實(shí),對(duì)于大部分?jǐn)?shù)據(jù)分析師來(lái)說(shuō),我們并不需要掌握的那么全面和深入,我們只需要掌握部分知識(shí)點(diǎn),理論看不懂,但是知道在什么場(chǎng)景下用就行,用起來(lái)你才會(huì)慢慢地搞懂!
所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí),這里整理了數(shù)據(jù)分析工作中最常見(jiàn)的一些統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),盡量用簡(jiǎn)單白話的形式去解釋,這樣無(wú)論是在面試中還是以后的工作中,都能把統(tǒng)計(jì)學(xué)的知識(shí)用起來(lái)!

02 數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)
Q1、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?
講顯著性水平α我們就得提到前面文章中提到的第一類錯(cuò)誤和第二類錯(cuò)誤,可以翻看系列文章:【數(shù)分面試寶典】數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)(一)
我們還是舉之前談戀愛(ài)的栗子,面前有一個(gè)男生,我們有2個(gè)假設(shè):
H0:一個(gè)真心愛(ài)你的男生
H1:一個(gè)不是真心愛(ài)你的男生
如果H0實(shí)際上成立,而你憑經(jīng)驗(yàn)拒絕了H0,也就是說(shuō),你拒絕了一個(gè)你認(rèn)為不愛(ài)你而實(shí)際上真心愛(ài)你的男生,那么你就犯了第一類“棄真”錯(cuò)誤,也稱為α風(fēng)險(xiǎn),錯(cuò)殺了好人;
如果H0實(shí)際上不成立,而你接受了H0,同樣的道理,你接受了一個(gè)你感覺(jué)愛(ài)你而實(shí)際上并不愛(ài)你的男生,那么你就犯了第二類“納偽”錯(cuò)誤,也稱為β風(fēng)險(xiǎn),放走了壞人。
第一類錯(cuò)誤和第二類錯(cuò)誤這兩個(gè)錯(cuò)誤概率互相制約,你大我就會(huì)變小,你小我就會(huì)變大,基于保護(hù)零假設(shè)的原則,我們一般把一類錯(cuò)誤概率固定住,讓第一類錯(cuò)誤概率不超過(guò)某個(gè)閥值(也就是α值),也就是我們常說(shuō)的“顯著性水平α”,即代表好人被冤枉的概率。通常情況下,我們不希望好人被冤枉,所以顯著性水平α通常比較小。
顯著性水平α是你冤枉好人的可能性,然而,每個(gè)人在這一點(diǎn)上是有分歧的,有的人希望α大一點(diǎn)兒,有的人希望α小一點(diǎn)兒(α越大,意味著檢驗(yàn)越嚴(yán)格,我們?cè)┩骱萌说母怕示驮酱螅?/p>
在這種情況下,我們就期望回答一個(gè)問(wèn)題:對(duì)于面前的這個(gè)男生,我們不會(huì)冤枉他的最嚴(yán)格的檢驗(yàn)水平,即最大的α是多少呢?得到了這個(gè)問(wèn)題的答案,我們就可以輕松完成在任意嚴(yán)格程度上的檢驗(yàn)了,即如果α大于這個(gè)值,那么我們就認(rèn)為該男生不喜歡你,反之亦可。
而這個(gè)最大的α,就是我們的P值。只是這2個(gè)概念是有明顯的區(qū)別的。顯著性水平α是在每次統(tǒng)計(jì)檢驗(yàn)之前人為規(guī)定的,通常取α=0.05或α=0.01。這表明,當(dāng)做出拒絕原假設(shè)的決定時(shí),其犯錯(cuò)誤的可能性為α=0.05或α=0.01,而P值是根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算得出的。如果計(jì)算出來(lái)的概率(P值)小于這個(gè)標(biāo)準(zhǔn)(顯著性水平α),就說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性很小,那就可以放心地拒絕原假設(shè),認(rèn)為這個(gè)男生確實(shí)是不愛(ài)你的;反之,大于這個(gè)標(biāo)準(zhǔn)則說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性較大,那還是接受原假設(shè),也就是沒(méi)有充足的證據(jù),認(rèn)為這個(gè)男生還是愛(ài)你的。
Q2、如何理解置信度與置信區(qū)間?
置信區(qū)間是我們所計(jì)算出的變量存在的范圍,置信水平就是我們對(duì)于這個(gè)數(shù)值存在于我們計(jì)算出的這個(gè)范圍的可信程度。
舉例來(lái)講,如果我們有95%的把握,讓真正的數(shù)值在我們所計(jì)算的范圍里,那么在這里,95%是置信水平,而計(jì)算出的范圍,就是置信區(qū)間。
如果置信度為95%, 則抽取100個(gè)樣本來(lái)估計(jì)總體的均值,由100個(gè)樣本所構(gòu)造的100個(gè)區(qū)間中,約有95個(gè)區(qū)間包含總體均值。
Q3、如何理解極大似然估計(jì)?
利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值?!八迫弧笔恰跋襁@個(gè)樣子”的意思。
極大似然估計(jì),通俗理解來(lái)說(shuō),就是利用已知的樣本結(jié)果信息,反推最具有可能(最大概率)導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值!換句話說(shuō),極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法,即:“模型已定,參數(shù)未知”。
假如有一個(gè)黑箱子,里面有黑白兩種顏色的球,數(shù)目多少不知,兩種顏色的比例也不知。我們想知道箱子中白球和黑球的比例,但我們不能把箱子中的球全部拿出來(lái)數(shù)?,F(xiàn)在我們可以每次任意從已經(jīng)搖勻的箱子中拿一個(gè)球出來(lái),記錄球的顏色,然后把拿出來(lái)的球再放回箱中。這個(gè)過(guò)程可以重復(fù),我們可以用記錄的球的顏色來(lái)估計(jì)箱中黑白球的比例。假如在前面的一百次重復(fù)記錄中,有70次是白球,請(qǐng)問(wèn)箱子中白球所占的比例最有可能是多少?
很多人馬上就有答案了:70%。而其后的理論支撐是什么呢?
我們假設(shè)罐中白球的比例是p,那么黑球的比例就是1-p。因?yàn)槊砍橐粋€(gè)球出來(lái),在記錄顏色之后,我們把抽出的球放回了罐中并搖勻,所以每次抽出來(lái)的球的顏色服從同一獨(dú)立分布。
這里我們把一次抽出來(lái)球的顏色稱為一次抽樣。題目中在一百次抽樣中,70次是白球的,30次為黑球事件的概率是P(樣本結(jié)果|Model)。
如果第一次抽象的結(jié)果記為x1,第二次抽樣的結(jié)果記為x2....那么樣本結(jié)果為(x1,x2.....,x100)。這樣,我們可以得到如下表達(dá)式:
P(樣本結(jié)果|Model)
= P(x1,x2,…,x100|Model)
= P(x1|Model)P(x2|Model)…P(x100|Model)
= p^70(1-p)^30.
好的,我們已經(jīng)有了觀察樣本結(jié)果出現(xiàn)的概率表達(dá)式了。那么我們要求的模型的參數(shù),也就是求的式中的p。
那么我們?cè)趺磥?lái)求這個(gè)p呢?
不同的p,直接導(dǎo)致P(樣本結(jié)果|Model)的不同。
好的,我們的p實(shí)際上是有無(wú)數(shù)多種分布的。如下:

那么求出 p^70(1-p)^30為 7.8 * 10^(-31)
p的分布也可以是如下:

那么也可以求出p^70(1-p)^30為2.95* 10^(-27)
那么問(wèn)題來(lái)了,既然有無(wú)數(shù)種分布可以選擇,極大似然估計(jì)應(yīng)該按照什么原則去選取這個(gè)分布呢?
答:采取的方法是讓這個(gè)樣本結(jié)果出現(xiàn)的可能性最大,也就是使得p^70(1-p)^30值最大,那么我們就可以看成是p的方程,求導(dǎo)即可!
那么既然事情已經(jīng)發(fā)生了,為什么不讓這個(gè)出現(xiàn)的結(jié)果的可能性最大呢?這也就是最大似然估計(jì)的核心。
我們想辦法讓觀察樣本出現(xiàn)的概率最大,轉(zhuǎn)換為數(shù)學(xué)問(wèn)題就是使得:
p^70(1-p)^30最大,這太簡(jiǎn)單了,未知數(shù)只有一個(gè)p,我們令其導(dǎo)數(shù)為0,即可求出p為70%,與我們一開(kāi)始認(rèn)為的70%是一致的。其中蘊(yùn)含著我們的數(shù)學(xué)思想在里面。
Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法,并敘述其優(yōu)缺點(diǎn)
非參數(shù)統(tǒng)計(jì):對(duì)總體的分布不作假設(shè)或僅作非常一般性假設(shè)條件下的統(tǒng)計(jì)方法。
機(jī)器學(xué)習(xí):決策樹(shù),隨機(jī)森林,SVM;
假設(shè)檢驗(yàn):符號(hào),符號(hào)秩,秩和檢驗(yàn)
優(yōu)點(diǎn):
非參數(shù)統(tǒng)計(jì)方法要求的假定條件比較少,因而它的適用范圍比較廣泛。
多數(shù)非參數(shù)統(tǒng)計(jì)方法要求的思想與運(yùn)算比較簡(jiǎn)單,可以迅速完成計(jì)算取得結(jié)果。
缺點(diǎn):
由于方法簡(jiǎn)單,用的計(jì)量水準(zhǔn)較低,因此,如果能與參數(shù)統(tǒng)計(jì)方法同時(shí)使用時(shí),就不如參數(shù)統(tǒng)計(jì)方法敏感。若為追求簡(jiǎn)單而使用非參數(shù)統(tǒng)計(jì)方法,其檢驗(yàn)功效就要差些。這就是說(shuō),在給定的顯著性水平下進(jìn)行檢驗(yàn)時(shí),非參數(shù)統(tǒng)計(jì)方法與參數(shù)統(tǒng)計(jì)方法相比,第Ⅱ類錯(cuò)誤的概率β要大些。
對(duì)于大樣本,如不采用適當(dāng)?shù)慕?,?jì)算可能變得十分復(fù)雜。
Q5、如何簡(jiǎn)單理解過(guò)擬合?如何防止過(guò)擬合?
好比你想找個(gè)女朋友。
你可能會(huì)先找你表妹問(wèn)她喜歡什么,表妹說(shuō)她喜歡陽(yáng)光干凈的男生,還說(shuō)她喜歡王力宏,喜歡火鍋,喜歡日料,七七八八合計(jì)一百個(gè)愛(ài)好。你規(guī)規(guī)矩矩地按照這個(gè)標(biāo)準(zhǔn)學(xué)訓(xùn)練自己,終于符合表妹的一切要求,完美零誤差,訓(xùn)練完成,超級(jí)自信準(zhǔn)備出去試試追個(gè)妹子。
可是換了個(gè)妹子,發(fā)現(xiàn)學(xué)到的完全沒(méi)用。第二個(gè)妹子只要你陽(yáng)光干凈。剩下的她都不care,她甚至討厭王力宏,那后面的那些只會(huì)增加誤差。這就事過(guò)擬合了。
怎么防止過(guò)擬合呢?應(yīng)該用cross validation,交叉比對(duì)。解釋起來(lái)就是,你在你表妹那兒學(xué)到的東西,在你表姐那兒測(cè)試一下對(duì)不對(duì)。在你表姐那兒學(xué)到的,在你女同學(xué)那測(cè)試一下。來(lái)來(lái)回回用不同的測(cè)試對(duì)象和訓(xùn)練對(duì)象做交叉比對(duì)。這樣學(xué)到規(guī)律就不會(huì)過(guò)擬合啦。
以上就是【數(shù)分面試寶典】系列—統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)第3篇文章的內(nèi)容,部分歷史文章請(qǐng)回翻及時(shí)文章,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中,敬請(qǐng)期待,如果覺(jué)得不錯(cuò),也歡迎分享、點(diǎn)贊和收藏哈~