01 寫(xiě)在前面

數(shù)據(jù)分析師的必備技能棧里，除了熟悉業(yè)務(wù)、掌握業(yè)務(wù)分析思維和工具外，還有一個(gè)特別重要的知識(shí)點(diǎn)，就是統(tǒng)計(jì)學(xué)，無(wú)論在簡(jiǎn)歷的技能描述中還是實(shí)際的面試過(guò)程中，統(tǒng)計(jì)學(xué)都是必備的基礎(chǔ)知識(shí)。

為什么對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)統(tǒng)計(jì)學(xué)那么重要？其實(shí)答案顯而易見(jiàn)，數(shù)據(jù)分析的價(jià)值就是通過(guò)數(shù)據(jù)去洞察業(yè)務(wù)背后的信息，避免之前的“一拍腦袋決定，二拍胸脯保證，三拍屁股走人”的主觀誤判，一切用數(shù)據(jù)說(shuō)話！數(shù)據(jù)怎么能說(shuō)話呢，算出一個(gè)數(shù)據(jù)，怎么知道這個(gè)數(shù)據(jù)是好還是壞？有多好有多壞？?jī)山M數(shù)據(jù)呈現(xiàn)在你面前，怎么判斷這兩組數(shù)據(jù)是否有明顯差異？要回答這些問(wèn)題，就必須要用到統(tǒng)計(jì)學(xué)知識(shí)，而不是相信自己的眼睛，因?yàn)檠劬τ袝r(shí)候也會(huì)說(shuō)謊，你看到的“好”不一定是好，你看到的“沒(méi)有差異”不代表沒(méi)有差異。

但是很多剛?cè)腴T(mén)的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí)時(shí)都很頭疼（也包括我哈哈哈），因?yàn)榻y(tǒng)計(jì)學(xué)的書(shū)籍里都是寫(xiě)晦澀難懂的公式，真不是一般人能看懂的。其實(shí)，對(duì)于大部分?jǐn)?shù)據(jù)分析師來(lái)說(shuō)，我們并不需要掌握的那么全面和深入，我們只需要掌握部分知識(shí)點(diǎn)，理論看不懂，但是知道在什么場(chǎng)景下用就行，用起來(lái)你才會(huì)慢慢地搞懂！

所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)，這里整理了數(shù)據(jù)分析工作中最常見(jiàn)的一些統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)，盡量用簡(jiǎn)單白話的形式去解釋，這樣無(wú)論是在面試中還是以后的工作中，都能把統(tǒng)計(jì)學(xué)的知識(shí)用起來(lái)！

02 數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)

Q1、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?

講顯著性水平α我們就得提到前面文章中提到的第一類錯(cuò)誤和第二類錯(cuò)誤，可以翻看系列文章：【數(shù)分面試寶典】數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)（一）

我們還是舉之前談戀愛(ài)的栗子，面前有一個(gè)男生，我們有2個(gè)假設(shè):

H0:一個(gè)真心愛(ài)你的男生

H1:一個(gè)不是真心愛(ài)你的男生

如果H0實(shí)際上成立，而你憑經(jīng)驗(yàn)拒絕了H0，也就是說(shuō)，你拒絕了一個(gè)你認(rèn)為不愛(ài)你而實(shí)際上真心愛(ài)你的男生，那么你就犯了第一類“棄真”錯(cuò)誤，也稱為α風(fēng)險(xiǎn)，錯(cuò)殺了好人；

如果H0實(shí)際上不成立，而你接受了H0，同樣的道理，你接受了一個(gè)你感覺(jué)愛(ài)你而實(shí)際上并不愛(ài)你的男生，那么你就犯了第二類“納偽”錯(cuò)誤，也稱為β風(fēng)險(xiǎn)，放走了壞人。

第一類錯(cuò)誤和第二類錯(cuò)誤這兩個(gè)錯(cuò)誤概率互相制約，你大我就會(huì)變小，你小我就會(huì)變大，基于保護(hù)零假設(shè)的原則，我們一般把一類錯(cuò)誤概率固定住，讓第一類錯(cuò)誤概率不超過(guò)某個(gè)閥值（也就是α值），也就是我們常說(shuō)的“顯著性水平α”，即代表好人被冤枉的概率。通常情況下，我們不希望好人被冤枉，所以顯著性水平α通常比較小。

顯著性水平α是你冤枉好人的可能性，然而，每個(gè)人在這一點(diǎn)上是有分歧的，有的人希望α大一點(diǎn)兒，有的人希望α小一點(diǎn)兒（α越大，意味著檢驗(yàn)越嚴(yán)格，我們?cè)┩骱萌说母怕示驮酱螅?/p>

在這種情況下，我們就期望回答一個(gè)問(wèn)題：對(duì)于面前的這個(gè)男生，我們不會(huì)冤枉他的最嚴(yán)格的檢驗(yàn)水平，即最大的α是多少呢？得到了這個(gè)問(wèn)題的答案，我們就可以輕松完成在任意嚴(yán)格程度上的檢驗(yàn)了，即如果α大于這個(gè)值，那么我們就認(rèn)為該男生不喜歡你，反之亦可。

而這個(gè)最大的α，就是我們的P值。只是這2個(gè)概念是有明顯的區(qū)別的。顯著性水平α是在每次統(tǒng)計(jì)檢驗(yàn)之前人為規(guī)定的，通常取α＝0.05或α＝0.01。這表明，當(dāng)做出拒絕原假設(shè)的決定時(shí)，其犯錯(cuò)誤的可能性為α＝0.05或α＝0.01，而P值是根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算得出的。如果計(jì)算出來(lái)的概率（P值）小于這個(gè)標(biāo)準(zhǔn)（顯著性水平α），就說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性很小，那就可以放心地拒絕原假設(shè)，認(rèn)為這個(gè)男生確實(shí)是不愛(ài)你的；反之，大于這個(gè)標(biāo)準(zhǔn)則說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性較大，那還是接受原假設(shè)，也就是沒(méi)有充足的證據(jù)，認(rèn)為這個(gè)男生還是愛(ài)你的。

Q2、如何理解置信度與置信區(qū)間？

置信區(qū)間是我們所計(jì)算出的變量存在的范圍，置信水平就是我們對(duì)于這個(gè)數(shù)值存在于我們計(jì)算出的這個(gè)范圍的可信程度。

舉例來(lái)講，如果我們有95%的把握，讓真正的數(shù)值在我們所計(jì)算的范圍里，那么在這里，95%是置信水平，而計(jì)算出的范圍，就是置信區(qū)間。

如果置信度為95%，則抽取100個(gè)樣本來(lái)估計(jì)總體的均值，由100個(gè)樣本所構(gòu)造的100個(gè)區(qū)間中，約有95個(gè)區(qū)間包含總體均值。

Q3、如何理解極大似然估計(jì)？

利用已知的樣本結(jié)果，反推最有可能（最大概率）導(dǎo)致這樣結(jié)果的參數(shù)值?！八迫弧笔恰跋襁@個(gè)樣子”的意思。

極大似然估計(jì)，通俗理解來(lái)說(shuō)，就是利用已知的樣本結(jié)果信息，反推最具有可能（最大概率）導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值！換句話說(shuō)，極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法，即：“模型已定，參數(shù)未知”。

假如有一個(gè)黑箱子，里面有黑白兩種顏色的球，數(shù)目多少不知，兩種顏色的比例也不知。我們想知道箱子中白球和黑球的比例，但我們不能把箱子中的球全部拿出來(lái)數(shù)?，F(xiàn)在我們可以每次任意從已經(jīng)搖勻的箱子中拿一個(gè)球出來(lái)，記錄球的顏色，然后把拿出來(lái)的球再放回箱中。這個(gè)過(guò)程可以重復(fù)，我們可以用記錄的球的顏色來(lái)估計(jì)箱中黑白球的比例。假如在前面的一百次重復(fù)記錄中，有70次是白球，請(qǐng)問(wèn)箱子中白球所占的比例最有可能是多少？

很多人馬上就有答案了：70%。而其后的理論支撐是什么呢？

我們假設(shè)罐中白球的比例是p，那么黑球的比例就是1-p。因?yàn)槊砍橐粋€(gè)球出來(lái)，在記錄顏色之后，我們把抽出的球放回了罐中并搖勻，所以每次抽出來(lái)的球的顏色服從同一獨(dú)立分布。

這里我們把一次抽出來(lái)球的顏色稱為一次抽樣。題目中在一百次抽樣中，70次是白球的,30次為黑球事件的概率是P(樣本結(jié)果|Model)。

如果第一次抽象的結(jié)果記為x1,第二次抽樣的結(jié)果記為x2....那么樣本結(jié)果為(x1,x2.....,x100)。這樣，我們可以得到如下表達(dá)式：

P(樣本結(jié)果|Model)

　　= P(x1,x2,…,x100|Model)

　　= P(x1|Model)P(x2|Model)…P(x100|Model)

　　= p^70(1-p)^30.

好的，我們已經(jīng)有了觀察樣本結(jié)果出現(xiàn)的概率表達(dá)式了。那么我們要求的模型的參數(shù)，也就是求的式中的p。

那么我們?cè)趺磥?lái)求這個(gè)p呢？

不同的p，直接導(dǎo)致P（樣本結(jié)果|Model）的不同。

好的，我們的p實(shí)際上是有無(wú)數(shù)多種分布的。如下：

那么求出 p^70(1-p)^30為 7.8 * 10^(-31)

p的分布也可以是如下：

那么也可以求出p^70(1-p)^30為2.95* 10^(-27)

那么問(wèn)題來(lái)了，既然有無(wú)數(shù)種分布可以選擇，極大似然估計(jì)應(yīng)該按照什么原則去選取這個(gè)分布呢？

答：采取的方法是讓這個(gè)樣本結(jié)果出現(xiàn)的可能性最大，也就是使得p^70(1-p)^30值最大，那么我們就可以看成是p的方程，求導(dǎo)即可！

那么既然事情已經(jīng)發(fā)生了，為什么不讓這個(gè)出現(xiàn)的結(jié)果的可能性最大呢？這也就是最大似然估計(jì)的核心。

我們想辦法讓觀察樣本出現(xiàn)的概率最大，轉(zhuǎn)換為數(shù)學(xué)問(wèn)題就是使得：

p^70(1-p)^30最大，這太簡(jiǎn)單了，未知數(shù)只有一個(gè)p，我們令其導(dǎo)數(shù)為0，即可求出p為70%，與我們一開(kāi)始認(rèn)為的70%是一致的。其中蘊(yùn)含著我們的數(shù)學(xué)思想在里面。

Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法，并敘述其優(yōu)缺點(diǎn)

非參數(shù)統(tǒng)計(jì)：對(duì)總體的分布不作假設(shè)或僅作非常一般性假設(shè)條件下的統(tǒng)計(jì)方法。

機(jī)器學(xué)習(xí)：決策樹(shù)，隨機(jī)森林，SVM；

假設(shè)檢驗(yàn)：符號(hào)，符號(hào)秩，秩和檢驗(yàn)

優(yōu)點(diǎn)：

非參數(shù)統(tǒng)計(jì)方法要求的假定條件比較少，因而它的適用范圍比較廣泛。

多數(shù)非參數(shù)統(tǒng)計(jì)方法要求的思想與運(yùn)算比較簡(jiǎn)單，可以迅速完成計(jì)算取得結(jié)果。

缺點(diǎn)：

由于方法簡(jiǎn)單，用的計(jì)量水準(zhǔn)較低，因此，如果能與參數(shù)統(tǒng)計(jì)方法同時(shí)使用時(shí)，就不如參數(shù)統(tǒng)計(jì)方法敏感。若為追求簡(jiǎn)單而使用非參數(shù)統(tǒng)計(jì)方法，其檢驗(yàn)功效就要差些。這就是說(shuō)，在給定的顯著性水平下進(jìn)行檢驗(yàn)時(shí)，非參數(shù)統(tǒng)計(jì)方法與參數(shù)統(tǒng)計(jì)方法相比，第Ⅱ類錯(cuò)誤的概率β要大些。

對(duì)于大樣本，如不采用適當(dāng)?shù)慕?，?jì)算可能變得十分復(fù)雜。

Q5、如何簡(jiǎn)單理解過(guò)擬合？如何防止過(guò)擬合？

好比你想找個(gè)女朋友。

你可能會(huì)先找你表妹問(wèn)她喜歡什么，表妹說(shuō)她喜歡陽(yáng)光干凈的男生，還說(shuō)她喜歡王力宏，喜歡火鍋，喜歡日料，七七八八合計(jì)一百個(gè)愛(ài)好。你規(guī)規(guī)矩矩地按照這個(gè)標(biāo)準(zhǔn)學(xué)訓(xùn)練自己，終于符合表妹的一切要求，完美零誤差，訓(xùn)練完成，超級(jí)自信準(zhǔn)備出去試試追個(gè)妹子。

可是換了個(gè)妹子，發(fā)現(xiàn)學(xué)到的完全沒(méi)用。第二個(gè)妹子只要你陽(yáng)光干凈。剩下的她都不care，她甚至討厭王力宏，那后面的那些只會(huì)增加誤差。這就事過(guò)擬合了。

怎么防止過(guò)擬合呢？應(yīng)該用cross validation，交叉比對(duì)。解釋起來(lái)就是，你在你表妹那兒學(xué)到的東西，在你表姐那兒測(cè)試一下對(duì)不對(duì)。在你表姐那兒學(xué)到的，在你女同學(xué)那測(cè)試一下。來(lái)來(lái)回回用不同的測(cè)試對(duì)象和訓(xùn)練對(duì)象做交叉比對(duì)。這樣學(xué)到規(guī)律就不會(huì)過(guò)擬合啦。

以上就是【數(shù)分面試寶典】系列—統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)第3篇文章的內(nèi)容，部分歷史文章請(qǐng)回翻及時(shí)文章，更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中，敬請(qǐng)期待，如果覺(jué)得不錯(cuò)，也歡迎分享、點(diǎn)贊和收藏哈~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)（三）

數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)（三）

01 寫(xiě)在前面

02 數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)

Q1、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?

Q2、如何理解置信度與置信區(qū)間？

Q3、如何理解極大似然估計(jì)？

Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法，并敘述其優(yōu)缺點(diǎn)

Q5、如何簡(jiǎn)單理解過(guò)擬合？如何防止過(guò)擬合？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)（三）

01 寫(xiě)在前面

02 數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)

Q1、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?

Q2、如何理解置信度與置信區(qū)間？

Q3、如何理解極大似然估計(jì)？

Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法，并敘述其優(yōu)缺點(diǎn)

Q5、如何簡(jiǎn)單理解過(guò)擬合？如何防止過(guò)擬合？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Q1、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?

Q2、如何理解置信度與置信區(qū)間？

Q3、如何理解極大似然估計(jì)？

Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法，并敘述其優(yōu)缺點(diǎn)

Q5、如何簡(jiǎn)單理解過(guò)擬合？如何防止過(guò)擬合？