本來這周的安排是寫方差和標(biāo)準(zhǔn)差。動(dòng)筆之后,發(fā)現(xiàn)不先說清楚樣本和整體,方差什么的就只是個(gè)名詞而已。
先稍微講一下數(shù)學(xué),畢竟統(tǒng)計(jì)就是數(shù)學(xué)的一個(gè)分支。通過票圈大家知道了著名的裝逼名言:世界有三類人,數(shù)學(xué)家、實(shí)現(xiàn)數(shù)學(xué)家預(yù)言的工程師,和…其他人。是不是特別像“一等男人開政府、二等男人開保險(xiǎn)公司、剩下都是三等男人”,吼吼吼~
但是,數(shù)學(xué)給人感覺其實(shí)還是“沒用”。這個(gè)直觀的感覺是對的,純粹的數(shù)學(xué)是沒有什么“用”的。我們用等速螺線來描述鸚鵡螺殼的優(yōu)美曲線,但鸚鵡螺的生長原則其實(shí)很簡單,不過就是最大可能利用上一個(gè)空間的一條邊的情況下,用最少的幾丁質(zhì)材料做一個(gè)盡可能大的新空間。這個(gè)“邏輯”的結(jié)果,就是一條近似完美的等速螺線。受重力影響足夠大的物體幾乎都是球體也是類似道理。所以數(shù)學(xué)是一種“邏輯”,表述了一種“原理”,闡述了對現(xiàn)實(shí)的一種“理解”或者“觀點(diǎn)”。比較過分的是,為了高效,或者裝逼,那些數(shù)學(xué)家硬生生把自然語言改成了代數(shù)公式,相當(dāng)于把Python搞成了匯編,結(jié)果就是大部分人瘋了。周誥殷盤,佶屈聱牙。
好了回到統(tǒng)計(jì)。不知道有沒有人和我一樣,第一次接觸統(tǒng)計(jì)的時(shí)候會(huì)困惑為啥要研究這么個(gè)東西?后來學(xué)了經(jīng)濟(jì)學(xué)和心理學(xué),這個(gè)問題才慢慢有點(diǎn)模模糊糊的答案。
第一個(gè)答案是:窮。對某件事情的了解,最直白莫過于普查。想要知道中國人口的情況,做人口普查最準(zhǔn)確、最直接了。為啥不這么干呢?貴??!老這么干GDP都拿去填人口普查的坑了。
第二個(gè)答案是:焦慮。人的本性就是好奇。越不知道越想知道,不知道的未來也非要加一個(gè)解釋。還要問,這個(gè)解釋靠不靠譜啊…
于是,窮且焦慮的人類,創(chuàng)造了統(tǒng)計(jì)。當(dāng)然,我們這么有想象力的、窮且焦慮的人類還創(chuàng)造了很多“統(tǒng)計(jì)”,比如星座配對啊,摸骨測字算命啊~開會(huì)報(bào)數(shù),撒謊耍賴,互相死懟,等等等等~
窮怎么解決呢?整體搞不定,那就劃個(gè)小圈子唄,劃圈子的動(dòng)作就是“抽樣”。這個(gè)小圈子呢,就是“樣本”。對于這個(gè)樣本,我們就可以進(jìn)行各種自己看感興趣的研究了。好了,研究來研究去,這個(gè)結(jié)果終究是樣本的情況。那么樣本對于整體意味著什么呢?這個(gè)就是統(tǒng)計(jì)解決的問題了,利用數(shù)學(xué)的邏輯,去“證明”整體的情況“類似于”樣本。雖然預(yù)算少,我們也可以認(rèn)為“基本”知道了整體情況。舉個(gè)例子,想要知道下大學(xué)生畢業(yè)平均薪水的情況。可以抽樣100個(gè)大學(xué)生畢業(yè)的薪水,計(jì)算這100個(gè)學(xué)生的平均薪水,然后再推論“所有符合條件”的大學(xué)生畢業(yè)薪水的平均數(shù),就是“近似于”這100個(gè)樣本的平均薪水。
細(xì)心點(diǎn)的讀者馬上就會(huì)發(fā)現(xiàn),這“抽樣”里的花樣就多了。比如,你去知乎用戶里抽樣這100個(gè),可能結(jié)論就是平均畢業(yè)薪水50萬…呵呵,有沒有被平均的感覺?這就涉及到了“隨機(jī)抽樣”的問題,這里不展開,留個(gè)#TODO。
除了經(jīng)濟(jì)上的原因,有時(shí)候整體的情況在當(dāng)代的科技水平下,是真的不可知。比如天文學(xué)和天體物理學(xué)都會(huì)研究宇宙的恒星數(shù)量和物質(zhì)總量,但是這個(gè)真不知道確切的數(shù)字。只能通過“可觀測的宇宙”,再用統(tǒng)計(jì)的方式來推測整個(gè)宇宙的情況。
那么,焦慮怎么辦?答案是概率。相信大家直覺上都馬上就明白了,樣本的情況(或者專業(yè)點(diǎn)講:特征集合)一定是能“在一定程度上”表述整體的情況的。不然,我們不太蠢了么… 關(guān)鍵在于“多大程度上”。概率分布可以用了表達(dá)對某個(gè)?事件(比如樣本平均數(shù)是否等于整體平均數(shù))的可信程度(置信區(qū)間)。以前特別熱門的Six Sigma概念就是基于正態(tài)分布的置信。
說起概率,大家一定會(huì)提到“拋硬幣”。拋的次數(shù)多了,正反面出現(xiàn)的概率就慢慢穩(wěn)定在了50%。這個(gè)就是古典概率里的頻率穩(wěn)定的方式來描述概率。其實(shí),還有貝葉斯學(xué)派對概率的解釋,認(rèn)為概率是對某個(gè)事件的信心表述。貝葉斯的概念是個(gè)非常重要的概念,有興趣的讀者可以自己“深度學(xué)習(xí)”一下。
這么一想,統(tǒng)計(jì)的最淺層的存在意義就是:用加班和便當(dāng)來描述詩和遠(yuǎn)方,再問你信不信這碗雞湯。咳咳,用樣本的情況來描述整體,并且給出這個(gè)情況的可信程度。
那么統(tǒng)計(jì)對你有啥意義?好吧,統(tǒng)計(jì)會(huì)改變你的思維模式。再舉例說明。用過導(dǎo)航app都知道路線確定后,程序會(huì)給出一個(gè)預(yù)計(jì)到達(dá)時(shí)間。請問這個(gè)時(shí)間是怎么來的?我問過不少人,基本的回答就是距離除以(平均)速度。當(dāng)然不是咯~ 現(xiàn)實(shí)中的方式是:假定“到達(dá)時(shí)間”是某些特征向量的函數(shù),這些特征可以是“所在城市”、“路線現(xiàn)有擁擠指數(shù)”、“行駛方式”、“是否高峰期”等等,通過回歸的方式來預(yù)測。