
“不要輕視簡單,簡單意味著堅固,整個數(shù)學大廈都是建立在這種簡單到不能再簡單,但在邏輯上堅如磐石的公理基礎上?!?——《三體》
作為一個正在向數(shù)據科學進軍的軟件工程師,基礎決定了我能走多遠。而數(shù)學毫無疑問是基礎中的基礎,核心中的核心。據我所知,數(shù)據科學領域用的最多的數(shù)學就是:高等數(shù)學,線性代數(shù),概率論與數(shù)理統(tǒng)計,以及凸優(yōu)化。其中統(tǒng)計思維最重要。于是我決定邊學邊寫,將學習統(tǒng)計思維過程中的點點滴滴記錄下來,利用“思維導圖”將所有的知識點穿成線,然后使用“費曼技巧”將學會的東西寫成文章講給別人聽,慢慢地將其內化到自己的靈魂中。像數(shù)學這樣的內功修煉絕對不是一朝一夕之功,所以越早開始越好,每天進步一點點,這樣日積月累,水滴石穿,有朝一日定能發(fā)揮大的作用。
對于這個系列的文章,我的定位是“知行合一”,我會不斷地迭代每篇文章中的內容,以臻完善。一開始只有一些理論知識的總結,但隨著學習的深入后續(xù)會慢慢加入一些實踐的內容,比如Python/R的示例代碼,用于演示統(tǒng)計規(guī)律在實際工作中的具體應用。
這篇文章主要介紹了什么是統(tǒng)計學,以及構成統(tǒng)計學的基本框架,是統(tǒng)計學這門學科的基本面貌。
一. 什么是統(tǒng)計學
《行為科學統(tǒng)計精要》一書對統(tǒng)計學的定義是:
“統(tǒng)計學是一套組織、總結和解釋信息的數(shù)學過程?!?/p>
這句話實際上已經回答了“什么是統(tǒng)計學”這個問題,其中“組織”、“總結”和“解釋”是關鍵詞。作為一套數(shù)學工具,統(tǒng)計學可以拆分為兩個部分,一個用于“整理總結數(shù)據”,另一個用于“解釋信息”。
用于“整理總結數(shù)據”的統(tǒng)計方法被稱為“描述統(tǒng)計學”,比如對于學生的數(shù)學期末考試成績,我們可以通過計算平均分,用一個單一的數(shù)據就能了解這次考試的平均情況;通過計算標準差,我們可以了解學生考試成績的集中趨勢等等。
用于“解釋信息”的統(tǒng)計方法被稱為“推論統(tǒng)計學”,同樣是數(shù)學期末考試的例子,假如為了提高教學質量,從全校某一年級學生中選出60個學生,分成兩組,其中實驗組A使用新的教學方法,控制組B使用原來的教學方法,一段時間后再次組織考試,然后我們得到兩組學生的數(shù)學考試成績,發(fā)現(xiàn)實驗組學生的平均分比控制組的高,那么這種情況是偶然發(fā)生的?還是新的教學方法的確有效果?這個時候就需要使用推論統(tǒng)計學來進行評估了。
上面這個關于教學方法的實驗,引出了統(tǒng)計學中的一個基礎概念:總體和樣本。
二. 總體和樣本
總體表示的特定研究中所關注的所有個體的集合。對于有些研究來說,測量總體中所有的個體顯然是不現(xiàn)實的。因此我們必須在研究中抽取出一定的樣本來進行研究,這些樣本被用來代表總體,我們需要從樣本得出結論然后推廣到總體。對樣本特征的描述被稱為統(tǒng)計量,比如樣本平均分,而對總體特征的描述被稱為參數(shù),比如總體平均分,它們是一一對應的,然而樣本統(tǒng)計量與總體參數(shù)是不可能完全相等的,總會出現(xiàn)差異,這個差異被稱為“抽樣誤差”。所以推論統(tǒng)計學就是用來回答“實驗中觀察到的差異,到底是抽樣誤差引起的,還是實驗方法的確有顯著效果”這一問題的數(shù)學工具。
不同個體會變化或者有不同值的特征就叫做“變量”。
三. 變量
變量有兩類,一類是個體的某個具體特征,比如身高,體重和血型;另一類是會影響個體的外部因素,比如溫度,濕度和天氣情況。當然,也可以將變量分為離散變量和連續(xù)變量。進行實驗就是對這些變量進行測量和觀察,并得到數(shù)據集。有一些變量是可以直接測量和觀察的,比如上面列舉的這些,然而另外一些變量是抽象的,無法直接測量,比如智商,是否感到開心快樂,記憶力等,被稱為“假設構建”(Constructs)。
我們可以通過觀察和測量一些代表構建的外部行為來完成對假設構建的測量。這樣的外部行為被稱為“操作定義”(Operational definitions)。比如通過智力測量分數(shù)來衡量智商,通過記憶和識別人臉的正確率來衡量記憶力等等。這些操作定義一方面描述了如何測量構建的操作,另一方面根據測得的結果定義構建。
那么對于變量的測量實際上就是分類或者獲得數(shù)值。測量分類有兩種尺度:稱名量表和順序量表。稱名量表用于標注和分類,但沒有數(shù)量上的含義,比如可以將大學生按專業(yè)分為化學,生物,藝術和計算機等等,但“化學”和“藝術”之間不存在“多”或“少”的關系;順序量表在稱名量表基礎上多了一層“順序”的含義,比如“上等”,“中等”和“下等”。測量數(shù)值也有兩種尺度:等距量表和等比量表。等距量表具有相對零點,比如測量一組男性身高,以平均身高為零點,高于平均身高1厘米的記為+1,低于平均身高1厘米的記為-1,然而這個時候作為零點的平均身高其測量值的量并不是0;等比量表具有絕對零點,比如測量一組男性身高,僅以厘米為單位,這個時候零點就代表沒有高度(絕對零點)。
系統(tǒng)地測量變量的過程,就稱為“統(tǒng)計方法”。
四. 統(tǒng)計方法
如果我們需要測量每個個體兩個非數(shù)值型變量之間的關系,我們可以用卡方檢驗。而如果是數(shù)值型變量之間的關系,那么我們可以使用“相關法”對其進行研究,最常見的就是繪制散點圖來觀察變化趨勢。比如圖4-1用散點圖和線性回歸擬合了白葡萄酒殘?zhí)橇颗c密度之間的關系。但相關法的主要局限在于我們只能說明變量之間存在關聯(lián)關系,但不能說明存在因果關系。其他數(shù)值型統(tǒng)計方法還包括假設檢驗,t檢驗和方差分析。要想說明因果關系,需要使用“實驗法”。

如果我們想比較的是兩組或多組的成績,就要使用“實驗法”和“非實驗研究”。實驗法可以建立兩個變量之間的因果關系,它的特點在于“操縱和控制”,即操縱被試變量,并控制其他環(huán)境變量,降低其影響。比如將抑郁癥病人隨機分為兩組,其中實驗組的病人服用新藥物,控制組的病人服用安慰劑,一段時間后觀察病癥改善狀況,這個時候“服用新藥物”還是“服用安慰劑”就是自變量,“癥狀改善的病人數(shù)量”就是因變量。
非實驗研究與實驗法的主要區(qū)別在于它僅僅觀察,而不“操縱和控制”,常見的有非等效組研究和前后測研究。非等效組研究的一個例子比如以性別作為被試變量進行分組,因為性別是天生固有的性質,研究者并不是通過將實驗對象分為兩組,然后一組定義為女性,一組定義為男性來實現(xiàn)的,并沒有“操縱和控制”,所以它不是實驗研究;前后測研究常常與時間有關,比如對同一組病人測量治療前后的康復情況,也屬于非實驗研究,理由同上。