寫在前面
周末在清華MEM連上了2天定量分析課程,感覺受益頗深。定量分析是有一套系統(tǒng)化的、嚴謹?shù)姆椒ㄈネ诰驍?shù)據(jù)的內(nèi)在關系、并通過嚴謹?shù)臋z驗方法來印證最初的假設、最終發(fā)現(xiàn)新的現(xiàn)實規(guī)律來指導后續(xù)的工作。也就是一個從數(shù)據(jù)(事實)中獲取信息(知識)的過程。
MINITAB
一個統(tǒng)計分析軟件,使我們做數(shù)據(jù)定量分析的主要工具,可以借助它來幫助我們描述數(shù)據(jù)、探索數(shù)據(jù)的關聯(lián)、最終檢驗(確定)這種關聯(lián)。有30天試用期。
箱線圖Box-Plot
箱線圖從上到下的幾個點分別為:max(最大值)、1st quarter(四分位數(shù))、median(中位數(shù))、3rd quarter(四分位數(shù))、min(最小值),可能還會包含工具幫我們識別出來的singular point(奇異點)。圖形有點類似K線,但是表示的意義不一樣。如果按照箱線圖的規(guī)則去定義K線或許能讓投資者了解到交易價格的分布,而不是僅僅關注價格。
使用場景:給定了幾個不同品牌地毯耐用度(平均壽命)的測量數(shù)據(jù),如何去判斷哪種比較耐用呢?箱線圖可以幫助我們直觀的感受幾組數(shù)據(jù),比單單從平均值來判斷更加全面。

minitab中的位置:圖形->箱線圖
直方圖Histogram&正態(tài)分布
直方圖很早就一直在接觸,能夠反映樣本值在不同區(qū)間的分布情況。我們可以把它用在判別給定數(shù)據(jù)是否符合正態(tài)分布上。現(xiàn)實生活中很多東西都是符合正態(tài)分布的,結(jié)合直方圖,我們通過觀察可以識別數(shù)據(jù)中的一些問題。
使用場景:課上有這樣一個例子,一個科學家懷疑一家面包店偷工減料,這家面包店聲稱自己用20直徑的模具做面包。科學家采集了一定量的數(shù)據(jù),發(fā)現(xiàn)平均值明顯小于20,于是找到了面包師,面包師不服,要求重新取樣來統(tǒng)計,第二次的平均值超過了20。
分別把兩次數(shù)據(jù)的制作成直方圖來看,發(fā)現(xiàn)第一次的數(shù)據(jù)基本符合正態(tài)分布 ,而第二次的數(shù)據(jù)像是正態(tài)分布的右半段。推測:面包師很可能對第二次的數(shù)據(jù)做了手腳,把直徑大于20的面包單獨挑了出來。

minitab中的位置:圖形->直方圖
正態(tài)性檢驗
除了直接從直方圖中觀察數(shù)據(jù)是否符合正態(tài)分布,我們也可以借助minitab的正態(tài)性檢驗來做。
使用場景:人工降雨是否有效?隨機選取了52片云彩,26次實施人工降雨、26次不實施。分別記錄降雨量,用箱線圖和直方圖來看,可以大概看出人工降雨會有一些優(yōu)勢。



為了更加深入發(fā)掘降雨量的規(guī)律,我們先對兩組數(shù)據(jù)分別進行正態(tài)性檢驗


圖上可以看到,兩組數(shù)據(jù)正態(tài)分布的假設p值都<.005,假設不可信。兩組數(shù)據(jù)都不符合正態(tài)分布。
minitab中的位置:統(tǒng)計->基本統(tǒng)計量->正態(tài)性檢驗
Box-Cox變換
Box-Cox變換是統(tǒng)計建模中常用的一種數(shù)據(jù)變換,用于連續(xù)的響應變量不滿足正態(tài)分布的情況。Box-Cox變換,變換之后,可以一定程度上減小不可觀測的誤差和預測變量的相關性。我的理解是這樣的:真實世界中的很多誤差(殘差)都是遵循正態(tài)概率分布的,但是我們在觀測計量某種數(shù)據(jù)的時候是在用人類文明發(fā)展過程中創(chuàng)造出來的單位(尺度)來度量,最終數(shù)據(jù)按照人所方便理解的形式被測量出來,但這兩者其實有某種數(shù)學上的聯(lián)系。Box-Cox變換就是試圖找到這種聯(lián)系。

還是上面人工降雨的例子,Box-Cox分析圖如下。可以看出95%置信區(qū)間在-0.08到0.17之間,這里可以用0取整。代入上面公式,可以用log來做變換。

經(jīng)過變換后P值較大,無法拒絕兩組數(shù)據(jù)符合正態(tài)分布的假設。


這個時候我們再用箱線圖去比較兩組數(shù)據(jù),會更加的清晰和直觀。

minitab中的位置:統(tǒng)計->控制圖->Box-Cox變換。
結(jié)語
今天就先寫這些,因果關系的論證、假設檢驗以及回歸分析與預測的一些方法,后面再總結(jié)。