數(shù)據(jù)分析之回歸分析

回歸,最初是遺傳學(xué)中的一個(gè)名詞,是由生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓首先提出來(lái)的。他在研究人類(lèi)的身高時(shí),發(fā)現(xiàn)高個(gè)子回歸于人口的平均身高,而矮個(gè)子則從另一個(gè)方向回歸于人口的平均身高。

回歸分析是研究自變量和因變量之間數(shù)量變化關(guān)系的一種分析方法,它主要是通過(guò)建立因變量Y與影響它的自變量X之間的回歸模型,衡量自變量X對(duì)因變量Y的影響能力,進(jìn)而可以預(yù)測(cè)因變量Y的發(fā)展趨勢(shì)。例如,銷(xiāo)售額對(duì)廣告費(fèi)用存在依存關(guān)系,通過(guò)對(duì)這一依存關(guān)系的分析,在制定下一期廣告費(fèi)用的情況下,可以預(yù)測(cè)將實(shí)現(xiàn)的銷(xiāo)售額。

文/黃成甲

相關(guān)性分析與回歸分析的聯(lián)系與區(qū)別

相關(guān)性分析與回歸分析的聯(lián)系是:兩者均為研究及測(cè)度兩個(gè)或兩個(gè)以上變量之間關(guān)系的方法。在實(shí)際工作中,一般先進(jìn)行相關(guān)分析,計(jì)算相關(guān)系數(shù),然后建立回歸模型,最后用回歸模型進(jìn)行推算或預(yù)測(cè)。

相關(guān)分析與回歸分析的區(qū)別是:

(1)相關(guān)分析研究的都是隨機(jī)變量,并且不分因變量和自變量;回歸分析研究的變量要定義出自變量和因變量,并且自變量是確定的普通變量,因變量是隨機(jī)變量。

(2)相關(guān)分析主要是描述兩個(gè)變量之間相關(guān)關(guān)系的密切程度;回歸分析不僅可以揭示變量X對(duì)變量Y的影響程度,還可以根據(jù)回歸模型進(jìn)行預(yù)測(cè)。

回歸分析模型主要包括線性回歸及非線性回歸兩種。線性回歸又分為簡(jiǎn)單線性回歸、多重線性回歸;而非線性回歸,需要進(jìn)行對(duì)數(shù)轉(zhuǎn)化等方式,將其轉(zhuǎn)化為線性回歸的形式進(jìn)行研究。

線性回歸分析的步驟如下:

(1)根據(jù)預(yù)測(cè)目標(biāo),確定自變量和因變量

圍繞業(yè)務(wù)問(wèn)題,明晰預(yù)測(cè)目標(biāo),從經(jīng)驗(yàn)、常識(shí)、以往歷史數(shù)據(jù)研究等角度,初步確定自變量和因變量。

(2)繪制散點(diǎn)圖,確定回歸模型類(lèi)型

通過(guò)繪制散點(diǎn)圖的方式,從圖形化的角度初步判斷自變量和因變量之間是否具有線性相關(guān)關(guān)系,同時(shí)進(jìn)行相關(guān)分析,根據(jù)相關(guān)系數(shù)判斷自變量與因變量之間的相關(guān)程度和方向,從而確定回歸模型的類(lèi)型。

(3)估計(jì)模型參數(shù),建立回歸模型

采用最小二乘法進(jìn)行模型參數(shù)的估計(jì),建立回歸模型。

(4)對(duì)回歸模型進(jìn)行檢驗(yàn)

回歸模型可能不是一次即可達(dá)到預(yù)期的,通過(guò)對(duì)整個(gè)模型及各個(gè)參數(shù)的統(tǒng)計(jì)顯著性檢驗(yàn),逐步優(yōu)化和最終確立回歸模型。

(5)利用回歸模型進(jìn)行預(yù)測(cè)

模型通過(guò)檢驗(yàn)后,應(yīng)用到新的數(shù)據(jù)中,進(jìn)行因變量目標(biāo)值的預(yù)測(cè)。

簡(jiǎn)單線性回歸分析

簡(jiǎn)單線性回歸也稱(chēng)為一元線性回歸,就是回歸模型中只含一個(gè)自變量,它主要用來(lái)處理一個(gè)自變量與一個(gè)因變量之間的線性關(guān)系。簡(jiǎn)單線性回歸模型為:

Y=a+bX+ε

式中,Y:因變量,X:自變量,a:常數(shù)項(xiàng),是回歸直線在縱坐標(biāo)軸上的截距;b:回歸系數(shù),是回歸直線的斜率;ε:隨機(jī)誤差,即隨機(jī)因素對(duì)因變量所產(chǎn)生的影響。

常數(shù)項(xiàng)a就是截距,回歸系數(shù)b就是斜率,表面自變量對(duì)因變量的影響程度。那么如何得到最佳的a和b,使得盡可能多的(X,Y)數(shù)據(jù)點(diǎn)落在或者更加靠近這條擬合出來(lái)的直線上,最小二乘法就是一個(gè)較好的計(jì)算方法。

最小二乘法,又稱(chēng)最小平方法,通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。最小二乘法名字的緣由有兩個(gè):一是要將誤差最小化;二是將誤差最小化的方法是使誤差的平方和最小化。最小二乘法在回歸模型上的應(yīng)用,就是要使得觀測(cè)點(diǎn)和估計(jì)點(diǎn)的距離的平方和達(dá)到最小,使得盡可能多的(X,Y)數(shù)據(jù)點(diǎn)或者更加靠近這條擬合出來(lái)的直線上。

最小二乘法

在對(duì)回歸模型進(jìn)行校驗(yàn)時(shí),判斷系數(shù)R2也稱(chēng)擬合優(yōu)度或決定系數(shù),即相關(guān)系數(shù)R的平方,用于表示擬合得到的模型能解釋因變量變化的百分比,R2越接近1,表示回歸模型擬合效果越好。

簡(jiǎn)單線性回歸主要采用R2衡量模型擬合效果,而調(diào)整后R2用于修正因自變量個(gè)數(shù)的增加而導(dǎo)致模型擬合效果過(guò)高的情況,它多用于衡量多重線性回歸分析模型的擬合效果。

線性回歸方差分析表的主要作用是通過(guò)F檢驗(yàn)來(lái)判斷回歸模型的回歸效果,即檢驗(yàn)因變量與所有自變量之間的線性關(guān)系是否顯著,用線性模型來(lái)描述它們之間的關(guān)系是否恰當(dāng)。主要有平方和(SS)、自由度(df)、均方(MS)、F(F統(tǒng)計(jì)量)、顯著性(P值)五大指標(biāo)。通常只需要關(guān)注F和顯著性(P值)兩個(gè)指標(biāo),其中主要參考顯著性(P值),因?yàn)橛?jì)算出F統(tǒng)計(jì)量,還需要查找統(tǒng)計(jì)表(F分布臨界值表),并與之進(jìn)行比較大小才能得出結(jié)果,而顯著性(P值)可直接與顯著性水平α(0.01,0.05)比較得出結(jié)果。

顯著性(P值)是在顯著性水平α(常用取值0.01或0.05)下F的臨界值,一般我們以此來(lái)衡量檢驗(yàn)結(jié)果是否具有顯著性,如果顯著性(P值)>0.05,則結(jié)果不具有顯著的統(tǒng)計(jì)學(xué)意義;如果0.01<顯著性(P值)<0.05,則結(jié)果具有顯著的統(tǒng)計(jì)學(xué)意義;如果顯著性(P值)<0.01,則結(jié)果具有極其顯著的統(tǒng)計(jì)學(xué)意義。

線性回歸模型回歸系數(shù)表

線性回歸模型回歸系數(shù)表,主要用于回歸模型的描述和回歸系數(shù)的顯著性檢驗(yàn)。即研究回歸模型中的每個(gè)自變量與因變量之間是否存在顯著的線性關(guān)系,也就是研究自變量能否有效地解釋因變量的線性變化,它們能否保留在線性回歸模型中。

第1列的常量、廣告費(fèi)用,分別為回歸模型中的常量與自變量X,第2列的B分別為常量a(截距)、回歸系數(shù)b(斜率),據(jù)此可以寫(xiě)出簡(jiǎn)單線性回歸模型:Y=377+14.475X,第5,6列分別是回歸系數(shù)t校驗(yàn)和相應(yīng)的顯著性(P值),顯著性(P值)同樣與顯著性水平α進(jìn)行比較,本例中回歸系數(shù)顯著性(P值)=0.000<0.01,說(shuō)明回歸系數(shù)b具有極其顯著的統(tǒng)計(jì)學(xué)意義,即因變量“銷(xiāo)售量”和自變量“廣告費(fèi)用”之間存在極其顯著的線性關(guān)系。

第4列的標(biāo)準(zhǔn)化系數(shù)用來(lái)測(cè)量自變量對(duì)因變量的重要性,只有將因變量和自變量標(biāo)準(zhǔn)化到統(tǒng)一的量綱下才能進(jìn)行重要性的比較與衡量,本例中標(biāo)準(zhǔn)化系數(shù)為0.816,與相關(guān)系數(shù)結(jié)果是一致的。如果進(jìn)行模型的使用與預(yù)測(cè),還是需要使用非標(biāo)準(zhǔn)化系數(shù)。

多重線性回歸分析

簡(jiǎn)單線性回歸模型只考慮單因素影響,事實(shí)上,影響因變量的因素往往不止一個(gè),可能會(huì)有多個(gè)影響因素,這就需要用到多重線性回歸分析。多重線性回歸與多元線性回歸區(qū)別就看因變量或自變量的個(gè)數(shù),多重線性回歸是指包含兩個(gè)或兩個(gè)以上自變量的線性回歸模型,而多元線性回歸是指包含兩個(gè)或兩個(gè)以上因變量的線性回歸模型。所以,多重線性回歸模型為:

多重線性回歸

多重線性回歸分析采用矩陣散點(diǎn)圖。

矩陣散點(diǎn)圖

5種自變量步進(jìn)方法:

?變量選擇方法

多重線性回歸中涉及多個(gè)自變量,建議采用“步進(jìn)”方法較為穩(wěn)健,一般也稱(chēng)之為逐步回歸法,是“后退”、“前進(jìn)”兩種方法的結(jié)合。逐步回歸會(huì)根據(jù)每個(gè)自變量對(duì)模型的貢獻(xiàn)對(duì)自變量進(jìn)行依次篩選,逐步剔除那些沒(méi)有顯著統(tǒng)計(jì)學(xué)意義的自變量,直至再也沒(méi)有不顯著的自變量從回歸模型中剔除為止,這是一個(gè)模型自動(dòng)優(yōu)化的過(guò)程,在多重線性回歸中應(yīng)用較廣。

線性回歸模型匯總表

多重線性回歸模型的擬合效果主要看第4列,調(diào)整后R方,它主要用于衡量在多重線性回歸模型建立過(guò)程中加入其它自變量后模型擬合優(yōu)度的變化。本例中調(diào)整后R方為0.732,也就是說(shuō),“廣告費(fèi)用”,“客流量”兩個(gè)自變量合起來(lái)能夠解釋模型變化的73.2%,模型擬合效果良好。

線性回歸方差分析表

線性回歸方差分析表,模型1的方差分析結(jié)果,F(xiàn)檢驗(yàn)的顯著性(P值)=0.000<0.01,即認(rèn)為模型1在0.01顯著性水平下,由自由變量“客流量”、“廣告費(fèi)用”和因變量“銷(xiāo)售額”建立起來(lái)的線性關(guān)系具有極其顯著的統(tǒng)計(jì)學(xué)意義。

線性回歸模型回歸系數(shù)表

第1列常量、廣告費(fèi)用、客流量分別為回歸模型中的常量與自變量x1和x2,第2列的B值分別為常量a(截距)、偏回歸系數(shù)b1和b2;據(jù)此可以寫(xiě)出多重線性回歸模型:

Y=363.31+7.229X1+16.38X2,第4列為標(biāo)準(zhǔn)化系數(shù),用來(lái)測(cè)量自變量對(duì)因變量的重要性,,本例子X(jué)1,X2標(biāo)準(zhǔn)化系數(shù)分別為0.407,0.499,也就是說(shuō),客流量對(duì)銷(xiāo)售額的影響要大于廣告費(fèi)用對(duì)銷(xiāo)售額的影響。

第5,6列分別是偏回歸系數(shù)t檢驗(yàn)和相應(yīng)的顯著性(P值),限制性(P值)同樣與顯著性水平α進(jìn)行比較,本例中偏回歸系數(shù)b1顯著性(P值)=0.012<0.05,說(shuō)明偏回歸系數(shù)b1具有顯著的統(tǒng)計(jì)學(xué)意義,偏回歸系數(shù)b2顯著性(P值)=0.003<0.01,說(shuō)明偏回歸系數(shù)b2具有極其顯著的統(tǒng)計(jì)學(xué)意義,即因變量“銷(xiāo)售額”和自變量“廣告費(fèi)用”、“客流量”之間至少存在顯著的線性關(guān)系。

回歸分析用于什么

(1)更好的了解

對(duì)某一現(xiàn)象建模,以更好地了解該現(xiàn)象并有可能基于對(duì)該現(xiàn)象的了解來(lái)影響政策的制定以及決定采取何種相應(yīng)措施。基本目標(biāo)是測(cè)量一個(gè)或多個(gè)變量的變化對(duì)另一變量變化的影響程度。示例:了解某些特定瀕危鳥(niǎo)類(lèi)的主要棲息地特征(例如:降水、食物源、植被、天敵),以協(xié)助通過(guò)立法來(lái)保護(hù)該物種。

(2)建模預(yù)測(cè)

對(duì)某種現(xiàn)象建模以預(yù)測(cè)其他地點(diǎn)或其他時(shí)間的數(shù)值。基本目標(biāo)是構(gòu)建一個(gè)持續(xù)、準(zhǔn)確的預(yù)測(cè)模型。示例:如果已知人口增長(zhǎng)情況和典型的天氣狀況,那么明年的用電量將會(huì)是多少?

(3)探索檢驗(yàn)假設(shè)

還可以使用回歸分析來(lái)深入探索某些假設(shè)情況。假設(shè)您正在對(duì)住宅區(qū)的犯罪活動(dòng)進(jìn)行建模,以更好地了解犯罪活動(dòng)并希望實(shí)施可能阻止犯罪活動(dòng)的策略。開(kāi)始分析時(shí),您很可能有很多問(wèn)題或想要檢驗(yàn)的假設(shè)情況。

回歸分析的作用主要有以下幾點(diǎn):

1)挑選與因變量相關(guān)的自變量;

2)描述因變量與自變量之間的關(guān)系強(qiáng)度;

3)生成模型,通過(guò)自變量來(lái)預(yù)測(cè)因變量;

4)根據(jù)模型,通過(guò)因變量,來(lái)控制自變量。

回歸分析方法

1)線性回歸

線性回歸它是最為人熟知的建模技術(shù)之一。線性回歸通常是人們?cè)趯W(xué)習(xí)預(yù)測(cè)模型時(shí)首選的少數(shù)幾種技術(shù)之一。在該技術(shù)中,因變量是連續(xù)的,自變量(單個(gè)或多個(gè))可以是連續(xù)的也可以是離散的,回歸線的性質(zhì)是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)建立因變量

(Y) 和一個(gè)或多個(gè)自變量 (X) 之間的聯(lián)系。用一個(gè)等式來(lái)表示它,即:

Y=a+b*X + e

其中a 表示截距,b 表示直線的傾斜率,e 是誤差項(xiàng)。這個(gè)等式可以根據(jù)給定的單個(gè)或多個(gè)預(yù)測(cè)變量來(lái)預(yù)測(cè)目標(biāo)變量的值。

一元線性回歸和多元線性回歸的區(qū)別在于,多元線性回歸有一個(gè)以上的自變量,而一元線性回歸通常只有一個(gè)自變量。

線性回歸要點(diǎn):

1)自變量與因變量之間必須有線性關(guān)系;

2)多元回歸存在多重共線性,自相關(guān)性和異方差性;

3)線性回歸對(duì)異常值非常敏感。它會(huì)嚴(yán)重影響回歸線,最終影響預(yù)測(cè)值;

4)多重共線性會(huì)增加系數(shù)估計(jì)值的方差,使得估計(jì)值對(duì)于模型的輕微變化異常敏感,結(jié)果就是系數(shù)估計(jì)值不穩(wěn)定;

5)在存在多個(gè)自變量的情況下,我們可以使用向前選擇法,向后剔除法和逐步篩選法來(lái)選擇最重要的自變量。

2)Logistic回歸

Logistic回歸可用于發(fā)現(xiàn) “事件=成功”和“事件=失敗”的概率。當(dāng)因變量的類(lèi)型屬于二元(1 / 0、真/假、是/否)變量時(shí),我們就應(yīng)該使用邏輯回歸。這里,Y 的取值范圍是從 0 到 1,它可以用下面的等式表示:

odds= p/ (1-p) = 某事件發(fā)生的概率/ 某事件不發(fā)生的概率

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk

如上,p表述具有某個(gè)特征的概率。在這里我們使用的是的二項(xiàng)分布(因變量),我們需要選擇一個(gè)最適用于這種分布的連結(jié)函數(shù)。它就是Logit 函數(shù)。在上述等式中,通過(guò)觀測(cè)樣本的極大似然估計(jì)值來(lái)選擇參數(shù),而不是最小化平方和誤差(如在普通回歸使用的)。

Logistic要點(diǎn):

1)Logistic回歸廣泛用于分類(lèi)問(wèn)題;

2)Logistic回歸不要求自變量和因變量存在線性關(guān)系。它可以處理多種類(lèi)型的關(guān)系,因?yàn)樗鼘?duì)預(yù)測(cè)的相對(duì)風(fēng)險(xiǎn)指數(shù)使用了一個(gè)非線性的 log 轉(zhuǎn)換;

3)為了避免過(guò)擬合和欠擬合,我們應(yīng)該包括所有重要的變量。有一個(gè)很好的方法來(lái)確保這種情況,就是使用逐步篩選方法來(lái)估計(jì)Logistic回歸;

4)Logistic回歸需要較大的樣本量,因?yàn)樵跇颖緮?shù)量較少的情況下,極大似然估計(jì)的效果比普通的最小二乘法差;

5)自變量之間應(yīng)該互不相關(guān),即不存在多重共線性。然而,在分析和建模中,我們可以選擇包含分類(lèi)變量相互作用的影響;

6)如果因變量的值是定序變量,則稱(chēng)它為序Logistic回歸;

7)如果因變量是多類(lèi)的話,則稱(chēng)它為多元Logistic回歸。

3)Cox回歸

Cox回歸的因變量就有些特殊,它不經(jīng)考慮結(jié)果而且考慮結(jié)果出現(xiàn)時(shí)間的回歸模型。它用一個(gè)或多個(gè)自變量預(yù)測(cè)一個(gè)事件(死亡、失敗或舊病復(fù)發(fā))發(fā)生的時(shí)間。Cox回歸的主要作用發(fā)現(xiàn)風(fēng)險(xiǎn)因素并用于探討風(fēng)險(xiǎn)因素的強(qiáng)弱。但它的因變量必須同時(shí)有2個(gè),一個(gè)代表狀態(tài),必須是分類(lèi)變量,一個(gè)代表時(shí)間,應(yīng)該是連續(xù)變量。只有同時(shí)具有這兩個(gè)變量,才能用Cox回歸分析。Cox回歸主要用于生存資料的分析,生存資料至少有兩個(gè)結(jié)局變量,一是死亡狀態(tài),是活著還是死亡;二是死亡時(shí)間,如果死亡,什么時(shí)間死亡?如果活著,從開(kāi)始觀察到結(jié)束時(shí)有多久了?所以有了這兩個(gè)變量,就可以考慮用Cox回歸分析。

4)poisson回歸

通常,如果能用Logistic回歸,通常也可以用poission回歸,poisson回歸的因變量是個(gè)數(shù),也就是觀察一段時(shí)間后,發(fā)病了多少人或是死亡了多少人等等。其實(shí)跟Logistic回歸差不多,因?yàn)閘ogistic回歸的結(jié)局是是否發(fā)病,是否死亡,也需要用到發(fā)病例數(shù)、死亡例數(shù)。

5)Probit回歸

Probit回歸意思是“概率回歸”。用于因變量為分類(lèi)變量數(shù)據(jù)的統(tǒng)計(jì)分析,與Logistic回歸近似。也存在因變量為二分、多分與有序的情況。目前最常用的為二分。醫(yī)學(xué)研究中常見(jiàn)的半數(shù)致死劑量、半數(shù)有效濃度等劑量反應(yīng)關(guān)系的統(tǒng)計(jì)指標(biāo),現(xiàn)在標(biāo)準(zhǔn)做法就是調(diào)用Pribit過(guò)程進(jìn)行統(tǒng)計(jì)分析。

6)負(fù)二項(xiàng)回歸

所謂負(fù)二項(xiàng)指的是一種分布,其實(shí)跟poission回歸、logistic回歸有點(diǎn)類(lèi)似,poission回歸用于服從poission分布的資料,logistic回歸用于服從二項(xiàng)分布的資料,負(fù)二項(xiàng)回歸用于服從負(fù)二項(xiàng)分布的資料。如果簡(jiǎn)單點(diǎn)理解,二項(xiàng)分布可以認(rèn)為就是二分類(lèi)數(shù)據(jù),poission分布就可以認(rèn)為是計(jì)數(shù)資料,也就是個(gè)數(shù),而不是像身高等可能有小數(shù)點(diǎn),個(gè)數(shù)是不可能有小數(shù)點(diǎn)的。負(fù)二項(xiàng)分布,也是個(gè)數(shù),只不過(guò)比poission分布更苛刻,如果結(jié)局是個(gè)數(shù),而且結(jié)局可能具有聚集性,那可能就是負(fù)二項(xiàng)分布。簡(jiǎn)單舉例,如果調(diào)查流感的影響因素,結(jié)局當(dāng)然是流感的例數(shù),如果調(diào)查的人有的在同一個(gè)家庭里,由于流感具有傳染性,那么同一個(gè)家里如果一個(gè)人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數(shù)據(jù)盡管結(jié)果是個(gè)數(shù),但由于具有聚集性,因此用poission回歸不一定合適,就可以考慮用負(fù)二項(xiàng)回歸。

7)weibull回歸

中文有時(shí)音譯為威布爾回歸。關(guān)于生存資料的分析常用的是cox回歸,這種回歸幾乎統(tǒng)治了整個(gè)生存分析。但其實(shí)夾縫中還有幾個(gè)方法在頑強(qiáng)生存著,而且其實(shí)很有生命力。weibull回歸就是其中之一。cox回歸受歡迎的原因是它簡(jiǎn)單,用的時(shí)候不用考慮條件(除了等比例條件之外),大多數(shù)生存數(shù)據(jù)都可以用。而weibull回歸則有條件限制,用的時(shí)候數(shù)據(jù)必須符合weibull分布。如果數(shù)據(jù)符合weibull分布,那么直接套用weibull回歸自然是最理想的選擇,它可以給出最合理的估計(jì)。如果數(shù)據(jù)不符合weibull分布,那如果還用weibull回歸,那就套用錯(cuò)誤,結(jié)果也就會(huì)缺乏可信度。weibull回歸就像是量體裁衣,把體形看做數(shù)據(jù),衣服看做模型,weibull回歸就是根據(jù)某人實(shí)際的體形做衣服,做出來(lái)的也就合身,對(duì)其他人就不一定合身了。cox回歸,就像是到商場(chǎng)去買(mǎi)衣服,衣服對(duì)很多人都合適,但是對(duì)每個(gè)人都不是正合適,只能說(shuō)是大致合適。至于到底是選擇麻煩的方式量體裁衣,還是選擇簡(jiǎn)單到商場(chǎng)直接去買(mǎi)現(xiàn)成的,那就根據(jù)個(gè)人傾向,也根據(jù)具體對(duì)自己體形的了解程度,如果非常熟悉,自然選擇量體裁衣更合適。如果不大了解,那就直接去商場(chǎng)買(mǎi)大眾化衣服相對(duì)更方便些。

8)主成分回歸

主成分回歸是一種合成的方法,相當(dāng)于主成分分析與線性回歸的合成。主要用于解決自變量之間存在高度相關(guān)的情況。這在現(xiàn)實(shí)中不算少見(jiàn)。比如要分析的自變量中同時(shí)有血壓值和血糖值,這兩個(gè)指標(biāo)可能有一定的相關(guān)性,如果同時(shí)放入模型,會(huì)影響模型的穩(wěn)定,有時(shí)也會(huì)造成嚴(yán)重后果,比如結(jié)果跟實(shí)際嚴(yán)重不符。當(dāng)然解決方法很多,最簡(jiǎn)單的就是剔除掉其中一個(gè),但如果實(shí)在舍不得,覺(jué)得刪了太可惜,那就可以考慮用主成分回歸,相當(dāng)于把這兩個(gè)變量所包含的信息用一個(gè)變量來(lái)表示,這個(gè)變量我們稱(chēng)它叫主成分,所以就叫主成分回歸。當(dāng)然,用一個(gè)變量代替兩個(gè)變量,肯定不可能完全包含他們的信息,能包含80%或90%就不錯(cuò)了。但有時(shí)候我們必須做出抉擇,你是要100%的信息,但是變量非常多的模型?還是要90%的信息,但是只有1個(gè)或2個(gè)變量的模型?打個(gè)比方,你要診斷感冒,是不是必須把所有跟感冒有關(guān)的癥狀以及檢查結(jié)果都做完?還是簡(jiǎn)單根據(jù)幾個(gè)癥狀就大致判斷呢?我想根據(jù)幾個(gè)癥狀大致能確定90%是感冒了,不用非得100%的信息不是嗎?模型也是一樣,模型是用于實(shí)際的,不是空中樓閣。既然要用于實(shí)際,那就要做到簡(jiǎn)單。對(duì)于一種疾病,如果30個(gè)指標(biāo)能夠100%確診,而3個(gè)指標(biāo)可以診斷80%,我想大家會(huì)選擇3個(gè)指標(biāo)的模型。這就是主成分回歸存在的基礎(chǔ),用幾個(gè)簡(jiǎn)單的變量把多個(gè)指標(biāo)的信息綜合一下,這樣幾個(gè)簡(jiǎn)單的主成分可能就包含了原來(lái)很多自變量的大部分信息。這就是主成分回歸的原理。

9)嶺回歸

當(dāng)數(shù)據(jù)之間存在多重共線性(自變量高度相關(guān))時(shí),就需要使用嶺回歸分析。在存在多重共線性時(shí),盡管最小二乘法(OLS)測(cè)得的估計(jì)值不存在偏差,它們的方差也會(huì)很大,從而使得觀測(cè)值與真實(shí)值相差甚遠(yuǎn)。嶺回歸通過(guò)給回歸估計(jì)值添加一個(gè)偏差值,來(lái)降低標(biāo)準(zhǔn)誤差。

上面,我們看到了線性回歸等式:

y=a+ b*x

這個(gè)等式也有一個(gè)誤差項(xiàng)。完整的等式是:

y=a+b*x+e (誤差項(xiàng)), [誤差項(xiàng)是用以糾正觀測(cè)值與預(yù)測(cè)值之間預(yù)測(cè)誤差的值]

=> y=a+y= a+ b1x1+ b2x2+....+e, 針對(duì)包含多個(gè)自變量的情形。

在線性等式中,預(yù)測(cè)誤差可以劃分為 2 個(gè)分量,一個(gè)是偏差造成的,一個(gè)是方差造成的。預(yù)測(cè)誤差可能會(huì)由這兩者或兩者中的任何一個(gè)造成。在這里,我們將討論由方差所造成的誤差。嶺回歸通過(guò)收縮參數(shù) λ(lambda)解決多重共線性問(wèn)題。請(qǐng)看下面的等式:

在這個(gè)等式中,有兩個(gè)組成部分。第一個(gè)是最小二乘項(xiàng),另一個(gè)是 β2(β-平方)和的 λ 倍,其中 β 是相關(guān)系數(shù)。λ 被添加到最小二乘項(xiàng)中用以縮小參數(shù)值,從而降低方差值。

嶺回歸要點(diǎn):

1)除常數(shù)項(xiàng)以外,嶺回歸的假設(shè)與最小二乘回歸相同;

2)它收縮了相關(guān)系數(shù)的值,但沒(méi)有達(dá)到零,這表明它不具有特征選擇功能;

3)這是一個(gè)正則化方法,并且使用的是 L2 正則化。

10)偏最小二乘回歸

偏最小二乘回歸也可以用于解決自變量之間高度相關(guān)的問(wèn)題。但比主成分回歸和嶺回歸更好的一個(gè)優(yōu)點(diǎn)是,偏最小二乘回歸可以用于例數(shù)很少的情形,甚至例數(shù)比自變量個(gè)數(shù)還少的情形。所以,如果自變量之間高度相關(guān)、例數(shù)又特別少、而自變量又很多,那就用偏最小二乘回歸就可以了。它的原理其實(shí)跟主成分回歸有點(diǎn)像,也是提取自變量的部分信息,損失一定的精度,但保證模型更符合實(shí)際。因此這種方法不是直接用因變量和自變量分析,而是用反映因變量和自變量部分信息的新的綜合變量來(lái)分析,所以它不需要例數(shù)一定比自變量多。偏最小二乘回歸還有一個(gè)很大的優(yōu)點(diǎn),那就是可以用于多個(gè)因變量的情形,普通的線性回歸都是只有一個(gè)因變量,而偏最小二乘回歸可用于多個(gè)因變量和多個(gè)自變量之間的分析。因?yàn)樗脑砭褪峭瑫r(shí)提取多個(gè)因變量和多個(gè)自變量的信息重新組成新的變量重新分析,所以多個(gè)因變量對(duì)它來(lái)說(shuō)無(wú)所謂。

11)多項(xiàng)式回歸

對(duì)于一個(gè)回歸等式,如果自變量的指數(shù)大于1,那么它就是多項(xiàng)式回歸等式。如下等式所示:

y=a+b*x^2

在這種回歸技術(shù)中,最佳擬合線不是直線。而是一個(gè)用于擬合數(shù)據(jù)點(diǎn)的曲線。

多項(xiàng)式回歸要點(diǎn):

1)雖然存在通過(guò)高次多項(xiàng)式得到較低的錯(cuò)誤的趨勢(shì),但這可能會(huì)導(dǎo)致過(guò)擬合。需要經(jīng)常畫(huà)出關(guān)系圖來(lái)查看擬合情況,并確保擬合曲線正確體現(xiàn)了問(wèn)題的本質(zhì)。下面是一個(gè)圖例,可以幫助理解:

2)須特別注意尾部的曲線,看看這些形狀和趨勢(shì)是否合理。更高次的多項(xiàng)式最終可能產(chǎn)生怪異的推斷結(jié)果。

12)逐步回歸

該回歸方法可用于在處理存在多個(gè)自變量的情形。在該技術(shù)中,自變量的選取需要借助自動(dòng)處理程序,無(wú)須人為干預(yù)。通過(guò)觀察統(tǒng)計(jì)的值,如

R-square、t-stats和 AIC

指標(biāo),來(lái)識(shí)別重要的變量,可以實(shí)現(xiàn)這一需求。逐步回歸通過(guò)同時(shí)添加/去除基于指定標(biāo)準(zhǔn)的協(xié)變量來(lái)擬合模型。下面列出了一些最常用的逐步回歸方法:

1)標(biāo)準(zhǔn)逐步回歸法需要做兩件事情,即根據(jù)需要為每個(gè)步驟添加和刪除預(yù)測(cè)因子;

2)向前選擇法從模型中最重要的預(yù)測(cè)因子開(kāi)始,然后為每一步添加變量;

3)向后剔除法從模型中所有的預(yù)測(cè)因子開(kāi)始,然后在每一步刪除重要性最低的變量。

這種建模技術(shù)的目的是使用最少的預(yù)測(cè)因子變量來(lái)最大化預(yù)測(cè)能力。這也是處理高維數(shù)據(jù)集的方法之一。

13)套索回歸

與嶺回歸類(lèi)似,套索也會(huì)對(duì)回歸系數(shù)的絕對(duì)值添加一個(gè)罰值。此外,它能降低偏差并提高線性回歸模型的精度。看看下面的等式:

套索回歸與嶺回歸有一點(diǎn)不同,它在懲罰部分使用的是絕對(duì)值,而不是平方值。這導(dǎo)致懲罰(即用以約束估計(jì)的絕對(duì)值之和)值使一些參數(shù)估計(jì)結(jié)果等于零。使用的懲罰值越大,估計(jì)值會(huì)越趨近于零。這將導(dǎo)致我們要從給定的n個(gè)變量之外選擇變量。

套索回歸要點(diǎn):

1)除常數(shù)項(xiàng)以外,這種回歸的假設(shè)與最小二乘回歸類(lèi)似;

2)它將收縮系數(shù)縮減至零(等于零),這確實(shí)有助于特征選擇;

3)這是一個(gè)正則化方法,使用的是 L1 正則化;

4)如果一組預(yù)測(cè)因子是高度相關(guān)的,套索回歸會(huì)選出其中一個(gè)因子并且將其它因子收縮為零。

14)ElasticNet 回歸

ElasticNet

回歸是套索回歸和嶺回歸的組合體。它會(huì)事先使用 L1 和 L2 作為正則化矩陣進(jìn)行訓(xùn)練。當(dāng)存在多個(gè)相關(guān)的特征時(shí),Elastic-net

會(huì)很有用。嶺回歸一般會(huì)隨機(jī)選擇其中一個(gè)特征,而 Elastic-net

則會(huì)選擇其中的兩個(gè)。同時(shí)包含嶺回歸和套索回歸的一個(gè)切實(shí)的優(yōu)點(diǎn)是,ElasticNet 回歸可以在循環(huán)狀態(tài)下繼承嶺回歸的一些穩(wěn)定性。

ElasticNet 回歸要點(diǎn):

1)在高度相關(guān)變量的情況下,它會(huì)產(chǎn)生群體效應(yīng);

2)選擇變量的數(shù)目沒(méi)有限制;

3)它可以承受雙重收縮。

2.如何選擇回歸模型

當(dāng)只了解一兩種回歸技術(shù)的時(shí)候,情況往往會(huì)比較簡(jiǎn)單。然而,當(dāng)我們?cè)趹?yīng)對(duì)問(wèn)題時(shí)可供選擇的方法越多,選擇正確的那一個(gè)就越難。類(lèi)似的情況下也發(fā)生在回歸模型中。

掌握多種回歸模型時(shí),基于自變量和因變量的類(lèi)型、數(shù)據(jù)的維數(shù)以及數(shù)據(jù)的其它基本特征去選擇最合適的技術(shù)非常重要。以下是要選擇正確的回歸模型時(shí)需要考慮的主要因素:

1)數(shù)據(jù)探索是構(gòu)建預(yù)測(cè)模型的不可或缺的部分。在選擇合適的模型前,比如識(shí)別變量的關(guān)系和影響,應(yīng)該首先執(zhí)行這一步驟。

2)比較不同模型的擬合優(yōu)點(diǎn),我們可以分析不同的指標(biāo)參數(shù),如統(tǒng)計(jì)意義的參數(shù),R-square,調(diào)整

R-square,AIC,BIC以及誤差項(xiàng),另一個(gè)是 Mallows’ Cp

準(zhǔn)則。這個(gè)主要是通過(guò)將所選的模型與所有可能的子模型(或仔細(xì)挑選的一組模型)進(jìn)行對(duì)比,檢查可能出現(xiàn)的偏差。

3)交叉驗(yàn)證是評(píng)估預(yù)測(cè)模型最好的方法。使用該方法,需將數(shù)據(jù)集分成兩份(一份用于訓(xùn)練,一份用于驗(yàn)證)。使用觀測(cè)值和預(yù)測(cè)值之間的均方差即可快速衡量預(yù)測(cè)精度。

4)如果數(shù)據(jù)集中存在是多個(gè)混合變量,那就不應(yīng)選擇自動(dòng)模型選擇方法,因?yàn)槲覀儾⒉辉敢鈱⑺凶兞客瑫r(shí)放在同一個(gè)模型中。

5)所選擇的回歸技術(shù)也取決于你的目的??赡軙?huì)出現(xiàn)這樣的情況,一個(gè)不太強(qiáng)大的模型與具有高度統(tǒng)計(jì)學(xué)意義的模型相比,更易于實(shí)現(xiàn)。

6)回歸正則化方法(套索,嶺和ElasticNet)在高維數(shù)據(jù)和數(shù)據(jù)集變量之間存在多重共線性的情況下運(yùn)行良好。

診斷回歸分析結(jié)果

為了理解、解釋、預(yù)測(cè)某個(gè)問(wèn)題,我們會(huì)進(jìn)行回歸分析。但事實(shí)上,選擇一組優(yōu)質(zhì)的自變量并不是那么容易。通常我們會(huì)根據(jù)一些常識(shí)、理論基礎(chǔ)、某些研究、專(zhuān)家的意見(jiàn)、參考文獻(xiàn)等等選擇一組自變量,來(lái)進(jìn)行自變量的篩選。因此,我們需要診斷回歸分析的質(zhì)量——回歸分析的結(jié)果診斷。

1.自變量與因變量是否具有預(yù)期的關(guān)系

每個(gè)自變量都會(huì)有一個(gè)系數(shù),系數(shù)具有+/-號(hào),來(lái)表示自變量與因變量的關(guān)系。從工具的得到的報(bào)告中,我們看到的系數(shù)的正負(fù),每個(gè)自變量應(yīng)該是我們期望的關(guān)系。如果有非常不符合邏輯的系數(shù),我們就應(yīng)該考慮剔除它了。

當(dāng)然,有時(shí)也可能得到與常識(shí)不同的結(jié)論。舉個(gè)例子,假如我們?cè)谘芯可只馂?zāi),我們通常認(rèn)為降雨充沛的區(qū)域火災(zāi)的發(fā)生率會(huì)相對(duì)較低,也就是所謂的負(fù)相關(guān),但是,這片森林火災(zāi)頻發(fā)的原因可能是閃電雷擊,這樣降雨量這個(gè)自變量可能就不是常識(shí)中的負(fù)相關(guān)的關(guān)系了。

因此,我們除了驗(yàn)證自變量的系數(shù)與先驗(yàn)知識(shí)是否相符外,還有繼續(xù)結(jié)合其他項(xiàng)檢查繼續(xù)診斷,從而得出更可靠的結(jié)論。

2.自變量對(duì)模型是否有幫助

自變量對(duì)模型有無(wú)幫助說(shuō)的就是自變量是否有顯著性。那如何了解這些自變量是否有顯著性呢?

如果自變量的系數(shù)為零(或非常接近零),我們認(rèn)為這個(gè)自變量對(duì)模型沒(méi)有幫助,統(tǒng)計(jì)檢驗(yàn)就用來(lái)計(jì)算系數(shù)為零的概率。如果統(tǒng)計(jì)檢驗(yàn)返回一個(gè)小概率值(p值),則表示系數(shù)為零的概率很小。如果概率小于0.05,匯總報(bào)告上概率(Probability)旁邊的一個(gè)星號(hào)(*)表示相關(guān)自變量對(duì)模型非常重要。換句話說(shuō),其系數(shù)在95%置信度上具有統(tǒng)計(jì)顯著性。

利用空間數(shù)據(jù)在研究區(qū)域內(nèi)建模的關(guān)系存在差異是非常常見(jiàn)的,這些關(guān)系的特征就是不穩(wěn)定。我們就需要通過(guò)穩(wěn)健概率(robust probability)了解一個(gè)自變量是否具有統(tǒng)計(jì)顯著性。

3.殘差是否有空間聚類(lèi)

殘差在空間上應(yīng)該是隨機(jī)分布的,而不應(yīng)該出現(xiàn)聚類(lèi)。這項(xiàng)檢查我們可以使用空間自相關(guān)工具(Spatial Autocorrelation Tool)工具進(jìn)行檢查。

4.模型是否出現(xiàn)了傾向性

我們常說(shuō),不要戴著“有色眼鏡”看人。同樣,回歸分析模型中,也不要帶有“成見(jiàn)”,不能具有傾向性,否則,這不是個(gè)客觀合理的模型。

我們都知道正態(tài)分布是個(gè)極好的分布模式,如果我們正確的構(gòu)建了回歸分析模型,那么模型的殘差會(huì)符合完美的正態(tài)分布,其圖形為鐘形曲線。

當(dāng)模型出現(xiàn)偏差時(shí),可能我們看到的圖形也是詭異的,這樣我們就無(wú)法完全信任所預(yù)測(cè)的結(jié)果。

5.自變量中是否存在冗余

在我們建模的過(guò)程中,應(yīng)盡量去選擇表示各個(gè)不同方面的自變量,也就是盡量避免傳達(dá)相同或相似信息的自變量。要清楚,引入了冗余變量的模型是不足以信任的。

6.評(píng)估模型的性能

最后需要做的是,評(píng)估模型的性能。矯R2值是評(píng)估自變量對(duì)因變量建模的重要度量。

這項(xiàng)檢查應(yīng)該放到最后。一旦我們通過(guò)了前面的所有檢驗(yàn),接下來(lái)就可以進(jìn)行評(píng)估矯正R2值。

R2值的范圍介于0和1之間,以百分比形式表示。假設(shè)正在為犯罪率建模,并找到一個(gè)通過(guò)之前所有五項(xiàng)檢查的模型,其校正

R2值為0.65。這樣就可以了解到模型中的自變量說(shuō)明犯罪率是65%。在有些科學(xué)領(lǐng)域,能夠解釋復(fù)雜現(xiàn)象的 23%

就會(huì)讓人興奮不已。在其他領(lǐng)域,一個(gè)R2值可能需要更靠近80%或90%才能引起別人的注意。不管采用哪一種方式,校正R2值都會(huì)幫我們判斷自己模型的性能。

另一項(xiàng)輔助評(píng)估模型性能的重要診斷是修正的Akaike信息準(zhǔn)則/Akaike’sinformation

criterion

(AIC)。AIC值是用于比較多個(gè)模型的一項(xiàng)有用度量。例如,可能希望嘗試用幾組不同的自變量為學(xué)生的分?jǐn)?shù)建模。在一個(gè)模型中僅使用人口統(tǒng)計(jì)變量,而在另一個(gè)模型選擇有關(guān)學(xué)校和教室的變量,如每位學(xué)生的支出和師生比。只要所有進(jìn)行比較的模型的因變量(在本示例中為學(xué)生測(cè)試分?jǐn)?shù))相同,我們就可以使用來(lái)自每個(gè)模型的

AIC值確定哪一個(gè)的表現(xiàn)更好。模型的AIC值越小,越適合觀測(cè)的數(shù)據(jù)。

回歸設(shè)計(jì)常用軟件

目前,用于回歸設(shè)計(jì)的統(tǒng)計(jì)軟件較多,無(wú)論是對(duì)回歸方案設(shè)計(jì),還是對(duì)試驗(yàn)數(shù)據(jù)處理和回歸設(shè)計(jì)成果的應(yīng)用分析,都有相應(yīng)的軟件支撐,或是自編自用的專(zhuān)業(yè)軟件,或是具有商業(yè)性質(zhì)的統(tǒng)計(jì)軟件包,多種多樣,各有特色。為了便于回歸設(shè)計(jì)的更好應(yīng)用,這里簡(jiǎn)要地介紹挑選或評(píng)價(jià)統(tǒng)計(jì)軟件的基本思考以及幾種回歸設(shè)計(jì)常用的統(tǒng)計(jì)軟件,以利相關(guān)人員簡(jiǎn)捷地選用。

1.統(tǒng)計(jì)軟件的選用原則

在挑選或評(píng)價(jià)統(tǒng)計(jì)軟件時(shí),應(yīng)從以下幾個(gè)方面加以考慮:

1)可用性

一個(gè)軟件如果能為用戶(hù)提供良好的用戶(hù)界面、靈活的處理方式和簡(jiǎn)明的語(yǔ)句或命令,就稱(chēng)這個(gè)軟件可用性強(qiáng)。隨著統(tǒng)計(jì)軟件在可用性方面的不斷進(jìn)步,很多統(tǒng)計(jì)軟件的語(yǔ)法規(guī)則簡(jiǎn)明、靈活、學(xué)用方便,這是人們非常歡迎的。

2)數(shù)據(jù)管理

數(shù)據(jù)錄人、核查、修改、轉(zhuǎn)換和選擇,統(tǒng)稱(chēng)為數(shù)據(jù)管理。好的軟件,如SAS(

statistical analysis system),SPSS(statistical package for thesocial

science) 等的數(shù)據(jù)管理功能已近似大眾化的數(shù)據(jù)庫(kù)軟件。統(tǒng)計(jì)軟件與數(shù)據(jù)庫(kù)軟件之間建立接口,使數(shù)據(jù)管理不斷深人,用起來(lái)非常方便。

3)文件管理

數(shù)據(jù)文件、程序文件、結(jié)果文件等一些文件的建立、存取、修改、合并等,統(tǒng)稱(chēng)為文件管理。它的功能越強(qiáng),操作就越簡(jiǎn)單,越方便。由于操作系統(tǒng)本身文件管理功能較強(qiáng)。因此,從統(tǒng)計(jì)軟件直接調(diào)用操作系統(tǒng)的命令可大大增強(qiáng)其文件管理功能。現(xiàn)在好的統(tǒng)計(jì)軟件已設(shè)計(jì)了這類(lèi)調(diào)用指令。

4)統(tǒng)計(jì)分析

統(tǒng)計(jì)分析是統(tǒng)計(jì)軟件的核心。統(tǒng)計(jì)分析方法的計(jì)算機(jī)程序的數(shù)量和種類(lèi)決定了數(shù)據(jù)處理的深度。有些軟件,如SAS,BMDP(

biomedical computer

programs)等。所包括的分析過(guò)程,足夠科研與管理之需。由于統(tǒng)計(jì)量的選擇,參數(shù)估計(jì)的方法等是多種多樣的,用戶(hù)往往希望統(tǒng)計(jì)分析過(guò)程盡可能多地提供選項(xiàng),這樣可以提高統(tǒng)計(jì)分析的靈活性和深度。

5)容量

盡管處理的數(shù)據(jù)量與計(jì)算機(jī)硬件有直接關(guān)系,然而,軟件的設(shè)計(jì)和程序編寫(xiě)技巧仍起很大作用。軟件好,在一定程度上可以彌補(bǔ)硬件的不足,而低水平的軟件會(huì)浪費(fèi)很好的硬件配置。通常,統(tǒng)計(jì)軟件應(yīng)至少能同時(shí)進(jìn)行不小于10個(gè)變量的上千個(gè)數(shù)據(jù)點(diǎn)的分析、綜合、對(duì)比與預(yù)測(cè)。

2.SAS軟件系統(tǒng)

SAS軟件系統(tǒng)于20世紀(jì)70年代由美國(guó)SAS研究所開(kāi)發(fā)。SAS軟件是用于決策支援的大型集成資訊系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計(jì)分析;至今,統(tǒng)計(jì)分析功能也仍是它的重要模組和核心功能。SAS已經(jīng)遍布全世界,重要應(yīng)用領(lǐng)域涵蓋政府的經(jīng)濟(jì)決策與企業(yè)的決策支援應(yīng)用等,使用的單位遍及金融、醫(yī)藥衛(wèi)生、生產(chǎn)、運(yùn)輸、通訊、科學(xué)研究、政府和教育等領(lǐng)域;在資料處理和統(tǒng)計(jì)分析領(lǐng)域,SAS系統(tǒng)被譽(yù)統(tǒng)計(jì)軟件界的巨無(wú)霸。

SAS

是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。它由數(shù)十個(gè)專(zhuān)用模塊構(gòu)成,功能包括數(shù)據(jù)訪問(wèn)、數(shù)據(jù)儲(chǔ)存及管理、應(yīng)用開(kāi)發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等等。

SAS系統(tǒng)基本上可以分為四大部分:SAS數(shù)據(jù)庫(kù)部分;SAS分析核心;SAS開(kāi)發(fā)呈現(xiàn)工具;SAS對(duì)分布處理模式的支持及其數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)。

SAS系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問(wèn);數(shù)據(jù)管理;數(shù)據(jù)呈現(xiàn);數(shù)據(jù)分析。

SAS

是由大型機(jī)系統(tǒng)發(fā)展而來(lái),其核心操作方式就是程序驅(qū)動(dòng),經(jīng)過(guò)多年的發(fā)展,現(xiàn)在已成為一套完整的計(jì)算機(jī)語(yǔ)言,其用戶(hù)界面也充分體現(xiàn)了這一特點(diǎn):它采用MDI

(多文檔界面),用戶(hù)在PGM視窗中輸入程序,分析結(jié)果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶(hù)可以完成所有需要做的工作,包括統(tǒng)計(jì)分析、預(yù)測(cè)、建模和模擬抽樣等。但是,這使得初學(xué)者在使用SAS時(shí)必須要學(xué)習(xí)SAS語(yǔ)言,入門(mén)比較困難。

3.Excel軟件

在回歸設(shè)計(jì)的實(shí)踐中,一些計(jì)算機(jī)軟件可以解決多元回歸分析的求解問(wèn)題,但常常是數(shù)據(jù)的輸入和軟件的操作運(yùn)用要經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練。Excel軟件為回歸分析的求解給出了非常方便的操作過(guò)程,而且目前Excel軟件幾乎在每臺(tái)計(jì)算機(jī)上都已經(jīng)安裝。

Excel是一個(gè)面向商業(yè)、科學(xué)和工程計(jì)算的數(shù)據(jù)分析軟件,它的主要優(yōu)點(diǎn)是具有對(duì)數(shù)據(jù)進(jìn)行分析、計(jì)算、匯總的強(qiáng)大功能。除了眾多的函數(shù)功能外,Excel的高級(jí)數(shù)據(jù)分析工具則給出了更為深入、更為有用、針對(duì)性更強(qiáng)的各類(lèi)經(jīng)營(yíng)和科研分析功能。高級(jí)數(shù)據(jù)分析工具集中了Excel最精華、對(duì)數(shù)據(jù)分析最有用的部分,其分析工具集中在Excel主菜單中的“工具”子菜單內(nèi),回歸分析便為其中之一。

Excel是以電子表格的方式來(lái)管理數(shù)據(jù)的,所有的輸入、存取、提取、處理、統(tǒng)計(jì)、模型計(jì)算和圖形分析都是圍繞電子表格來(lái)進(jìn)行的。

4.Statistica軟件

Statistica是由統(tǒng)計(jì)軟件公司(Statsoft)開(kāi)發(fā)、專(zhuān)用于科技及工業(yè)統(tǒng)計(jì)的大型軟件包。它除了具有常規(guī)的統(tǒng)計(jì)分析功能外,還包括有因素分析、質(zhì)量控制、過(guò)程分析、回歸設(shè)計(jì)等模塊。利用其回歸設(shè)計(jì)模塊可以進(jìn)行回歸正交設(shè)計(jì)、正交旋轉(zhuǎn)組合設(shè)計(jì)、正交多項(xiàng)式回歸設(shè)計(jì)、A最優(yōu)及D最優(yōu)設(shè)計(jì)等。該軟件包還可以進(jìn)行對(duì)試驗(yàn)結(jié)果的統(tǒng)計(jì)檢驗(yàn)、誤差分析、試驗(yàn)水平估計(jì)和各類(lèi)統(tǒng)計(jì)圖表、曲線、曲面的分析計(jì)算工作。

5.SPSS軟件

SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)就是操作界面極為友好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來(lái),使用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,對(duì)話框展示出各種功能選擇項(xiàng)。用戶(hù)只要掌握一定的Windows操作技能,精通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類(lèi)似EXCEL表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便的從其他數(shù)據(jù)庫(kù)中讀入數(shù)據(jù)。其統(tǒng)計(jì)過(guò)程包括了常用的、較為成熟的統(tǒng)計(jì)過(guò)程,完全可以滿足非統(tǒng)計(jì)專(zhuān)業(yè)人士的工作需要。輸出結(jié)果十分美觀,存儲(chǔ)時(shí)則是專(zhuān)用的SPO格式,可以轉(zhuǎn)存為HTML格式和文本格式。對(duì)于熟悉老版本編程運(yùn)行方式的用戶(hù),SPSS還特別設(shè)計(jì)了語(yǔ)法生成窗口,用戶(hù)只需在菜單中選好各個(gè)選項(xiàng),然后按"粘貼"按鈕就可以自動(dòng)生成標(biāo)準(zhǔn)的SPSS程序。極大的方便了中、高級(jí)用戶(hù)。

6.R軟件

R語(yǔ)言是統(tǒng)計(jì)領(lǐng)域廣泛使用的,誕生于1980年左右的S語(yǔ)言的一個(gè)分支。 R語(yǔ)言是S語(yǔ)言的一種實(shí)現(xiàn)。S語(yǔ)言是由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的一種用來(lái)進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析、作圖的解釋型語(yǔ)言。

R是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng);數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡(jiǎn)便而強(qiáng)大的編程語(yǔ)言:可操縱數(shù)據(jù)的輸入和輸入,可實(shí)現(xiàn)分支、循環(huán),用戶(hù)可自定義功能。

與其說(shuō)R是一種統(tǒng)計(jì)軟件,還不如說(shuō)R是一種數(shù)學(xué)計(jì)算的環(huán)境,因?yàn)镽并不是僅僅提供若干統(tǒng)計(jì)程序、使用者只需指定數(shù)據(jù)庫(kù)和若干參數(shù)便可進(jìn)行一個(gè)統(tǒng)計(jì)分析。R的思想是:它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)的進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。

R是一個(gè)免費(fèi)的自由軟件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免費(fèi)下載和使用的。在R主頁(yè)那兒可以下載到R的安裝程序、各種外掛程序和文檔。在R的安裝程序中只包含了8個(gè)基礎(chǔ)模塊,其他外在模塊可以通過(guò)CRAN獲得。

學(xué)習(xí)資料

1.書(shū)籍

1)《實(shí)用回歸分析》(何曉群)

該書(shū)從數(shù)據(jù)出發(fā),不是從假設(shè)、定理出發(fā);從歸納出發(fā),不是從演繹出法;強(qiáng)調(diào)案例分析;重統(tǒng)計(jì)思想的闡述,弱化數(shù)學(xué)證明的推導(dǎo)。

2)《應(yīng)用多元統(tǒng)計(jì)分析》(高惠璇)

書(shū)中介紹了各種常用的多元統(tǒng)計(jì)分析方法的統(tǒng)計(jì)背景和實(shí)際意義,說(shuō)明該方法的統(tǒng)計(jì)思想、數(shù)學(xué)原理及解題步驟,還列舉了各方面的應(yīng)用實(shí)例。該書(shū)將多元統(tǒng)計(jì)方法的介紹與在計(jì)算機(jī)上實(shí)現(xiàn)這些方法的統(tǒng)計(jì)軟件(SAS系統(tǒng))結(jié)合起來(lái),不僅可以學(xué)到統(tǒng)計(jì)方法的理論知識(shí),還知道如何解決實(shí)際問(wèn)題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 回歸分析是研究自變量和因變量之間數(shù)量變化關(guān)系的一種分析方法。 回歸分析包括線性回歸和非線性回歸。線性回歸包括簡(jiǎn)單線...
    雪莉1709閱讀 1,427評(píng)論 0 1
  • 正式稿: 每天1分鐘數(shù)據(jù)分析小知識(shí)1-回歸分析 我們現(xiàn)實(shí)中遇到的數(shù)據(jù),一般都是“毫無(wú)規(guī)律”的散點(diǎn)圖,回歸分析就是把...
    月光漣漪閱讀 1,325評(píng)論 0 1
  • 漸變的面目拼圖要我怎么拼? 我是疲乏了還是投降了? 不是不允許自己墜落, 我沒(méi)有滴水不進(jìn)的保護(hù)膜。 就是害怕變得面...
    悶熱當(dāng)乘涼閱讀 4,502評(píng)論 0 13
  • 感覺(jué)自己有點(diǎn)神經(jīng)衰弱,總是覺(jué)得手機(jī)響了;屋外有人走過(guò);每次媽媽不聲不響的進(jìn)房間突然跟我說(shuō)話,我都會(huì)被嚇得半死!一整...
    章魚(yú)的擁抱閱讀 2,414評(píng)論 4 5
  • 夜鶯2517閱讀 128,214評(píng)論 1 9

友情鏈接更多精彩內(nèi)容