1、什么是回歸分析?
回歸分析是研究自變量X和因變量Y之間數(shù)量變化關(guān)系的一種分析方法,主要是通過建立因變量Y和影響他的自變量Xi(i1,2,3...)之間的回歸模型,衡量自變量Xi對因變量Y的影響能力,進而可以用來預(yù)測因變量Y的發(fā)展趨勢。
相關(guān)分析和回歸分析的聯(lián)系:
都是研究及測度兩個或兩個以上變量之間關(guān)系的方法。一般是先進行相關(guān)分析,計算相關(guān)系數(shù),然后在建立回歸模型,最后用回歸模型進行推算或預(yù)測。
相關(guān)分析和回歸分析的區(qū)別:
先關(guān)分析研究的是隨機變量,不區(qū)分自變量和因變量;回歸分析研究的變量要定義出自變量和因變量,并且自變量是確定的普通變量,因變量是隨機變量。
相關(guān)分析主要描述變量之間相關(guān)關(guān)系的密切程度;回歸分析不僅僅可以揭示變量X對變量Y的影響程度,還可以根據(jù)回歸模型進行預(yù)測。
回歸模型主要包括線性回歸和非線性回歸。線性回歸有分為簡單線性回歸和多重線性回歸;非線性回歸一般需要通過對數(shù)轉(zhuǎn)化等方式轉(zhuǎn)化為線性回歸的形式進行研究。
2、線性回歸分析步驟
1)根據(jù)預(yù)測目標,確定自變量和因變量
圍繞業(yè)務(wù)問題,明確預(yù)測目標,根據(jù)經(jīng)驗和常識或過往數(shù)據(jù)等初步確定自變量和因變量
2)繪制散點圖,確定回歸模型類型
繪制散點圖,初步判斷自變量和因變量之間是否基友線性相關(guān)關(guān)系,同時進行相關(guān)分析,判斷相關(guān)程度和方向,從而確立回歸模型的類型
3)估計模型參數(shù),建立回歸模型
最小二乘法進行模型參數(shù)的估計,建立回歸模型
4)對回歸模型就行檢驗
通過對真?zhèn)€模型及各個參數(shù)的統(tǒng)計顯著性檢驗,逐步優(yōu)化和最終確立回歸模型
5)利用回歸模型進行預(yù)測
模型通過檢驗后,應(yīng)用到新的數(shù)據(jù)中,進行預(yù)測
一、簡單線性回歸分析簡介
簡單線性回歸也稱之為一元線性回歸,就是模型中只有一個自變量,他主要用來處理一個自變量與一個因變量之間的線性關(guān)系。
模型為:Y=a+bX+ε
Y:因變量;
?X:自變量;
?a:常數(shù),也就是截距;
?b:回歸系數(shù),也就是斜率;
ε:隨機誤差,即隨機變量對因變量產(chǎn)生的影響。
什么是最小二乘法?
最小二乘法又叫做最小平方法,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。
一是將誤差最小化,二是將誤差最小化的方法是將誤差的平方和最小化。“平方”有稱之為“二乘”,用平方的方法是要規(guī)避負數(shù)對計算的影響。
最小二乘法在回歸模型上的應(yīng)用,就是要似的觀測點和估計點之間的距離的平方和達到最小,距離最近,也就是使得盡可能多的觀測點落在或者更加靠近這條擬合出來的直線上。
第一步:根據(jù)預(yù)測目標,確定自變量和因變量
“廣告費用”作為自變量,“銷售額”最為因變量,評估廣告對銷售額的具體影響。
第二步:繪制散點圖,確定回歸模型類型
結(jié)論:兩個變量之間存在明顯的線性相關(guān)關(guān)系
第三步:估計模型參數(shù),簡歷回歸模型
【統(tǒng)計】界面中,“估算值”的作用是估算出回歸系數(shù),要勾選。
“模型擬合”的作用是輸出判定系數(shù)R的平方
【選項】界面,一定要勾選“在方程中包括常量”,目的是輸出擬合直線的截距a。
由于是簡單線性回歸,方法選擇“輸入”即可,因為只有兩個變量,具體的區(qū)別在下一篇“多重線性回歸分析”里具體作出說明。
第四步:對回歸模型進行檢驗
這張表說的是簡單線性回歸模型建立過程的相關(guān)信息。
自變量是廣告費用,因變量是銷售額,自變量的步進方法是輸入。
相關(guān)系數(shù)R:解釋變量之間的相關(guān)性,R=0.816>0.8,為高度正向相關(guān)關(guān)系。
判定系數(shù)R方:也叫擬合優(yōu)度或決定系數(shù),表示擬合得到的模型能解釋因變量變化的百分比,R方越接近1,表示回歸模型擬合效果越好。本例中R方為0.666表示自變量“廣告費用”能解釋因變量“銷售額”模型變化的66.6%的數(shù)據(jù),模型擬合效果一般,尚可接受。如果是多重線性回歸模型則看調(diào)整后的R方。
標準估算的誤差:反映了建立的模型預(yù)測因變量的精度,在對比多個回歸模型的擬合效果時,常會比較該指標,值越小,說明擬合效果越好。
這張表的主要作用是通過F檢驗來判斷回歸模型的回歸效果,即檢驗因變量和自變量之間的線性關(guān)系是否顯著,用線性模型來描述他們之間的關(guān)系是否恰當。
只要看F和顯著性P,因為F還需要查看(F分布臨界值表),所以可直接用顯著性P得出結(jié)果。
0<=顯著性P<=0.1,則表明結(jié)果具有極其顯著的統(tǒng)計學(xué)意義;
0.1<顯著性P<=0.5,則表明結(jié)果具有顯著的統(tǒng)計學(xué)意義;
顯著性P>0.5,則表明結(jié)果不具有顯著的統(tǒng)計學(xué)意義。
這個表主要用與回歸模型的描述和回歸系數(shù)的顯著性檢驗。
簡單線性回歸模型:Y=377+14.475X
顯著性P=0<0.01,說明回歸系數(shù)b具有極其顯著的統(tǒng)計學(xué)意義。
第五步:利用回歸模型進行預(yù)測
1、數(shù)據(jù)較少時,手動計算即可
2、數(shù)據(jù)較多時,SPSS自動計算,方法如下:
在【保存】選項里勾選“未標準化”
這樣就可以在元數(shù)據(jù)中增加一個新的變量PRE-1表示結(jié)果。