介紹模型設(shè)定的相關(guān)內(nèi)容,包括虛擬變量的使用、經(jīng)濟結(jié)構(gòu)變動的檢驗、遺漏變量的檢驗、自變量數(shù)量的選擇、極端數(shù)據(jù)的診斷與處理等方面的內(nèi)容。
1.虛擬變量處理
對于定性數(shù)據(jù), 通常并不能將其直接納入模型中進(jìn)行回歸分析,因為這樣的分析并不符合經(jīng)濟學(xué)理論, 所以這時需要引入虛擬變量進(jìn)行處理。一般情況下,如果分類變量總共有N類,為了避免多重共線性的出現(xiàn), 通常只引入N-1個虛擬變量。


- 為了便于比較,首先生成整個時期中不含虛擬變量的消費函數(shù)方程,所使用到的命令為:
regress financevalue gdp

[圖片上傳中...(image-20191117211705269.png-c763b3-1574492559433-0)]
-
如果認(rèn)為在2003 年,銀行業(yè)改革導(dǎo)致了金融業(yè)經(jīng)營的變動,這時需要引入虛擬變量將 模型分成兩段進(jìn)行回歸,步驟如下:
-
生成虛擬變量
generate dummy=0 replace dummy=1 if year>=2003 -
生成虛擬變量dummy 和解釋變量gdp 的互動項,使用命令:
generate dummy_gdp = dummy*gdp -
將虛擬變量納入回歸方程
reg financevalue gdp dummy dummy_gdp
-

2.經(jīng)濟結(jié)構(gòu)變動的Chow檢驗
在時間序列模型之中,需要十分注重模型系數(shù)的穩(wěn)定性, Chow 檢驗提供了一個較為嚴(yán) 謹(jǐn)?shù)臋z驗經(jīng)濟結(jié)構(gòu)變動的方法。

1.手動進(jìn)行Chow檢驗
檢驗的方法是分別進(jìn)行三次回歸。檢驗中國金融業(yè)增加值函數(shù)是否在2003 年以后發(fā)生了結(jié)構(gòu)變化的操作過程如下:
-
首先,生成整個時期的回歸方程, 計算出這時的殘差平方和,輸入命令:
regress financevalue gdp //生成關(guān)于金融業(yè)增加值的函數(shù)financevalue =α+?gdp predict e , residual //生成殘差序列 gen a=e^2 egen b=sum (a) //生成變量b ,使其值為序列a的和,即殘差平方和</pre>- 其次, 生成2003 年以前序列的回歸方程,計算出前半段時期的殘差平方和,輸入命令:
regress financevalue gdp if year<2003 predict e1 if year<2003 , residual gen al=e1^2 egen bl=sum(a1) 生成2003 年以后序列的回歸方程,然后計算出這后半段時期的殘差平方和,輸入命令:
regress financevalue gdp if year<2003
predict e1 if year<2003 , residual
gen al=e1^2
egen bl=sum(a1)
-
最后, 計算F 統(tǒng)計量的值, 并與臨界值進(jìn)行比較,輸入命令.
gen f=((b-b1-b2)/(2))/((bl+b2)/(29-2*2))
sum f
image-20191117234051010-1574065999494.png
2.自動進(jìn)行Chow檢驗
-
下載chow檢驗命令,一般選擇第一個鏈接安裝
findit chow

-
利用financevalue.dta 數(shù)據(jù),檢驗2002 年是否為結(jié)構(gòu)變化點,可使用命令:
chow financevalue gdp, chow(year>2002)在這個命令語句中, cbow fmancevalue gdp 說明要對變量financevalue 和gdp 進(jìn)行檢驗, cbow(year>2002)說明結(jié)構(gòu)變動可能出現(xiàn)在2003 年,命令執(zhí)行的結(jié)果同手動法一致。
3. 遺漏變量的檢驗
遺漏變量屬于解釋變量選取錯誤的一種,因為某些數(shù)據(jù)確實難以獲得,但是有時這種遺 漏將會大大降低模型的精確度。假設(shè)正確模型如下所示:

如果在模型設(shè)定中遺漏了一個與被解釋變量相關(guān)的變量X2 ,即所設(shè)定的模型為:

遺漏變量有3種情況:

Stata 提供了兩種檢驗是否存在遺漏變量的方法: 一種是Link檢驗,另一種是Ramsey 檢驗。Link 檢驗的基本思想是: 如果模型的設(shè)定是正確的,那么y的擬合值的平方項將不應(yīng)具有解釋能力。Ramsey 檢驗的基本思想是:如果模型設(shè)定無誤,那么擬合值和解釋變量的高階項都不應(yīng)再有解釋能力。
實驗
wage=工資(單位:元/小時) , educ=受教育年限(單位: 年) , exper=工作經(jīng)驗?zāi)晗?單位: 年) , tenure=任 職年限〈單位: 年) , lwage=工資的對數(shù)值。

分別利用Link 方法和Ramsey 方法檢驗?zāi)P?strong>lwage =?1educ +?2exper +?3tenure是否遺漏了重要的解釋變量。
1.使用Link方法檢驗遺漏變量
use c : \data\chinawage.dta , clear
reg l wage educ exper tenure
linktest


gen educ2=educ^2
gen exper2=exper^2
reg lwage educ exper tenure educ2 exper2
linktest

從圖7. 5 中可以看出,經(jīng)過添加解釋變量后的模型擬合優(yōu)度有了一定程度的提高,而且通過Link 檢驗可以看出此時hatsq項的p 值為0. 758 ,無法拒絕hatsq系數(shù)為零的假設(shè),說明被解釋變量lwage 的擬合值的平方項不再具有解釋能力,所以可以得出結(jié)論: 新模型基本沒有遺漏重要的解釋變量。
2.使用Ramsey方法檢驗遺漏變量
gen educ2=educ^2
gen exper2=exper^2
reg lwage educ exper tenure educ2 exper2
linktest

在圖7.6 中,第1 個圖表仍然是回歸結(jié)果,第2 個圖表是Ramsey 檢驗的結(jié)果,不難發(fā)現(xiàn)Ramsey 檢驗的原假設(shè)是模型不存在遺漏變量,檢驗的p 值為0 . 5762 ,沒有拒絕原假設(shè),即認(rèn)為原模型不存在遺漏變量。
為了進(jìn)一步驗證添加變量是否會改變Ramsey 檢驗的結(jié)果,同樣采取Link 檢驗中的方法, 生成受教育年限educ 和工作經(jīng)驗?zāi)晗辝xper 的平方項,重新進(jìn)行回歸并進(jìn)行檢驗,命令如下:
gen educ2=educ^2
gen exper2=exper^2
reg lwage educ exper tenure educ2 exper2
estat ovtest

調(diào)整之后的檢驗結(jié)果,可以發(fā)現(xiàn)此時檢驗的p 值為0 . 6326 ,無法拒絕原假設(shè),即認(rèn)為模型不再存在遺漏變量。
4. 自變量數(shù)量的選擇
人們總是希望建立具有經(jīng)濟意義而又簡潔的模型,在現(xiàn)實的經(jīng)濟研究過程中,通常使用信息準(zhǔn)則來確定解釋變量的個數(shù),較為常用的信息準(zhǔn)則有兩個。

實驗
中國工資的橫截面數(shù)據(jù),變量主要包括: wage=工資(單位:元/小時) , educ=受教育年限(單位:年) , exper=工作經(jīng)驗?zāi)晗?單位:年) , tenure=任職年限(單位:年) , lwage=工資的對數(shù)值。

use c:\data\chinawage.dta, clear
reg lwage educ exper tenure
estat ic

AIC 值為一37.77 , BIC 值為一24 .00 。
加入教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,建立新模型lwage = ?o +?1educ + ?2exper + ?3 tenure +?4 educ2 + ?5 exper2 , 然后重新對其進(jìn)行回歸井計算, 命令如下:
gen educ2=educ^2
gen exper2=exper^2
reg lwage educ exper tenure educ2 exper2
estat ic

AIC 值為-39.91,BIC 值為-19.25。第2 個模型的信息準(zhǔn)則值更小,所以此模型優(yōu)于第一個模型。
5. 極端數(shù)據(jù)的診斷與處理
在全體觀測值中,會有一些樣本和總體樣本距離較遠(yuǎn),這些樣本在回歸中可能會對斜率或者截距的估計產(chǎn)生較大的影響,從而使得估計值和真值的差距較大,所以在實際應(yīng)用中,首先應(yīng)通過繪制散點圖的方式觀測是否有極端數(shù)值的存在,如果有,應(yīng)該去掉這些極端數(shù)值再進(jìn)行回歸分析。 ? 如果解釋變量過多或者是面板數(shù)據(jù),繪圖的方式并不直觀,通常使用leverage 影響力方法來判斷該數(shù)據(jù)是否是極端數(shù)據(jù)。若數(shù)據(jù)的leverage 影響力值高于平均值, 則對回歸系數(shù)影響較大,這時可能會產(chǎn)生極端數(shù)據(jù)的影響。
實驗
以price 為因變量, mpg(每加侖油所行駛的英里數(shù)) 、weight(汽車重量)和foreign(是否是進(jìn)口車) 為自變量建立回歸模型,找出樣本數(shù)據(jù)中存在的極端數(shù)據(jù)。

建立回歸模型price =?0+?1mpg+ ?2weight + ?3foreign ,為分析汽車數(shù)據(jù)中是否存在極端值,在Stata 中輸入如下命令:
regress price mpg weight foreign
predict lev,leverage
gsort -lev
sum lev
list in 1/3 //計算lev值,并將由大到小前3 位的數(shù)據(jù)顯示出來

在結(jié)果中可以看到lev 的均值為0. 0541 ,而最大的lev 值為0.3001,所以該觀測值有可能為極端數(shù)據(jù),可以采取進(jìn)一步的方法進(jìn)行處理,從而保證模型的精確性。
處理的方法一般有兩種: 一種方法為直接去掉極端值:另一種方法則選擇其他更為恰當(dāng)?shù)哪P瓦M(jìn)行回歸分析。
