Stata 與模型的設(shè)定

介紹模型設(shè)定的相關(guān)內(nèi)容,包括虛擬變量的使用、經(jīng)濟結(jié)構(gòu)變動的檢驗、遺漏變量的檢驗、自變量數(shù)量的選擇、極端數(shù)據(jù)的診斷與處理等方面的內(nèi)容。

1.虛擬變量處理

對于定性數(shù)據(jù), 通常并不能將其直接納入模型中進(jìn)行回歸分析,因為這樣的分析并不符合經(jīng)濟學(xué)理論, 所以這時需要引入虛擬變量進(jìn)行處理。一般情況下,如果分類變量總共有N類,為了避免多重共線性的出現(xiàn), 通常只引入N-1個虛擬變量。

image-20191117211642003.png

image-20191117211705269.png
  1. 為了便于比較,首先生成整個時期中不含虛擬變量的消費函數(shù)方程,所使用到的命令為:

regress financevalue gdp

image-20191117211824715.png

[圖片上傳中...(image-20191117211705269.png-c763b3-1574492559433-0)]

  1. 如果認(rèn)為在2003 年,銀行業(yè)改革導(dǎo)致了金融業(yè)經(jīng)營的變動,這時需要引入虛擬變量將 模型分成兩段進(jìn)行回歸,步驟如下:

    • 生成虛擬變量

      generate dummy=0
      replace dummy=1 if year>=2003
      
    • 生成虛擬變量dummy 和解釋變量gdp 的互動項,使用命令:

      generate dummy_gdp = dummy*gdp

    • 將虛擬變量納入回歸方程

      reg financevalue gdp dummy dummy_gdp

image-20191117212951989.png

2.經(jīng)濟結(jié)構(gòu)變動的Chow檢驗

在時間序列模型之中,需要十分注重模型系數(shù)的穩(wěn)定性, Chow 檢驗提供了一個較為嚴(yán) 謹(jǐn)?shù)臋z驗經(jīng)濟結(jié)構(gòu)變動的方法。

image-20191117233210459-1574065994089.png

1.手動進(jìn)行Chow檢驗

檢驗的方法是分別進(jìn)行三次回歸。檢驗中國金融業(yè)增加值函數(shù)是否在2003 年以后發(fā)生了結(jié)構(gòu)變化的操作過程如下:

  1. 首先,生成整個時期的回歸方程, 計算出這時的殘差平方和,輸入命令:

    regress financevalue gdp  //生成關(guān)于金融業(yè)增加值的函數(shù)financevalue =α+?gdp
    predict e , residual      //生成殘差序列
    gen a=e^2
    egen b=sum (a)            //生成變量b ,使其值為序列a的和,即殘差平方和</pre>
    
    1. 其次, 生成2003 年以前序列的回歸方程,計算出前半段時期的殘差平方和,輸入命令:
     regress financevalue gdp if year<2003
     predict e1 if year<2003 , residual
     gen al=e1^2
     egen bl=sum(a1)
    
  2. 生成2003 年以后序列的回歸方程,然后計算出這后半段時期的殘差平方和,輸入命令:

     regress financevalue gdp if year<2003
     predict e1 if year<2003 , residual
     gen al=e1^2
     egen bl=sum(a1)
  1. 最后, 計算F 統(tǒng)計量的值, 并與臨界值進(jìn)行比較,輸入命令.

    gen f=((b-b1-b2)/(2))/((bl+b2)/(29-2*2))
    sum f

    image-20191117234051010-1574065999494.png

2.自動進(jìn)行Chow檢驗

  1. 下載chow檢驗命令,一般選擇第一個鏈接安裝

    findit chow

image-20191118094844272.png
  1. 利用financevalue.dta 數(shù)據(jù),檢驗2002 年是否為結(jié)構(gòu)變化點,可使用命令:

    chow financevalue gdp, chow(year>2002)

    在這個命令語句中, cbow fmancevalue gdp 說明要對變量financevalue 和gdp 進(jìn)行檢驗, cbow(year>2002)說明結(jié)構(gòu)變動可能出現(xiàn)在2003 年,命令執(zhí)行的結(jié)果同手動法一致。

3. 遺漏變量的檢驗

遺漏變量屬于解釋變量選取錯誤的一種,因為某些數(shù)據(jù)確實難以獲得,但是有時這種遺 漏將會大大降低模型的精確度。假設(shè)正確模型如下所示:

image-20191118100125494-1574066003667.png

如果在模型設(shè)定中遺漏了一個與被解釋變量相關(guān)的變量X2 ,即所設(shè)定的模型為:

image-20191118100148357-1574066005381.png

遺漏變量有3種情況:

image-20191118100356924-1574066007318.png

Stata 提供了兩種檢驗是否存在遺漏變量的方法: 一種是Link檢驗,另一種是Ramsey 檢驗。Link 檢驗的基本思想是: 如果模型的設(shè)定是正確的,那么y的擬合值的平方項將不應(yīng)具有解釋能力。Ramsey 檢驗的基本思想是:如果模型設(shè)定無誤,那么擬合值和解釋變量的高階項都不應(yīng)再有解釋能力。

實驗

wage=工資(單位:元/小時) , educ=受教育年限(單位: 年) , exper=工作經(jīng)驗?zāi)晗?單位: 年) , tenure=任 職年限〈單位: 年) , lwage=工資的對數(shù)值。

image-20191118100642517-1574066009917.png

分別利用Link 方法和Ramsey 方法檢驗?zāi)P?strong>lwage =?1educ +?2exper +?3tenure是否遺漏了重要的解釋變量。

1.使用Link方法檢驗遺漏變量

    use c : \data\chinawage.dta , clear
    reg l wage educ exper tenure
    linktest
image-20191118105608317-1574066012374.png
image-20191118105724828.png
gen educ2=educ^2
gen exper2=exper^2
reg lwage educ exper tenure educ2 exper2
linktest
image-20191118105749282-1574066029464.png

從圖7. 5 中可以看出,經(jīng)過添加解釋變量后的模型擬合優(yōu)度有了一定程度的提高,而且通過Link 檢驗可以看出此時hatsq項的p 值為0. 758 ,無法拒絕hatsq系數(shù)為零的假設(shè),說明被解釋變量lwage 的擬合值的平方項不再具有解釋能力,所以可以得出結(jié)論: 新模型基本沒有遺漏重要的解釋變量。

2.使用Ramsey方法檢驗遺漏變量

    gen educ2=educ^2
    gen exper2=exper^2
    reg lwage educ exper tenure educ2 exper2
    linktest
image-20191118110042394-1574066036576.png

在圖7.6 中,第1 個圖表仍然是回歸結(jié)果,第2 個圖表是Ramsey 檢驗的結(jié)果,不難發(fā)現(xiàn)Ramsey 檢驗的原假設(shè)是模型不存在遺漏變量,檢驗的p 值為0 . 5762 ,沒有拒絕原假設(shè),即認(rèn)為原模型不存在遺漏變量。

為了進(jìn)一步驗證添加變量是否會改變Ramsey 檢驗的結(jié)果,同樣采取Link 檢驗中的方法, 生成受教育年限educ 和工作經(jīng)驗?zāi)晗辝xper 的平方項,重新進(jìn)行回歸并進(jìn)行檢驗,命令如下:

  gen educ2=educ^2
  gen exper2=exper^2
  reg lwage educ exper tenure educ2 exper2
  estat ovtest
image-20191118110322606-1574066043793.png

調(diào)整之后的檢驗結(jié)果,可以發(fā)現(xiàn)此時檢驗的p 值為0 . 6326 ,無法拒絕原假設(shè),即認(rèn)為模型不再存在遺漏變量。

4. 自變量數(shù)量的選擇

人們總是希望建立具有經(jīng)濟意義而又簡潔的模型,在現(xiàn)實的經(jīng)濟研究過程中,通常使用信息準(zhǔn)則來確定解釋變量的個數(shù),較為常用的信息準(zhǔn)則有兩個。

image-20191118121750463-1574066046150.png

實驗

中國工資的橫截面數(shù)據(jù),變量主要包括: wage=工資(單位:元/小時) , educ=受教育年限(單位:年) , exper=工作經(jīng)驗?zāi)晗?單位:年) , tenure=任職年限(單位:年) , lwage=工資的對數(shù)值。

image-20191118121933047-1574066049554.png
    use c:\data\chinawage.dta, clear
    reg lwage educ exper tenure
    estat ic
image-20191118122113686-1574066051580.png

AIC 值為一37.77 , BIC 值為一24 .00 。

加入教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,建立新模型lwage = ?o +?1educ + ?2exper + ?3 tenure +?4 educ2 + ?5 exper2 , 然后重新對其進(jìn)行回歸井計算, 命令如下:

gen educ2=educ^2
gen exper2=exper^2
reg lwage educ exper tenure educ2 exper2
estat ic
image-20191118122710607-1574066054046.png

AIC 值為-39.91,BIC 值為-19.25。第2 個模型的信息準(zhǔn)則值更小,所以此模型優(yōu)于第一個模型。

5. 極端數(shù)據(jù)的診斷與處理

在全體觀測值中,會有一些樣本和總體樣本距離較遠(yuǎn),這些樣本在回歸中可能會對斜率或者截距的估計產(chǎn)生較大的影響,從而使得估計值和真值的差距較大,所以在實際應(yīng)用中,首先應(yīng)通過繪制散點圖的方式觀測是否有極端數(shù)值的存在,如果有,應(yīng)該去掉這些極端數(shù)值再進(jìn)行回歸分析。 ? 如果解釋變量過多或者是面板數(shù)據(jù),繪圖的方式并不直觀,通常使用leverage 影響力方法來判斷該數(shù)據(jù)是否是極端數(shù)據(jù)。若數(shù)據(jù)的leverage 影響力值高于平均值, 則對回歸系數(shù)影響較大,這時可能會產(chǎn)生極端數(shù)據(jù)的影響。

實驗

以price 為因變量, mpg(每加侖油所行駛的英里數(shù)) 、weight(汽車重量)和foreign(是否是進(jìn)口車) 為自變量建立回歸模型,找出樣本數(shù)據(jù)中存在的極端數(shù)據(jù)。

image-20191118124133128-1574066057836.png

建立回歸模型price =?0+?1mpg+ ?2weight + ?3foreign ,為分析汽車數(shù)據(jù)中是否存在極端值,在Stata 中輸入如下命令:

regress price mpg weight foreign
predict lev,leverage
gsort -lev
sum lev
list in 1/3    //計算lev值,并將由大到小前3 位的數(shù)據(jù)顯示出來
image-20191118124537137-1574066060415.png

在結(jié)果中可以看到lev 的均值為0. 0541 ,而最大的lev 值為0.3001,所以該觀測值有可能為極端數(shù)據(jù),可以采取進(jìn)一步的方法進(jìn)行處理,從而保證模型的精確性。

處理的方法一般有兩種: 一種方法為直接去掉極端值:另一種方法則選擇其他更為恰當(dāng)?shù)哪P瓦M(jìn)行回歸分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容