
多重共線性產(chǎn)生的背景和原因
在研究實(shí)際問(wèn)題時(shí),考慮的解釋變量往往有很多個(gè),解釋變量之間完全不相關(guān)的情形是非常少見的。客觀地說(shuō),某一經(jīng)濟(jì)現(xiàn)象,涉及多個(gè)影響因素時(shí),這多個(gè)影響因素之間大都有一定的相關(guān)性。當(dāng)這一組變量間有較強(qiáng)的相關(guān)性時(shí),我們就認(rèn)為是一種違背多元線性回歸模型基本假設(shè)的情形。當(dāng)我們所研究的經(jīng)濟(jì)問(wèn)題涉及時(shí)間序列資料時(shí),由于經(jīng)濟(jì)變量隨時(shí)間往往存在共同的變化趨勢(shì),使得它們之間容易出現(xiàn)共線性。例如,我國(guó)近年來(lái)的經(jīng)濟(jì)增長(zhǎng)態(tài)勢(shì)很好,經(jīng)濟(jì)增長(zhǎng)對(duì)各種經(jīng)濟(jì)現(xiàn)象都產(chǎn)生影響,使得多種經(jīng)濟(jì)指標(biāo)相互密切關(guān)聯(lián)。比如我們要研究我國(guó)居民消費(fèi)情況,影響居民消費(fèi)的因素很多,一般有職工平均工資、農(nóng)民平均收入、銀行利率、全國(guó)零售物價(jià)指數(shù)、國(guó)債利率、貨幣發(fā)行量、儲(chǔ)蓄額、前期消費(fèi)額等,這些因素顯然既對(duì)居民消費(fèi)產(chǎn)生重要影響,它們之間又有著很強(qiáng)的相關(guān)性對(duì)于許多利用截面數(shù)據(jù)建立回歸方程的問(wèn)題常常也存在自變量高度相關(guān)的情形。例如,以企業(yè)的截面數(shù)據(jù)為樣本估計(jì)生產(chǎn)函數(shù),由于要素資本投入、勞動(dòng)力投入、科技投入、能源供應(yīng)量等都與企業(yè)的生產(chǎn)規(guī)模有關(guān),所以它們之間存在較強(qiáng)的相關(guān)性。
汪冬華,多元統(tǒng)計(jì)分析與SPSS應(yīng)用? 第2版,華東理工大學(xué)出版社,2018.02,第137頁(yè)
如何消除多重共線性
在多元線性回歸模型經(jīng)典假設(shè)中,其重要假定之一是回歸模型的解釋變量之間不存在線性關(guān)系,也就是說(shuō),解釋變量X1,X2,……,Xk中的任何一個(gè)都不能是其他解釋變量的線性組合。如果違背這一假定,即線性回歸模型中某一個(gè)解釋變量與其他解釋變量間存在線性關(guān)系,就稱線性回歸模型中存在多重共線性。多重共線性違背了解釋變量間不相關(guān)的古典假設(shè),將給普通最小二乘法帶來(lái)嚴(yán)重后果。
? ? 所謂多重共線性是指線性回歸模型的解釋變量之間由于存在精確相關(guān)關(guān)系或者高度相關(guān)關(guān)系而使模型評(píng)估失真或者不準(zhǔn)確。這里,我們總結(jié)了8個(gè)處理多重共線性問(wèn)題的可用方法,大家在遇到多重共線性問(wèn)題時(shí)可作參考:
1、保留重要解釋變量,去掉次要或可替代解釋變量
? ? 自變量之間存在共線性,說(shuō)明自變量所提供的信息是重疊的,可以刪除不重要的自變量減少重復(fù)信息。但從模型中刪去自變量時(shí)應(yīng)該注意:從實(shí)際經(jīng)濟(jì)分析確定為相對(duì)不重要并從偏相關(guān)系數(shù)檢驗(yàn)證實(shí)為共線性原因的那些變量中刪除。如果刪除不當(dāng),會(huì)產(chǎn)生模型設(shè)定誤差,造成參數(shù)估計(jì)嚴(yán)重有偏的后果。
2、改變解釋變量的形式
? ??改變解釋變量的形式是解決多重共線性的一種簡(jiǎn)易方法,例如對(duì)于橫截面數(shù)據(jù)采用相對(duì)數(shù)變量,對(duì)于時(shí)間序列數(shù)據(jù)采用增量型變量。
3、差分法
4、逐步回歸分析
? ??逐步回歸(Stepwise Regression)是一種常用的消除多重共線性、選取“最優(yōu)”回歸方程的方法。其做法是將逐個(gè)引入自變量,引入的條件是該自變量經(jīng)F檢驗(yàn)是顯著的,每引入一個(gè)自變量后,對(duì)已選入的變量進(jìn)行逐個(gè)檢驗(yàn),如果原來(lái)引入的變量由于后面變量的引入而變得不再顯著,那么就將其剔除。引入一個(gè)變量或從回歸方程中剔除一個(gè)變量,為逐步回歸的一步,每一步都要進(jìn)行F 檢驗(yàn),以確保每次引入新變量之前回歸方程中只包含顯著的變量。這個(gè)過(guò)程反復(fù)進(jìn)行,直到既沒(méi)有不顯著的自變量選入回歸方程,也沒(méi)有顯著自變量從回歸方程中剔除為止。
5、主成份分析
主成分分析作為多元統(tǒng)計(jì)分析的一種常用方法在處理多變量問(wèn)題時(shí)具有其一定的優(yōu)越性,其降維的優(yōu)勢(shì)是明顯的,主成分回歸方法對(duì)于一般的多重共線性問(wèn)題還是適用的,尤其是對(duì)共線性較強(qiáng)的變量之間。
6、偏最小二乘回歸
7、嶺回歸
? ??嶺回歸估計(jì)是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救多重共線性的方法,采用它可以通過(guò)允許小的誤差而換取高于無(wú)偏估計(jì)量的精度, 因此它接近真實(shí)值的可能性較大。靈活運(yùn)用嶺回歸法, 可以對(duì)分析各變量之間的作用和關(guān)系帶來(lái)獨(dú)特而有效的幫助。
8、增加樣本容量
? ??多重共線性問(wèn)題的實(shí)質(zhì)是樣本信息的不充分而導(dǎo)致模型參數(shù)的不能精確估計(jì),因此追加樣本信息是解決該問(wèn)題的一條有效途徑。但是,由于資料收集及調(diào)查的困難,要追加樣本信息在實(shí)踐中有時(shí)并不容易。
這次我們主要研究逐步回歸分析方法是如何處理多重共線性問(wèn)題的。
逐步回歸分析方法的基本思想是通過(guò)相關(guān)系數(shù)r、擬合優(yōu)度R2和標(biāo)準(zhǔn)誤差三個(gè)方面綜合判斷一系列回歸方程的優(yōu)劣,從而得到最優(yōu)回歸方程。具體方法分為兩步:
第一步,先將被解釋變量y對(duì)每個(gè)解釋變量作簡(jiǎn)單回歸:
對(duì)每一個(gè)回歸方程進(jìn)行統(tǒng)計(jì)檢驗(yàn)分析(相關(guān)系數(shù)r、擬合優(yōu)度R2和標(biāo)準(zhǔn)誤差),并結(jié)合經(jīng)濟(jì)理論分析選出最優(yōu)回歸方程,也稱為基本回歸方程。
第二步,將其他解釋變量逐一引入到基本回歸方程中,建立一系列回歸方程,根據(jù)每個(gè)新加的解釋變量的標(biāo)準(zhǔn)差和復(fù)相關(guān)系數(shù)來(lái)考察其對(duì)每個(gè)回歸系數(shù)的影響,一般根據(jù)如下標(biāo)準(zhǔn)進(jìn)行分類判別:
1.如果新引進(jìn)的解釋變量使R2得到提高,而其他參數(shù)回歸系數(shù)在統(tǒng)計(jì)上和經(jīng)濟(jì)理論上仍然合理,則認(rèn)為這個(gè)新引入的變量對(duì)回歸模型是有利的,可以作為解釋變量予以保留。
2.如果新引進(jìn)的解釋變量對(duì)R2改進(jìn)不明顯,對(duì)其他回歸系數(shù)也沒(méi)有多大影響,則不必保留在回歸模型中。
3.如果新引進(jìn)的解釋變量不僅改變了R2,而且對(duì)其他回歸系數(shù)的數(shù)值或符號(hào)具有明顯影響,則認(rèn)為該解釋變量為不利變量,引進(jìn)后會(huì)使回歸模型出現(xiàn)多重共線性問(wèn)題。不利變量未必是多余的,如果它可能對(duì)被解釋變量是不可缺少的,則不能簡(jiǎn)單舍棄,而是應(yīng)研究改善模型的形式,尋找更符合實(shí)際的模型,重新進(jìn)行估計(jì)。如果通過(guò)檢驗(yàn)證明回歸模型存在明顯線性相關(guān)的兩個(gè)解釋變量中的其中一個(gè)可以被另一個(gè)很好地解釋,則可略去其中對(duì)被解釋變量影響較小的那個(gè)變量,模型中保留影響較大的那個(gè)變量。
下邊我們通過(guò)實(shí)例來(lái)說(shuō)明逐步回歸分析方法在解決多重共線性問(wèn)題上的具體應(yīng)用過(guò)程。
具體實(shí)例
例1設(shè)某地10年間有關(guān)服裝消費(fèi)、可支配收入、流動(dòng)資產(chǎn)、服裝類物價(jià)指數(shù)、總物價(jià)指數(shù)的調(diào)查數(shù)據(jù)如表1,請(qǐng)建立需求函數(shù)模型。
? ?表1 ?服裝消費(fèi)及相關(guān)變量調(diào)查數(shù)據(jù)
(1)設(shè)對(duì)服裝的需求函數(shù)為
用最小二乘法估計(jì)得估計(jì)模型:
模型的檢驗(yàn)量得分,R2=0.998,D·W=3.383,F(xiàn)=626.4634
? ? R2接近1,說(shuō)明該回歸模型與原始數(shù)據(jù)擬合得很好。由得出拒絕零假設(shè),認(rèn)為服裝支出與解釋變量間存在顯著關(guān)系。
(2)求各解釋變量的基本相關(guān)系數(shù)
上述基本相關(guān)系數(shù)表明解釋變量間高度相關(guān),也就是存在較嚴(yán)重的多重共線性。
(3)為檢驗(yàn)多重共線性的影響,作如下簡(jiǎn)單回歸:
各方程下邊括號(hào)內(nèi)的數(shù)字分別表示的是對(duì)應(yīng)解釋變量系數(shù)的t檢驗(yàn)值。
觀察以上四個(gè)方程,根據(jù)經(jīng)濟(jì)理論和統(tǒng)計(jì)檢驗(yàn)(t檢驗(yàn)值=41.937最大,擬合優(yōu)度也最高),收入Y是最重要的解釋變量,從而得出最優(yōu)簡(jiǎn)單回歸方程。
(4)將其余變量逐個(gè)引入,計(jì)算結(jié)果如下表2:
表2 服裝消費(fèi)模型的估計(jì)
結(jié)果分析:
①在最優(yōu)簡(jiǎn)單回歸方程中引入變量Pc,使R2由0.9955提高到0.9957;根據(jù)經(jīng)濟(jì)理論分析,正號(hào),負(fù)號(hào)是合理的。然而t檢驗(yàn)不顯著(),而從經(jīng)濟(jì)理論分析,Pc應(yīng)該是重要因素。雖然Y與Pc高度相關(guān),但并不影響收入Y回歸系數(shù)的顯著性和穩(wěn)定性。依照第1條判別標(biāo)準(zhǔn),Pc可能是“有利變量”,暫時(shí)給予保留。
②模型中引入變量L,R2由0.9957提高到0.9959,值略有提高。一方面,雖然Y與L,Pc與L均高度相關(guān),但是L的引入對(duì)回歸系數(shù)、的影響不大(其中的值由0.1257變?yōu)?.1387,值由-0.0361變?yōu)?0.0345,變化很?。?;另一方面,根據(jù)經(jīng)濟(jì)理論的分析,L與服裝支出C之間應(yīng)該是正相關(guān)關(guān)系,即的符號(hào)應(yīng)該為正號(hào)而非負(fù)號(hào),依照第2條判別標(biāo)準(zhǔn),解釋變量L不必保留在模型中。
③舍去變量L,加入變量P0,使R2由0.9957提高到0.9980,R2值改進(jìn)較大。、、均顯著(這三個(gè)回歸系數(shù)的t檢驗(yàn)值絕對(duì)值均大于),從經(jīng)濟(jì)意義上看也是合理的(服裝支出C與Y,P0之間呈正相關(guān),而與服裝價(jià)格Pc之間呈負(fù)相關(guān)關(guān)系)。根據(jù)判別標(biāo)準(zhǔn)第1條,可以認(rèn)為Pc、P0皆為“有利變量”,給予保留。
④最后再引入變量L,此時(shí)R2=0.9980沒(méi)有增加(或幾乎沒(méi)有增加),新引入變量對(duì)其他三個(gè)解釋變量的參數(shù)系數(shù)也沒(méi)有產(chǎn)生多大影響,可以確定L是多余變量,根據(jù)判別標(biāo)準(zhǔn)第2條,解釋變量L不必保留在模型中。
因此我們得到如下結(jié)論:回歸模型為最優(yōu)模型。
? ??通過(guò)以上案例的分析,我們從理論和實(shí)際問(wèn)題兩方面具體了解了逐步回歸分析是如何對(duì)多重共線性問(wèn)題進(jìn)行處理的。事實(shí)上,一般統(tǒng)計(jì)軟件如SPSS,在回歸模型的窗口中都會(huì)提供變量逐步進(jìn)入的選項(xiàng),勾選后實(shí)際上就是選擇了運(yùn)用逐步回歸的思想來(lái)構(gòu)建回歸模型。運(yùn)用SPSS軟件不需要我們懂得其背后的運(yùn)行規(guī)律,然而作為分析師,了解并理解模型背后的理論知識(shí),將更有助于我們理解模型、解釋結(jié)論背后的內(nèi)在含義,從而達(dá)到更好地分析問(wèn)題的目的。
———————————————
版權(quán)聲明:本文為CSDN博主「夜空騎士」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/nieson2012/article/details/48980491
二、異方差
異方差診斷
異方差( heteroscedasticity)就是指在普通最小二乘估計(jì)線性回歸模型時(shí),不能滿足高斯-馬爾可夫定理中關(guān)于隨機(jī)誤差E方差齊性的第二個(gè)條件,即對(duì)于所有的自變量X,隨機(jī)誤差E的方差相同,均為無(wú)下標(biāo)的a2的方差齊性條件,就會(huì)導(dǎo)致異方差問(wèn)題。
73.1異方差
假如存在異方差性,普通最小二乘方法估計(jì)量則不是有效估計(jì)量,甚至也不是漸近有效的估計(jì)量,無(wú)法對(duì)模型參數(shù)進(jìn)行有關(guān)顯著性檢驗(yàn)。在實(shí)際經(jīng)濟(jì)管理問(wèn)題中,回歸模型的隨機(jī)誤差ε大多在不同程度上存在異方差特征,尤其在橫截面數(shù)據(jù)的回歸模型分析中,出現(xiàn)異方差屬于常態(tài)。方差是一個(gè)以變量均值為中心的反映變量離散程度的統(tǒng)計(jì)量,因此方差的數(shù)值水平隨著變量數(shù)值水平絕對(duì)數(shù)值大小而變動(dòng)例如在橫截面數(shù)據(jù)中,用方差所反映的大型公司的利潤(rùn)波動(dòng)幅度比小型公司的利潤(rùn)波動(dòng)幅度大;高收入家庭支出變化比低收入家庭支出變化大。因此,一般會(huì)有線性回歸模型中隨機(jī)誤差ε隨著解釋變量的?加而變化,這種所謂的異方差問(wèn)題,直接破壞了普通最小二乘的基本假定,這時(shí)利用普通最小二乘估計(jì)回歸模型,不滿足高斯-馬爾可夫定理中關(guān)于隨機(jī)誤差E方差齊性條件,將得不到準(zhǔn)確有效的回歸模型。在經(jīng)濟(jì)管理分析中,橫截面數(shù)據(jù)由于各個(gè)單位
盧小廣,閆杰主編,統(tǒng)計(jì)分析與建模? SPSS在經(jīng)濟(jì)管理中的應(yīng)用及實(shí)例,北京交通大學(xué)出版社,2017.08,第114頁(yè)
5.2.1異方差的來(lái)源
在線性回歸模型中,隨機(jī)項(xiàng);反映了下面四種因素對(duì)被解釋變量Y的影響:
①模型的數(shù)學(xué)形式的偏差;
②模型中省略的對(duì)被解釋變量有影響的解釋變量;
③模型中變量觀測(cè)值的測(cè)量誤差;
④對(duì)被解釋變量有影響的各種隨機(jī)因素
上述因素中,省略解釋變量是造成隨機(jī)項(xiàng)v;異方差的主要原因。這是因?yàn)榻?jīng)濟(jì)變量之間存在著直接或間接的影響關(guān)系,模型中被省略的解釋變量受到所保留的解釋變量的影響,許多情況下是正相關(guān)的作用,使得模型中隨機(jī)項(xiàng)的取值受到解釋變量的影響,常常表現(xiàn)為?現(xiàn)隨機(jī)項(xiàng)的遞增異方差。
如Y=A+BX1+2X2+a1,其中X2與X1的取值有關(guān),但X2被省略,X1取值越大,X2也越大,所以出現(xiàn)隨機(jī)項(xiàng)的遞增異方差(偏差隨X1取值的增大而增大)。此外,測(cè)量誤差也是導(dǎo)致隨機(jī)項(xiàng)u1異方差的一個(gè)原因。這是因?yàn)?一般情況下,變量的取值越大,測(cè)量誤差也越大,使得模型中隨機(jī)項(xiàng)的取值隨著變量取值的增大而與0值偏差的程度
王芹著,普通高等教育“十三五”經(jīng)濟(jì)與管理類專業(yè)核心課程規(guī)劃教材? 計(jì)量經(jīng)濟(jì)學(xué),西安交通大學(xué)出版社,2017.09,第60頁(yè)