各位小伙伴們勞動(dòng)節(jié)快樂(lè),利用假期的這幾天的時(shí)間,在王者榮耀游戲時(shí)間之余研究了一下一直困擾我很久的多重共線(xiàn)性,所以今天能夠用一篇文章來(lái)講一講我理解的多重共線(xiàn)性,并且希望大家可以給我多多指教,話(huà)不多說(shuō),馬上開(kāi)始.
有的時(shí)候,當(dāng)自變量彼此相關(guān)時(shí),回歸模型可能非常令人糊涂,估計(jì)的效應(yīng)會(huì)隨著模型中的其他的自變量而改變數(shù)值,甚至是符號(hào),所以我們?cè)诜治龅臅r(shí)候,了解自變量間的關(guān)系的影響是很重要的,因此這個(gè)復(fù)雜的問(wèn)題就常被稱(chēng)之為共線(xiàn)性或多重共線(xiàn)性.
1:什么是多重共線(xiàn)性?
按照定義上來(lái)說(shuō),如果存在某個(gè)常數(shù)C0,C1,C2,并且使得線(xiàn)性等式滿(mǎn)足以下情況:

并且滿(mǎn)足對(duì)于數(shù)據(jù)中的所有數(shù)據(jù)中的樣本都成立,則兩個(gè)自變量X1和X2位精準(zhǔn)共線(xiàn)性的.
在實(shí)際的操作中,精準(zhǔn)的共線(xiàn)性是很少概率發(fā)生的,因此如果上邊的那個(gè)公式近似的對(duì)測(cè)量數(shù)據(jù)成立,那么就可以說(shuō)他們有近似的共線(xiàn)性.一個(gè)常用但是不是完全適合的X1和X2間的共線(xiàn)性程度的度量,是他們樣本系數(shù)的平方R所決定的,精準(zhǔn)共線(xiàn)性對(duì)應(yīng)的R=1,非共線(xiàn)性對(duì)應(yīng)的R=0.所以因此來(lái)說(shuō),當(dāng)R越來(lái)越接近于1時(shí),近似的共線(xiàn)性會(huì)越來(lái)越強(qiáng).通常,我們?nèi)サ粜稳菰~近似,當(dāng)R較大的時(shí)候,我們就說(shuō)X1和X2是共線(xiàn)性的.
對(duì)于P(>2)個(gè)自變量,如果存在常數(shù)C0,C1.......CP使得如下公式可以近似表示:

那么我們通常稱(chēng)這個(gè)P個(gè)變量存在多重共線(xiàn)性.
2:多重共線(xiàn)性的發(fā)現(xiàn)
將x(1),x(2),···,x(p)是自變量X1,X2,···,Xp經(jīng)過(guò)中心化和標(biāo)準(zhǔn)化得到的向量,記作X=(x(1),x(2),···,x(p)),設(shè)λ為XTX的一個(gè)特征值,φ為對(duì)應(yīng)的特征向量,其長(zhǎng)度為1,即φTφ = 1.此時(shí)若λ ≈ 0,則:

用φT左乘上式,得到:

所以有Xφ ≈ 0;
即:

其中φ=(φ1,φ2,···,φp)T表明,向量x(1),x(2),···,x(p)之前有近似的線(xiàn)性關(guān)系,也就是說(shuō),對(duì)于自變量X1,X2,......,Xp,存在C0,C1,……,Cp之間使得
c1X1 +c2X2 +···+cpXp =c0近似成立,這就可以說(shuō)明自變量之間存在有多重共線(xiàn)性.
度量多重共線(xiàn)性的嚴(yán)重程度的一個(gè)重要指標(biāo)是方矩的XTX的條件數(shù),即如下所示:
其中λmax(XTX),λmin(XTX)表示的是XTX的最大,最小的特征值.
直觀(guān)上,條件數(shù)刻畫(huà)的XTX的特征值差異的大小,從實(shí)際應(yīng)用的角度,一般若K<100,則認(rèn)為多重共線(xiàn)性的程度很小,若是100<=K<=1000,則認(rèn)為存在一般程度上的多重共線(xiàn)性,若是K>1000,則就認(rèn)為存在嚴(yán)重的多重共線(xiàn)性.
因?yàn)槲易罱恢痹趯W(xué)習(xí)R語(yǔ)言,所以我想用個(gè)R語(yǔ)言的實(shí)例來(lái)更好的解釋下多重共線(xiàn)性的問(wèn)題.
例1:
考慮一個(gè)有六個(gè)回歸自變量的線(xiàn)性回歸問(wèn)題,原始數(shù)據(jù)如下圖:

這里一共有12組數(shù)據(jù),除了第一組外,自變量X1,X2....,X6的其余11組數(shù)據(jù)均滿(mǎn)足線(xiàn)性關(guān)系:
X1+X2+X3+X4=10;
現(xiàn)在試圖用求矩陣條件數(shù)的方法,來(lái)分析數(shù)自變量之間存在的多重共線(xiàn)性.
首先先補(bǔ)充一些R語(yǔ)言的知識(shí),在R語(yǔ)言中,函數(shù)Kappa()是計(jì)算矩陣的條件數(shù),其使用的方法為Kappa(z,exact =FALSE,…).
其中的z是矩陣,exact是邏輯變量,當(dāng)exact=TRUE時(shí),精確計(jì)算條件數(shù),否則近似計(jì)算條件數(shù).
現(xiàn)在開(kāi)始解題了,首先第一步,用數(shù)據(jù)框的方法輸入數(shù)據(jù),由自變量X1,X2,......X6中心化和標(biāo)準(zhǔn)化得到的矩陣XTX本質(zhì)上就是由這些自變量生成的相關(guān)矩陣,再用Kappa()函數(shù)求出矩陣的條件數(shù),用eigen()函數(shù)求出矩陣XTX的最小特征值和相應(yīng)的特征向量,求解問(wèn)題的R程序如下:

得到的條件數(shù)K=2195.908>1000,這個(gè)時(shí)候我們可以認(rèn)為有嚴(yán)重的多重共線(xiàn)性,進(jìn)一步,我們要試圖找出那些變量是多重共線(xiàn)性的,計(jì)算矩陣的特征值和相應(yīng)的特征向量:
輸入eigen(XX)

這個(gè)時(shí)候我們可以得到:
λmin = 0.001106,
φ =(0.4476,0.4211,0.5417,0.5734,0.006052,0.002167)T .
所以我們可以得到結(jié)果:

因?yàn)閄(5),X(6)前邊的系數(shù)近似等于0,因此我們可以得到:

所以存在著C0,C1,C2,C3,C4使得:

這樣其實(shí)就可以說(shuō)明變量X1,X2,X3,X4之間存在著多重共線(xiàn)性,這個(gè)與題目中的變量是相同的,因此我們的問(wèn)題也就迎刃而解了.
所以上述就是我對(duì)于多重共線(xiàn)性的一些理解,但是我覺(jué)得里邊還有很多知識(shí)上的漏洞需要去解決補(bǔ)充,也歡迎大家可以給我多多提出意見(jiàn),祝大家節(jié)日快樂(lè).