1、什么是多重共線性

多重共線性（multicollinearity, 簡(jiǎn)稱collinearity）意味著預(yù)測(cè)變量之間高相關(guān)，這會(huì)影響我們?cè)诨貧w模型中觀察某個(gè)預(yù)測(cè)變量對(duì)結(jié)果變量的單獨(dú)影響。

例如我們想看x1和x2對(duì)y的影響，但是x1和x2高相關(guān)，這時(shí)x1對(duì)y的作用會(huì)受到x2影響。

這里可以借用調(diào)節(jié)效應(yīng)來理解。在做中介調(diào)節(jié)模型前，我們一般會(huì)做一個(gè)相關(guān)矩陣，來看看哪些變量之間是高相關(guān)的，畢竟只有彼此高相關(guān)的變量才有做調(diào)節(jié)效應(yīng)的價(jià)值。當(dāng)然調(diào)節(jié)效應(yīng)的研究假設(shè)和回歸分析不一樣，不可理解為同一回事，這里只是從數(shù)據(jù)的層面類比了相關(guān)性的情況。

上述x1、x2、y的例子考慮的是數(shù)據(jù)中的多重共線性（data-based multicollinearity）。此外還有結(jié)構(gòu)多重共線性（structrual multicollinearity），例如，將x1、x1的平方作為預(yù)測(cè)變量，很顯然x1和x1的平方是高相關(guān)的。關(guān)于這一情況，請(qǐng)看references。

關(guān)于共線性的原理，Rawlings et al. (1998) 書里有詳細(xì)的描述。

2、為什么會(huì)出現(xiàn)多重共線性？

根據(jù)Rawlings et al. (1998, pp. 433-434)，有四種可能：

1、變量的數(shù)學(xué)特性。例如對(duì)x1取平方，然后預(yù)測(cè)x1、x1的平方對(duì)y的影響。很顯然此時(shí)x1、x1的平方是高相關(guān)的；
2、變量在某一個(gè)系統(tǒng)中的屬性。例如某兩個(gè)變量在心理學(xué)中就是高相關(guān)的；
3、糟糕的取樣；
4、糟糕的實(shí)驗(yàn)設(shè)計(jì)。

1和2對(duì)應(yīng)了上述的data-based and structrual collinearity。

3、通過計(jì)算VIF來判斷多重共線性

判斷多重共線性的方法是計(jì)算每個(gè)預(yù)測(cè)變量的VIF（variance inflation factor）。

VIF指的是某個(gè)變量的引入對(duì)模型的系數(shù)的變異（variance）的膨脹程度（inflation）。

一個(gè)變量和越多其它變量高相關(guān)，則VIF越高。

計(jì)算方法是去掉第i個(gè)變量后，將模型的R方代入公式：VIF_i = 1/(1 - Rsqaure_i)

可以跑一下模型然后按照上述公式手算，這樣能更好理解。

4、引入控制變量時(shí)，共線性問題的兩種情況

繼續(xù)用上述x1、x2、y的例子。假設(shè)我們還有控制變量z1、z2、z3。其中，z1的VIF高，此時(shí)可能意味著兩種情況：

（1）z1的高VIF值是因?yàn)閦1和z2、z3高相關(guān)，則問題不大（也就是控制變量之間的高相關(guān)）；

（2）如果z1不僅和z2、z3高相關(guān)，還和x1、x2高相關(guān)，則會(huì)直接影響到x1、x2的系數(shù)的預(yù)測(cè)，問題比較大。

上述提到的（1）問題不大，只是相對(duì)于（2）而言。但是（1）依然會(huì)影響模型中各種系數(shù)的標(biāo)準(zhǔn)誤，包括x1、x2的系數(shù)的標(biāo)準(zhǔn)誤（或者說，使slopes的confidence intervals不再狹窄、精確），從而間接影響x1、x2對(duì)y的效應(yīng)的顯著性。

5、解決方法

收集更多數(shù)據(jù)。

考慮合并變量（例如z1、z2、z3是父母教育情況、父母工資、父母社會(huì)地位，則可以考慮用PCA合并成單獨(dú)的變量，叫家庭社會(huì)經(jīng)濟(jì)地位）。

考慮刪除部分VIF高的控制變量，并在文章中進(jìn)行說明。

如果只出現(xiàn)情況（1），且模型顯著，那么應(yīng)該也可以接受（篇幅允許的話，可以在文章中進(jìn)行說明，例如討論共線性問題對(duì)于結(jié)果揭示的可能影響）。

6、補(bǔ)充說明

以上的解決方法是我根據(jù)網(wǎng)絡(luò)上搜索的資料得到的。不過Rawlings et al. (1998, p. 457) 給出了更為寬松的策略：只要共線性反映的是變量本身的關(guān)系（但不能是取樣導(dǎo)致的），就無所謂。

仔細(xì)想想，似乎也合理？如果人為地去處理共線性的問題，反倒可能影響了分析過程的客觀性。

References

這本書的第13章講到了共線性的問題：Rawlings, J. O., Pantula, S. G., & Dickey, D. A. (1998). Applied Regression Analysis: A Research Tool (Second Edition). New York, NY: Springer New York.
這個(gè)PSU的網(wǎng)站用很容易理解的語言告訴你什么是多重共線性：
https://online.stat.psu.edu/stat462/node/177/
以及如何計(jì)算VIF：https://online.stat.psu.edu/stat462/node/180/
以及structural multicollinearity的問題：https://online.stat.psu.edu/stat462/node/182/
frank在回答中用向量的形式將控制變量的共線性問題進(jìn)行可視化（不過他沒有明確說明兩種情況對(duì)分析結(jié)果的影響的差異）：https://stats.stackexchange.com/questions/590914/does-multicollinearity-among-control-variables-matter
共線性問題可以被忽視的三種情況：https://statisticalhorizons.com/multicollinearity/
關(guān)于相關(guān)性和調(diào)節(jié)效應(yīng)可以參考wikipedia：https://en.wikipedia.org/wiki/Mediation_(statistics)#:~:text=One%20of%20the%20most%20common,responsible%20for%20the%20proposed%20effect.

----------2024.05.24更新----------
根據(jù)Applied Regression Analysis: A Research Tool (2rd edition)一書調(diào)整了內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

回歸模型中控制變量的多重共線性問題

回歸模型中控制變量的多重共線性問題

1、什么是多重共線性

2、為什么會(huì)出現(xiàn)多重共線性？

3、通過計(jì)算VIF來判斷多重共線性

4、引入控制變量時(shí)，共線性問題的兩種情況

5、解決方法

6、補(bǔ)充說明

References

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

回歸模型中控制變量的多重共線性問題

1、什么是多重共線性

2、為什么會(huì)出現(xiàn)多重共線性？

3、通過計(jì)算VIF來判斷多重共線性

4、引入控制變量時(shí)，共線性問題的兩種情況

5、解決方法

6、補(bǔ)充說明

References

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、什么是多重共線性

2、為什么會(huì)出現(xiàn)多重共線性？

3、通過計(jì)算VIF來判斷多重共線性

4、引入控制變量時(shí)，共線性問題的兩種情況

6、補(bǔ)充說明