統(tǒng)計入門系統(tǒng)知識--多因素線性回歸

案例1:研究究高血壓患者血壓與性別、年齡、身高、體重等變量的關系,隨機測量了32名40歲以上的血壓y、年齡X1、體重指數(shù)X2、性別X3,試建立多重線性回歸方程。數(shù)據(jù)文件見mreg.sav。


多因素線性回歸應用條件

線性(linear)、獨立性(independent)、正態(tài)性(normal)、方差齊性(equal variance)----LINE

? ?線性—自變量與應變量的關系是線性的。用散點圖判斷

? ?獨立性—任意兩個(殘差)觀察值互相獨立。常利用專業(yè)知識判斷

? ?正態(tài)性—要求殘差服從正態(tài)分布。常用殘差圖分析

? ?差齊性—要求殘差的方差齊性。用散點圖或殘差圖判斷


多因素線性回歸分析步驟

1.線性關系描述(包括散點圖)

2.用各變量的數(shù)據(jù)建立線性回歸方程

3.對總的方程進行假設檢驗


案例分析

1.根據(jù)知識判斷三個自變量,在理論上是否可能會影響血壓的改變

2.與簡單線性回歸相類似,先繪制散點圖,以便在進行回歸分析之前了解各變量之間是否存在線性關系。

3.本例有2個連續(xù)性定量自變量與一個反應變量,繪制散點圖矩陣,如下。二分類或無序多分類,無需散點圖。

第一步:散點圖? ? ? ?

SPSS路徑:Graphs→ Legacy Dialogs → Scatter/Dot→ matrix scatter


第二步:多因素線性回歸分析

SPSS路徑:Analyze→ regression → linear



殘差獨立性 b值的95%CI的置信區(qū)間


殘差正態(tài)性、方差齊性


計算預測值和殘差

第三步:結果解讀

結果1:?

模型擬合優(yōu)度情況,調(diào)整R^2=0.775,說明對真實世界模擬度好

Durbin-Watson值=1.969,在1-3之間,獨立性符合

R^2結果和殘差獨立性檢驗( Durbin-Watson檢驗)

結果2:?

本例F=36.542,P<0.001,說明至少有一個自變量解釋了一部分的因變量的變異,模型成功建立,模型具有統(tǒng)計學意義。

方差分析(ANOVA),主要探討模型是否成功建成

結果3:

①回歸系數(shù)b值,統(tǒng)計學上稱為偏回歸系數(shù)

②回歸系數(shù)的抽樣誤差,即標準誤

③Beta值,它是標準化b值,標準化回歸系數(shù)??梢杂脕肀容^各個自變量x對y的影響程度。它回答以下問題:年齡、性別和體重指數(shù),到底誰對y的影響更大。在本例中,年齡對血壓的改變影響最大(它解釋了血壓最大程度的變異)。

④t值,是各個回歸系數(shù)進行假設檢驗的檢驗統(tǒng)計量,線性回歸檢驗統(tǒng)計量為t值。

⑤顯著性:即P值。P<0.05說明自變量與因變量回歸關系成立,有關系,有影響。

回歸分析的主要結果: 計算回歸系數(shù)、并對回歸系數(shù)進行假設檢驗,探討影響因素。

本研究結果顯示,年齡對血壓的影響的存在著統(tǒng)計學差異(b=0.99,t=3.22,P<0.001);這意味著年齡每增加一個單位(在本研究中一單位等于一歲),血壓將上升0.99個單位

本研究結果顯示,BMI對血壓的影響的存在著統(tǒng)計學差異(b=1.08,t=2.14,P=0.041);這意味著BMI每增加一個單位,血壓將上升1.08個單位

本研究結果顯示,(b=-9.327, t=-3.72,P=0.002)男性=1,女性=2,女性相對男性,血壓低9.33個單位;男性是高血壓危險因素(對照組為低值組)

多因素回歸分析結果表達

納入年齡、體重指數(shù)和性別構建多因素線性回歸方程。結果發(fā)現(xiàn),不同年齡(歲)對血壓的影響有統(tǒng)計學差異(b=0.99,95%CI 0.36-1.62,t=3.22,P<0.001),不同的性別(男性較女性)對血壓的影響有統(tǒng)計學差異(b=-9.33,95%CI -14.47- -4.19,t=3.22,P=0.003),不同的體重指數(shù)對血壓的影響有統(tǒng)計學差異(b=1.08,95%CI 0.05-2.11,t=2.14,P=0.041)。

結果4:

殘差統(tǒng)計:PRE_1(預測值)和RES_1(殘差) ,兩組相加,剛好是y“血壓值”

結果5:

殘差直方圖:本例殘差均數(shù)接近于0,標準差接近于1,數(shù)據(jù)呈正態(tài)分布(標準正態(tài)分布)

殘差直方圖

結果6:

殘差圖。本例從圖形來看,標準化殘差圖分布在0值周圍,基本是上下對稱分布,分布特征不隨預測值的增加而發(fā)生改變,意味著數(shù)據(jù)方差齊性、獨立性條件符合。

殘差圖

線性回歸分析注意事項:


1.線性回歸分析LINE條件不成立怎么辦?

?線性:如果X和Y的關系是非線性的關系(如曲線關系),則回歸系數(shù)b值無法值正確反映X和Y 的關系(X是二分類、無序多分類除外)

處理方法:將X轉為啞變量處理(分類),或者曲線回歸,或者對自變量x進行轉換(指數(shù)轉換x^3,或者對數(shù)轉換log(x)等)。

?正態(tài)性:如果殘差不符合正態(tài)性(一般是嚴重偏態(tài)分布),則可以考慮對y或者x進行數(shù)據(jù)轉換(比如BOX-COX轉換),推動殘差正態(tài)分布;或將y轉成2分類或多分類數(shù)據(jù)采用logistic回歸

方差不齊:方差不齊可以采用其他方法估計回歸系數(shù),常見的如加權最小二乘法估計回歸系數(shù)

?獨立性:如果獨立性條件不符合,則采用非獨立性的數(shù)據(jù)分析方法,比如線性混合模型、多水平模型、廣義估計方程等。

數(shù)據(jù)不符合要求者,一定要謹慎開展線性回歸分析。


2. 回歸分析R^2很小怎么辦?

醫(yī)學研究線性回歸有幾個重要的用途,其中兩個分別是預測結局,探討影響因素。

目的是預測的線性回歸,R^2非常重要,R^2越高,模型預測效果越好,所以經(jīng)濟學領域特別看中R^2。

醫(yī)學研究開展回歸模型,最大的目的是探討影響因素(或者控制混雜)。在這個目的是,R^2無論大小,都不太影響結果。探討影響因素,首要探討的是某一個因素在假設檢驗中P值到底是否小于0.05。

有人說R^2這么小,建模有什么意思?我倒反駁說,就憑醫(yī)學研究的那幾個指標,你就想預測如此復雜的醫(yī)學現(xiàn)象?癡人說夢!

所以,諸位不必糾結R^2是不是過小了!R^2雖好,不必苛求。


3.回歸分析還需注意異常值

在實踐中,科研工作者鑒別數(shù)據(jù)異常值是統(tǒng)計分析前首先要完成的工作,否則會導致前功盡棄,得不償失。比如下圖:虛線是代表受異常值影響而偏離的回歸線。


引自:方積乾主編,生物醫(yī)學研究的統(tǒng)計學方法(第二版)

異常值數(shù)據(jù)的識別可以通過簡單、直觀、有效的散點圖,也可以計算相關統(tǒng)計量(比如殘差或者廣義平方距離獲得)來反映。

發(fā)現(xiàn)可能的異常數(shù)據(jù),不宜草率刪除,應該仔細審查這些可能異常數(shù)據(jù)的獲得過程。

?實驗失誤、記錄錯誤或者錄入錯誤等造成,考慮刪除或者重新測量;

?若異常值便是個體本身造成,不便刪除,否則會扭曲真實結果。


為什么多因素回歸分析結果和單因素回歸分析結果不一致?

原因在于,多因素回歸分析時自變量直接存在相關性,或者很多時候我們說是多重共線性(即使程度很輕)。變量與變量復雜的關系,將影響模型構建的成功率,造成回歸系數(shù)變動。

若變量之間沒有相關,對于某一個自變量而言,多因素和單因素回歸分析結果一致;

若存在著關系,當控制其它自變量不變時,多因素回歸分析結果與單因素回歸存在著一定的差異。


舉例:探討B(tài)MI與結局的關系

探討B(tài)MI與結局的關系

單因素結果如下:b=1.506,P<0.001

納入年齡后,結果截然不同:b=0.564,P=0.064

說明:年齡對BMI有影響,同時年齡對血壓也有影響,而多因素回歸當控制年齡不變時,兩者之間的關系就不復存在。

醫(yī)學上稱年齡為混雜因素。

多因素回歸法分析較單因素回歸更能有效控制混雜因素,從而更為準確地探討自變量對因變量的影響


?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容