對于自己的數(shù)據(jù),選擇正確的回歸方法非常重要,今天我們就學(xué)習(xí)一下主流的回歸分析。
今天主要講解主流回歸的區(qū)分方式,文末有思維邏輯圖可以參照。
在講之前,跟大家一起回顧一下,回歸分析和相關(guān)性分析的區(qū)別。
1.回歸分析
大家在接觸的時候都知道我們是為了研究某幾個自變量,對一個因變量造成的影響情況。
這一些原因是否真的會導(dǎo)致這個結(jié)果?還有,這些原因出現(xiàn)時,會造成結(jié)果出現(xiàn)的機率是多少。
比如說我們吃的越多長得越胖,那么進食量就是原因,體重就是結(jié)果。
那么我們?yōu)榱搜芯窟M食量對體重的影響情況,我們就會選擇回歸分析。
只要是涉及到誰對誰的影響情況,我們通通選擇的都是回歸分析。
2.相關(guān)性分析
在統(tǒng)計學(xué)里面相關(guān)性分析是指的是兩個變量之間互為關(guān)聯(lián),方向一致或者是方向不一致,在統(tǒng)計學(xué)里面被稱為相關(guān)性。
相關(guān)性分析是一定沒有前因后果的,是不存在原因發(fā)生在前面,從而導(dǎo)致的后面的后果的這種情況。
我們可以明確的確定其中一個變量是起因而另外一個變量是結(jié)果的時候,選擇回歸分析。
我們在生活里面可以講解誰和誰之間有相關(guān)關(guān)系,但是在統(tǒng)計學(xué)里面,我們一定要嚴謹?shù)拿枋龀蛇M食量對體重有影響關(guān)系,因為在統(tǒng)計學(xué)里面影響關(guān)系,也就是我們所說的這個回歸分析和相關(guān)性分析是不同的。
在統(tǒng)計分析的時候,我們到底是選擇這個回歸分析呢,還是選擇相關(guān)性分析?
比如吸煙和肺癌,我們想知道的是吸煙會不會導(dǎo)致肺癌發(fā)生,也就是說吸煙會不會影響肺癌的發(fā)生,這時候我們選擇回歸分析。
總之,相關(guān)性分析就是關(guān)聯(lián)關(guān)系不存在原因和結(jié)果,你好我好你差我差是一個狀態(tài);而回歸分析有明確的前因后果。
回歸分析的種類:
回歸分析有很多,我們常用到的,按因變量的類型分為三類:
1.線性回歸分析
2.Logistic回歸分析
3.生存回歸分析
下面一一說明,后面有附圖:
一、線性回歸
因變量是連續(xù)數(shù)值型變量,不論自變量是哪種,都選擇線性回歸。
比如說像體重,可以取到40公斤,41公斤,42公斤,甚至還可以到44.14 ,41.2等等,像這種在坐標軸上任意位置可以取到數(shù)值,就被稱作為連續(xù)數(shù)值型的變量。
我們的體重、年齡、生化指標等等,這樣一些數(shù)值都是被稱作為連續(xù)數(shù)值型的變量,就應(yīng)該選擇線性回歸分析。
敲黑板:
如果自變量里面有無序分類變量的時候,在做線性回歸的時候,一定要做正確的虛擬化處理,這個是關(guān)鍵。
線性回歸分三類:
1.一元線性回歸
因變量只有一個,自變量有一個,就是用一元線性回歸。
2.多元線性回歸
因變量只有一個,自變量有多個,就用多元線性回歸。
注意多個自變量之間的共線性問題:
什么是共線性?
共線性,即同線性或同線型。統(tǒng)計學(xué)中,共線性即多重共線性。
多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計失真或難以估計準確。
就是某一個矩陣里面有兩列變量重疊了,就會導(dǎo)致回歸分析的結(jié)果出現(xiàn)很大的錯誤,spss軟件里面普通的這個OLS(最小二乘估計)是失效的。
比如,自變量里面有一個alt和ast,如果自變量還有一個是alt和ast的比值,三個自變量里面有一個自變量完全是通過另外兩個自變量計算出來的,這就存在極強的共線性。
還有一種共線性的情況,就像這個alt和ast是反映同一個內(nèi)容的,那么這個alt和ast本身之間就可就可能存在一個比較強的共線性。
當(dāng)這個共線性達到一定的嚴重程度的時候,那么我們在spss里面,用這個OLS算出的結(jié)果一定錯誤。有可能p值無窮大……等等,就是那種完全沒法解釋的情況。
用什么方法合適呢?有三種方法:
①嶺回歸,spss可以實現(xiàn)。
②主成分回歸,spss可以實現(xiàn)。
③偏最小二乘法,可以用PLS實現(xiàn)。
3.路徑分析
因變量有多個,就要用路徑分析,用軟件AMOS結(jié)構(gòu)方程軟件做分析。
例如:一個或者幾個因素是否會影響患者的焦慮情況,這個抑郁情況,疼痛情況等。
原因有幾個不管,只要造成的結(jié)果有多個,Spss軟件是處理不了的,因為spss軟件只允許選入一個因變量,所以因變量有多個的時候,需要改用MOD結(jié)構(gòu)方程軟件進行路徑分析。
二、Logistic回歸分析
1.二元Logistic回歸分析
因變量是二分類變量,不管自變量是何類型,都屬于此類回歸分析。
例如,復(fù)發(fā)vs未復(fù)發(fā),陰性vs陽性,生存vs死亡……
2.多元Logistic回歸分析
因變量是無序多分類變量,什么是無序多分類呢?
簡單來說,就是因變量大于等于三個,而且相互之間是沒有順序的。
比如,血型,職業(yè)等。
一般來說不要有五類以上,如果變量很多,做回歸分析的時候,算出來的表格會有很多張,而且很繁瑣。
版面很珍貴的期刊沒有那么多版面,一般因變量都選擇三類。
3.有序Logistic回歸分析
因(結(jié)局)變量是有序的,無論自變量是連續(xù)還是分類,就要選擇有序logistic回歸。
例如:疾病的嚴重程度,輕中重;及格,良好,優(yōu)秀……
敲黑板:
有序因變量有一個平行線檢驗平行性,看起來有序的變量沒有通過檢驗的時候,不能選擇有序logistic回歸,就得選擇多元logistic回歸。
總結(jié):首先判斷因變量是有序的,選擇有序logistic回歸,如果后面的平行線檢驗沒有通過,就改用無序logistic回歸,也就是多元logistic回歸。
三、COX生存回歸分析
是二分類logistic回歸的一個演化。
因為生存分析就是研究存活死亡,或者復(fù)發(fā)未復(fù)發(fā),在二元logistic回歸的基礎(chǔ)上,納入了一個時間數(shù)據(jù)。
比如,如果因變量是存活和死亡兩類,那么應(yīng)該選擇二元logistic回歸,但是數(shù)據(jù)里面除了有患者存活和死亡的狀態(tài)之外,還記錄了對于這個死亡患者的這個存活時間,這時就選擇COX生存回歸分析。
以上就是我對回歸分析的框架學(xué)習(xí),后續(xù)再深入研究每個知識點。
特別要注意的一點是,回歸分析前要做單因素分析篩查:
在進行回歸分析的時候,為了減少自變量之間的混雜干擾,不建議把多個自變量同時納入到回歸分析里面。
在納入之前,首先要對自變量進行一個這個單因素的篩查,沒有關(guān)系的就直接舍棄。
線性回歸的單因素篩查方法和logistic回歸的篩查方法,都是不一樣的。
后期再研究。