常用回歸分析方法

回歸分析可以說是統(tǒng)計學(xué)中內(nèi)容最豐富、應(yīng)用最廣泛的分支。這一點幾乎不帶夸張。包括最簡單的 t 檢驗、方差分析也都可以歸到線性回歸的類別。而卡方檢驗也完全可以用 logistic 回歸代替。

眾多回歸的名稱張口即來的就有一大片,線性回歸、logistic 回歸、cox 回歸、poission 回歸、probit 回歸等等等等,可以一直說的你頭暈。為了讓大家對眾多回歸有一個清醒的認(rèn)識,這里簡單地做一下總結(jié):

線性回歸

1, 先說線性回歸,這是我們學(xué)習(xí)統(tǒng)計學(xué)時最早接觸的回歸,就算其它的你都不明白,最起碼你一定要知道,線性回歸的因變量是連續(xù)變量,自變量可以是連續(xù)變量,也可以是分類變量。如果只有一個自變量,且只有兩類,那這個回歸就等同于 t 檢驗。如果只有一個自變量,且有三類或更多類,那這個回歸就等同于方差分析。如果有 2 個自變量,一個是連續(xù)變量,一個是分類變量,那這個回歸就等同于協(xié)方差分析。所以線性回歸一定要認(rèn)準(zhǔn)一點,因變量一定要是連續(xù)變量。當(dāng)然還有其它條件,比如獨立性、線性、等方差性、正態(tài)性,這些說起來就話長了,讀者有興趣的話可以閱讀參考文獻(xiàn)。

logistic 回歸

2, logistic 回歸,與線性回歸并成為兩大回歸,應(yīng)用范圍一點不亞于線性回歸,甚至有青出于藍(lán)之勢。因為 logistic 回歸太好用了,而且太有實際意義了。解釋起來直接就可以說,如果具有某個危險因素,發(fā)病風(fēng)險增加 2.3 倍,聽起來多么地讓人通俗易懂。線性回歸相比之下其實際意義就弱了。logistic 回歸與線性回歸恰好相反,因變量一定要是分類變量,不可能是連續(xù)變量。分類變量既可以是二分類,也可以是多分類,多分類中既可以是有序,也可以是無序。二分類 logistic 回歸有時候根據(jù)研究目的又分為條件 logistic 回歸和非條件 logistic 回歸。條件 logistic 回歸用于配對資料的分析,非條件 logistic 回歸用于非配對資料的分析,也就是直接隨機(jī)抽樣的資料。無序多分類 logistic 回歸有時候也成為多項 logit 模型,有序 logistic 回歸有時也稱為累積比數(shù) logit 模型。這些也在參考文獻(xiàn)有所介紹,大家可以參考一下。

cox 回歸

3, cox 回歸,cox 回歸的因變量就有些特殊,因為他的因變量必須同時有 2 個,一個代表狀態(tài),必須是分類變量,一個代表時間,應(yīng)該是連續(xù)變量。只有同時具有這兩個變量,才能用 cox 回歸分析。cox 回歸主要用于生存資料的分析,生存資料至少有兩個結(jié)局變量,一是死亡狀態(tài),是活著還是死亡?二是死亡時間,如果死亡,什么時間死亡?如果活著,從開始觀察到結(jié)束時有多久了?所以有了這兩個變量,就可以考慮用 cox 回歸分析。

poisson 回歸

4, poisson 回歸,poisson 回歸相比就不如前三個用的廣泛了。但實際上,如果你能用 logistic 回歸,通常也可以用 poission 回歸,poisson 回歸的因變量是個數(shù),也就是觀察一段時間后,發(fā)病了多少人?或者死亡了多少人?等等。其實跟 logistic 回歸差不多,因為 logistic 回歸的結(jié)局是是否發(fā)病,是否死亡,也需要用到發(fā)病例數(shù)、死亡例數(shù)。大家仔細(xì)想想,其實跟發(fā)病多少人,死亡多少人一個道理。只是 poission 回歸名氣不如 logistic 回歸大,所以用的人也不如 logistic 回歸多。但不要因此就覺得 poisson 回歸沒有用。

probit 回歸

5, probit 回歸,在醫(yī)學(xué)里真的是不大用,最關(guān)鍵的問題就是 probit 這個詞太難理解了,通常翻譯為概率單位。probit 函數(shù)其實跟 logistic 函數(shù)十分接近,二者分析結(jié)果也十分接近??上У氖?,probit 回歸的實際含義真的不如 logistic 回歸容易理解,由此導(dǎo)致了它的默默無名,但據(jù)說在社會學(xué)領(lǐng)域用的似乎更多一些。

負(fù)二項回歸

6,負(fù)二項回歸。所謂負(fù)二項指的是一種分布,其實跟 poission 回歸、logistic 回歸有點類似,poission 回歸用于服從 poission 分布的資料,logistic 回歸用于服從二項分布的資料,負(fù)二項回歸用于服從負(fù)二項分布的資料。說起這些分布,大家就不愿意聽了,多么抽象的名詞,我也很頭疼。如果簡單點理解,二項分布你可以認(rèn)為就是二分類數(shù)據(jù),poission 分布你可以認(rèn)為是計數(shù)資料,也就是個數(shù),而不是像身高等可能有小數(shù)點,個數(shù)是不可能有小數(shù)點的。負(fù)二項分布呢,也是個數(shù),只不過比 poission 分布更苛刻,如果你的結(jié)局是個數(shù),而且結(jié)局可能具有聚集性,那可能就是負(fù)二項分布。簡單舉例,如果調(diào)查流感的影響因素,結(jié)局當(dāng)然是流感的例數(shù),如果調(diào)查的人有的在同一個家庭里,由于流感具有傳染性,那么同一個家里如果一個人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數(shù)據(jù)盡管結(jié)果是個數(shù),但由于具有聚集性,因此用 poission 回歸不一定合適,就可以考慮用負(fù)二項回歸。既然提到這個例子,我在上一篇文章說了,用于 logistic 回歸的數(shù)據(jù)通常也能用 poission 回歸,就像上面案例,我們可以把結(jié)局作為二分類,每個人都有兩個狀態(tài),得流感或者不得流感,這是個二分類結(jié)局,那就可以用 logistic 回歸。但是這里的數(shù)據(jù)存在聚集性怎么辦呢,幸虧 logistic 回歸之外又有了更多的擴(kuò)展,你可以用多水平 logistic 回歸模型,也可以考慮廣義估計方程。這兩種方法都可以處理具有層次性或重復(fù)測量資料的二分類因變量。

weibull 回歸

7,weibull 回歸,有時中文音譯為威布爾回歸。weibull 回歸估計你可能就沒大聽說過了,其實這個名字只不過是個噱頭,嚇唬人而已。上一篇說過了,生存資料的分析常用的是 cox 回歸,這種回歸幾乎統(tǒng)治了整個生存分析。但其實夾縫中還有幾個方法在頑強(qiáng)生存著,而且其實很有生命力,只是國內(nèi)大多不愿用而已。weibull 回歸就是其中之一。cox 回歸為什么受歡迎呢,因為它簡單,用的時候不用考慮條件(除了等比例條件之外),大多數(shù)生存數(shù)據(jù)都可以用。而 weibull 回歸則有條件限制,用的時候數(shù)據(jù)必須符合 weibull 分布。怎么,又是分布?!估計大家頭又大了,是不是想直接不往下看了,還是用 cox 回歸吧。不過我還是建議看下去。為什么呢?相信大家都知道參數(shù)檢驗和非參數(shù)檢驗,而且可能更喜歡用參數(shù)檢驗,如 t 檢驗,而不喜歡用非參數(shù)檢驗,如秩和檢驗。那這里的 weibull 回歸和 cox 回歸基本上可以說是分別對應(yīng)參數(shù)檢驗和非參數(shù)檢驗。參數(shù)檢驗和非參數(shù)檢驗的優(yōu)缺點我也在前面文章里通俗介紹了,如果數(shù)據(jù)符合 weibull 分布,那么直接套用 weibull 回歸當(dāng)然是最理想的選擇,他可以給出你最合理的估計。如果數(shù)據(jù)不符合 weibull 分布,那如果還用 weibull 回歸,那就套用錯誤,肯定結(jié)果也不會真實到哪兒去。所以說,如果你能判斷出你的數(shù)據(jù)是否符合 weibull 分布,那當(dāng)然最好的使用參數(shù)回歸,也就是 weibull 回歸。但是如果你實在沒什么信心去判斷數(shù)據(jù)分布,那也可以老老實實地用 cox 回歸。cox 回歸可以看作是非參數(shù)的,無論數(shù)據(jù)什么分布都能用,但正因為它什么數(shù)據(jù)都能用,所以不可避免地有個缺點,每個數(shù)據(jù)用的都不是恰到好處。weibull 回歸就像是量體裁衣,把體形看做數(shù)據(jù),衣服看做模型,weibull 回歸就是根據(jù)你的體形做衣服,做出來的肯定對你正合身,對別人就不一定合身了。cox 回歸呢,就像是到商場去買衣服,衣服對很多人都合適,但是對每個人都不是正合適,只能說是大致合適。至于到底是選擇麻煩的方式量體裁衣,還是圖簡單到商場直接去買現(xiàn)成的,那就根據(jù)你的喜好了,也根據(jù)你對自己體形的了解程度,如果非常熟悉,當(dāng)然就量體裁衣了。如果不大了解,那就直接去商場買大眾化衣服吧。

主成分回歸

8,主成分回歸。主成分回歸是一種合成的方法,相當(dāng)于主成分分析與線性回歸的合成。主要用于解決自變量之間存在高度相關(guān)的情況。這在現(xiàn)實中不算少見。比如你要分析的自變量中同時有血壓值和血糖值,這兩個指標(biāo)可能有一定的相關(guān)性,如果同時放入模型,會影響模型的穩(wěn)定,有時也會造成嚴(yán)重后果,比如結(jié)果跟實際嚴(yán)重不符。當(dāng)然解決方法很多,最簡單的就是剔除掉其中一個,但如果你實在舍不得,畢竟這是辛辛苦苦調(diào)查上來的,刪了太可惜了。如果舍不得,那就可以考慮用主成分回歸,相當(dāng)于把這兩個變量所包含的信息用一個變量來表示,這個變量我們稱它叫主成分,所以就叫主成分回歸。當(dāng)然,用一個變量代替兩個變量,肯定不可能完全包含他們的信息,能包含 80% 或 90% 就不錯了。但有時候我們必須做出抉擇,你是要 100% 的信息,但是變量非常多的模型?還是要 90% 的信息,但是只有 1 個或 2 個變量的模型?打個比方,你要診斷感冒,是不是必須把所有跟感冒有關(guān)的癥狀以及檢查結(jié)果都做完?還是簡單根據(jù)幾個癥狀就大致判斷呢?我想根據(jù)幾個癥狀大致能能確定 90% 是感冒了。不用非得 100% 的信息不是嗎?模型也是一樣,模型是用于實際的,不是空中樓閣。既然要用于實際,那就要做到簡單。對于一種疾病,如果 30 個指標(biāo)能夠 100% 確診,而 3 個指標(biāo)可以診斷 80%,我想大家會選擇 3 個指標(biāo)的模型。這就是主成分回歸存在的基礎(chǔ),用幾個簡單的變量把多個指標(biāo)的信息綜合一下,這樣幾個簡單的主成分可能就包含了原來很多自變量的大部分信息。這就是主成分回歸的原理。

嶺回歸

9,嶺回歸。嶺回歸的名稱由來我也沒有查過,可能是因為它的圖形有點像嶺。不要糾結(jié)于名稱。嶺回歸也是用于處理自變量之間高度相關(guān)的情形。只是跟主成分回歸的具體估計方法不同。線性回歸的計算用的是最小二乘估計法,當(dāng)自變量之間高度相關(guān)時,最小二乘回歸估計的參數(shù)估計值會不穩(wěn)定,這時如果在公式里加點東西,讓它變得穩(wěn)定,那就解決了這一問題了。嶺回歸就是這個思想,把最小二乘估計里加個 k,改變它的估計值,使估計結(jié)果變穩(wěn)定。至于 k 應(yīng)該多大呢?可以根據(jù)嶺跡圖來判斷,估計這就是嶺回歸名稱的由來。你可以選非常多的 k 值,可以做出一個嶺跡圖,看看這個圖在取哪個值的時候變穩(wěn)定了,那就確定 k 值了,然后整個參數(shù)估計不穩(wěn)定的問題就解決了。

偏最小二乘回歸

10,偏最小二乘回歸。偏最小二乘回歸也可以用于解決自變量之間高度相關(guān)的問題。但比主成分回歸和嶺回歸更好的一個優(yōu)點是,偏最小二乘回歸可以用于例數(shù)很少的情形,甚至例數(shù)比自變量個數(shù)還少的情形。聽起來有點不可思議,不是說例數(shù)最好是自變量個數(shù)的 10 倍以上嗎?怎么可能例數(shù)比自變量還少,這還怎么計算?可惜的是,偏最小二乘回歸真的就有這么令人發(fā)指的優(yōu)點。所以,如果你的自變量之間高度相關(guān)、例數(shù)又特別少、而自變量又很多(這么多無奈的毛?。?,那就現(xiàn)在不用發(fā)愁了,用偏最小二乘回歸就可以了。它的原理其實跟主成分回歸有點像,也是提取自變量的部分信息,損失一定的精度,但保證模型更符合實際。因此這種方法不是直接用因變量和自變量分析,而是用反映因變量和自變量部分信息的新的綜合變量來分析,所以它不需要例數(shù)一定比自變量多。偏最小二乘回歸還有一個很大的優(yōu)點,那就是可以用于多個因變量的情形,普通的線性回歸都是只有一個因變量,而偏最小二乘回歸可用于多個因變量和多個自變量之間的分析。因為它的原理就是同時提取多個因變量和多個自變量的信息重新組成新的變量重新分析,所以多個因變量對它來說無所謂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容