我們這行閑的時候閑的要死,忙起來也能要人命,就是突然從一種極端狀態(tài)跳轉到另一種極端狀態(tài)。S(F)H(U)I(C)T(K)!
大家這段時間盡量別感染了(我目前還堅挺著),年底多項目急著交付,可別發(fā)著燒還要趕項目,那真是要命了。
昨天看了一下生存分析的書,了解了一些基礎,感覺可以分享給大家,讓大家對生存分析有一些基本概念,寫出來也加深一下自己的理解。
》》》》》》》》》》》》》》》》》》
生存分析是研究事件發(fā)生和時間的一類統(tǒng)計方法,最常用于死亡研究。對于我們臨床行業(yè)來說,該方法常用于腫瘤項目。但是實際上,生存分析還常用于設備故障(完好到何時發(fā)生故障,下面幾個例子性質相同)、地震、交通事故、股票市場、結婚、犯罪被逮捕等等,可以說應用非常廣泛。
生存分析數(shù)據(jù)就來自事件的發(fā)生與否,那么什么是事件?如何區(qū)分?我們在寫ADTTE的時候,也會經(jīng)常聽到“事件”和“刪失”。作者把事件定義為“可以在時間上定位的質變(qualitative change)”。
加粗的3個字我覺得是事件的3個關鍵因素,所謂質變,作者指的是從一種離散狀態(tài)到另一種離散狀態(tài)的過渡。比如說從未婚到結婚,從經(jīng)理晉升到總經(jīng)理...為了進行生存分析,比如結婚,你不僅需要知道誰結婚誰沒結婚,還要知道結婚的時間點(在某個時間節(jié)點之前)
就像ADTTE里面的PFS(從首次給藥日期<隨機日期>至疾病進展或死亡的間隔時間),如果在研究結束之前(就是我上面講的時間節(jié)點)發(fā)生了疾病進展或死亡,那個這個疾病進展或者死亡就是代表事件發(fā)生了(因為PFS的定義就是這樣,它關注的就是什么時候發(fā)生了疾病進展或死亡),時間點一般是疾病進展或死亡前的最后一次SCAN date;沒有發(fā)生,那就是刪失了,也就是說并不是所有人一定會發(fā)生事件。
對于生存分析,最好的觀察計劃是前瞻性的。你在某個確定的時間點(腫瘤項目就是首次給藥或者隨機日起)開始觀察一群人(受試者),然后跟蹤他們一段相當長的時間(治療期+隨訪期),記錄下感興趣的事件發(fā)生的時間(PFS,DOR,TTR,OS,etc.)。
做多了腫瘤項目,我們可能覺得生存分析只記錄一個人同一類型的事件只有一次,但是對于生存分析它本身來說,并不是這樣的。比如上面的逮捕、事故或晉升等事件是可重復的;也就是說,它們可能在同一個人身上出現(xiàn)兩次或兩次以上。雖然觀察和記錄同一事件的多次發(fā)生絕對是可取的,但需要專門的生存分析方法來適當?shù)靥幚磉@些數(shù)據(jù)。
當數(shù)據(jù)僅由事件發(fā)生的時間組成時,可以執(zhí)行生存分析,但生存分析的一個共同目標是估計因果或預測模型,其中事件的風險取決于協(xié)變量。像人種性別都可以稱為協(xié)變量。
生存分析數(shù)據(jù)有兩個特征是傳統(tǒng)分析方法難以處理的:
censoring and time-dependent covariates (sometimes called time-varying explanatory variables).
書中舉了一個例子,我覺得很有意義:
從馬里蘭州監(jiān)獄釋放的432名囚犯被跟蹤調查了一年---試驗對象
EOI(The event of interest)是第一次被逮捕的時間。
目的是為了確定被逮捕的發(fā)生和時間如何依賴于幾個協(xié)變量(預測變量-predictor variables)。這幾個協(xié)變量包括人種、釋放時的年齡、先前被定罪的次數(shù),這幾個協(xié)變量在這一年的隨訪期是保持不變的,其他像什么婚姻狀況和就職情況是可以改變的。
現(xiàn)在這些條件都列出來了,如果用傳統(tǒng)的分析方法怎么處理?
①:用邏輯回歸((logistic regression),同時二分類變量是 被捕和未被捕。但這種分析忽略了有關逮捕時間的信息。我們很自然地假設,在釋放一周后被捕的人,平均而言,比那些直到第52周才被捕的人有更高的被捕傾向。至少,忽略這些信息會降低估算的精度。
解決這個問題的一個方法是將釋放和第一次被捕之間的時間長度作為因變量,然后估計一個傳統(tǒng)的線性回歸模型。但是在一年的跟蹤調查中,你怎么處理那些沒有被捕的人呢?(也就是生存分析中講的刪失)
有兩個明顯的特別方法可以處理這種刪失的情況,但這兩種方法都不好用。一種方法是拋棄這些刪失的情況。如果被刪失的情況比例很小,這種方法可能會很有效。但是根據(jù)以往再犯的案例,大約75%的人都不會再被捕在釋放一年后,也就是說會有很多的數(shù)據(jù)會被discard,這肯定會造成很大的偏差。
另一種方法是你可以將所有未被逮捕的人的逮捕時間設置為一年(也就是假設一年的時候沒有被逮捕的人都被逮捕了)。然而,這同樣可能會出現(xiàn)較大的偏差。
無論你使用哪種方法,像就業(yè)狀況這樣的時間相關變量(time-dependent,翻譯正確嗎?)如何被適當?shù)丶{入到逮捕發(fā)生的logit模型或逮捕時間的線性模型中,這一點都不清楚。
然后該數(shù)據(jù)集包含了在52周的隨訪中,每個人是否全職工作的信息。也許我們可以估計一個有52個指標(虛擬)變量的就業(yè)狀況模型。除了這種程序在計算上的笨拙和統(tǒng)計上的低效之外,還有一個更根本的問題,即逮捕后數(shù)周內(nèi)的所有就業(yè)指標可能都是逮捕的結果,而不是原因。特別是,被捕后被監(jiān)禁的人不太可能在接下來的幾周內(nèi)全職工作。
簡而言之,傳統(tǒng)的方法在處理刪失數(shù)據(jù)或與時間相關(time-dependent)的協(xié)變量方面都沒有多大幫助。相比之下,所有的生存分析方法都允許刪失數(shù)據(jù)的存在,許多方法還允許時間相關的協(xié)變量。
在刪失的情況下,訣竅是設計一種程序,將刪失和未刪的數(shù)據(jù)信息結合起來,以產(chǎn)生對EOI的參數(shù)的一致估計。你可以很容易地通過最大似然法或部分似然法來實現(xiàn)這一點。時間相關的協(xié)變量也可以與這些基于可能性的方法合并。
說實話,上面的這個例子看的我一愣一愣的,但是我覺得反著看,不就知道邏輯回歸這個模型是干什么用的,有哪些局限性嗎?有時間我再好好看看線性回歸吧。天天說有時間有時間,后面屁都沒干。
希望上面的例子對大家有啟發(fā),我看完感覺有點道道了,但是你要我說出來,真的說不出來,反正就是看完有一種充實感,嘿嘿....