2018-09-25 統(tǒng)計入門第1篇 cox回歸

我對學習的總結是:WOLF定律
W:what
O:organization
L:logistic
F:familiar
先說what

  • 什么是回歸?
    英國著名統(tǒng)計學家弗朗西斯·高爾頓(Francis Galton,1822—1911)是最先應用統(tǒng)計方法研究兩個變量之間關系問題的人?!盎貧w”一詞就是由他引入的。他對父母身高與兒女身高之間的關系很感興趣,并致力于此方面的研究。高爾頓發(fā)現(xiàn),雖然有一個趨勢:父母高,兒女也高;父母矮,兒女也矮,但從平均意義上說,給定父母的身高,兒女的身高卻趨同于或者說回歸于總人口的平均身高。換句話說,盡管父母雙親都異常高或異常矮,兒女身高并非也普遍地異常高或異常矮,而是具有回歸于人口總平均高的趨勢。更直觀地解釋,父輩高的群體,兒輩的平均身高低于父輩的身高;父輩矮的群體,兒輩的平均身高高于其父輩的身高。用高爾頓的話說,兒輩身高的“回歸”到中等身高。這就是回歸一詞的最初由來。
    現(xiàn)在回歸的含義:回歸是研究因變量對自變量的依賴關系的一種統(tǒng)計分析方法,目的是通過自變量的給定值來估計或預測因變量的均值。它可用于預測、時間序列建模以及發(fā)現(xiàn)各種變量之間的因果關系。
  • 為什么使用回歸分析
    1.對某一現(xiàn)象建模,以更好地了解該現(xiàn)象并有可能基于對該現(xiàn)象的了解來影響政策的制定以及決定采取何種相應措施。
    2.對某種現(xiàn)象建模以預測其他地點或其他時間的數(shù)值?;灸繕耸菢嫿ㄒ粋€持續(xù)、準確的預測模型。
  • 回歸分析的作用主要有以下幾點:
1)挑選與因變量相關的自變量;
2)描述因變量與自變量之間的關系強度;
3)生成模型,通過自變量來預測因變量;
4)根據(jù)模型,通過因變量,來控制自變量。

一、模型介紹:
Cox比例風險回歸模型(Cox's proportional hazards regression model),簡稱Cox回歸模型。該模型由英國統(tǒng)計學家D.R.Cox于1972年提出,主要用于腫瘤和其它慢性病的預后分析,也可用于隊列研究的病因探索。COX回歸模型,又稱“比例風險回歸模型(proportional hazards model,簡稱Cox模型)”,是由英國統(tǒng)計學家D.R.Cox(1972)年提出的一種半?yún)?shù)回歸模型。該模型以生存結局和生存時間為應變量,可同時分析眾多因素對生存期的影響,能分析帶有截尾生存時間的資料,且不要求估計資料的生存分布類型。由于上述優(yōu)良性質(zhì),該模型自問世以來,在醫(yī)學隨訪研究中得到廣泛的應用,是迄今生存分析中應用最多的多因素分析方法。
二、Cox回歸分析基本原理
在介紹Cox回歸模型之前,需要了解幾個有關的概念。

  • 生存函數(shù)(survival function): S(t)=Pr(T > t) t 表示某個時間,T表示生存的時間(壽命),Pr表示表示概率。生存函數(shù)就是壽命T大于t的概率。舉例來說,人群中壽命超過50(t)歲的人在所有人中的概率是多少,就是生存函數(shù)要描述的。假定t=0時,也就是壽命超過0的概率為1;t趨近于無窮大,生存概率為0,生存函數(shù)是一個單調(diào)非增函數(shù)。t越大,S(t) 值 越小。


    image.png

    image.png
  • 那么如果我們做如下實驗,分析x1~x6這6個因素對生存時間t的影響,能否用線性回歸分析建立時間t與影響因素間的線性回歸方差?或建立生存函數(shù)S(t)與影響因素間的線性回歸方程?


    image.png

    t為生存時間


    image.png

    這里就存在幾個問題:
    1.生存時間t不服從正態(tài)分布

    2.生存時間t含有截尾值(不知道截尾值自己查一下)
    cox模型解決了這一問題,cox模型用風險函數(shù)h(t)作為因變量,并假定:


    image.png

    利用生存函數(shù)與危險函數(shù)進一步推導
    image.png

    image.png
image.png

ROC曲線和AUC

ROC(Receiver Operating Characteristic)曲線和AUC常被用來評價一個二值分類器(binary classifier)的優(yōu)劣。
對于分類器,或者說分類算法,評價指標主要有precision,recall,F(xiàn)-score1,以及我們今天要討論的ROC和AUC。

image.png

ROC曲線的橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)
image.png

接下來我們考慮ROC曲線圖中的四個點和一條線。第一個點,(0,1),即FPR=0, TPR=1,這意味著FN(false negative)=0,并且FP(false positive)=0。Wow,這是一個完美的分類器,它將所有的樣本都正確分類。第二個點,(1,0),即FPR=1,TPR=0,類似地分析可以發(fā)現(xiàn)這是一個最糟糕的分類器,因為它成功避開了所有的正確答案。第三個點,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true positive)=0,可以發(fā)現(xiàn)該分類器預測所有的樣本都為負樣本(negative)。類似的,第四個點(1,1),分類器實際上預測所有的樣本都為正樣本。經(jīng)過以上的分析,我們可以斷言,ROC曲線越接近左上角,該分類器的性能越好。
對于一個特定的分類器和測試數(shù)據(jù)集,顯然只能得到一個分類結果,即一組FPR和TPR結果,而要得到一個曲線,我們實際上需要一系列FPR和TPR的值。分類器的一個重要功能“概率輸出”,即表示分類器認為某個樣本具有多大的概率屬于正樣本(或負樣本)我們根據(jù)每個測試樣本屬于正樣本的概率值從大到小排序。下圖是一個示例,圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率。
image.png

我們從高到低,依次將“Score”值作為閾值threshold,當測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認為它為正樣本,否則為負樣本。舉例來說,對于圖中的第4個樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認為是正樣本,因為它們的“Score”值都大于等于0.6,而其他樣本則都認為是負樣本。每次選取一個不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點。這樣一來,我們一共得到了20組FPR和TPR的值,將它們畫在ROC曲線的結果如下圖:
image.png

AUC值的計算
AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應AUC更大的分類器效果更好。
首先AUC值是一個概率值,當你隨機挑選一個正樣本以及一個負樣本,當前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值。當然,AUC值越大,當前的分類算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。
既然已經(jīng)這么多評價標準,為什么還要使用ROC和AUC呢?因為ROC曲線有個很好的特性:當測試集中的正負樣本的分布變化的時候,ROC曲線能夠保持不變。在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)類不平衡(class imbalance)現(xiàn)象,即負樣本比正樣本多很多(或者相反),而且測試數(shù)據(jù)中的正負樣本的分布也可能隨著時間變化。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • “主編,這是《冰雨》殺青宴的照片?!蹦闶孪纫褜⒄掌碾娮影?zhèn)鞯搅酥骶幍泥]箱里,此刻沖洗出來放到主編辦公桌上的則是樣...
    楚雨寒枯閱讀 760評論 0 0
  • 來到這個世界,你學會的第一個技能是“流淚”。呱呱墜地的哭啼聲,似乎已經(jīng)告訴你,生活的不易之處,生存的艱辛之難。所以...
    冬少爺閱讀 594評論 43 30
  • 你喜歡蒸煮?還是燒烤? 2016的夏天真是火辣辣的熱,仿佛除了蟬,其他的一切都被熱蔫了。 這樣hot的日子里,南方...
    子瞳閱讀 447評論 0 0
  • 體驗才是最好的效果。 打游戲、睡覺和陪孩子,哪個更重要? 當然是后者。 我記得,昆到外婆家看女兒,女兒蔚高興地嚷著...
    曼季風閱讀 227評論 0 0
  • 廚房的油煙味 羊肉的膻味加上清補涼 刀起刀落的清脆 你的臉上是晶瑩的汗珠 頭頂綠色的風扇不緊不慢的轉(zhuǎn)著 像一頭正值...
    路三千閱讀 169評論 0 0

友情鏈接更多精彩內(nèi)容