我對學習的總結是:WOLF定律
W:what
O:organization
L:logistic
F:familiar
先說what
- 什么是回歸?
英國著名統(tǒng)計學家弗朗西斯·高爾頓(Francis Galton,1822—1911)是最先應用統(tǒng)計方法研究兩個變量之間關系問題的人?!盎貧w”一詞就是由他引入的。他對父母身高與兒女身高之間的關系很感興趣,并致力于此方面的研究。高爾頓發(fā)現(xiàn),雖然有一個趨勢:父母高,兒女也高;父母矮,兒女也矮,但從平均意義上說,給定父母的身高,兒女的身高卻趨同于或者說回歸于總人口的平均身高。換句話說,盡管父母雙親都異常高或異常矮,兒女身高并非也普遍地異常高或異常矮,而是具有回歸于人口總平均高的趨勢。更直觀地解釋,父輩高的群體,兒輩的平均身高低于父輩的身高;父輩矮的群體,兒輩的平均身高高于其父輩的身高。用高爾頓的話說,兒輩身高的“回歸”到中等身高。這就是回歸一詞的最初由來。
現(xiàn)在回歸的含義:回歸是研究因變量對自變量的依賴關系的一種統(tǒng)計分析方法,目的是通過自變量的給定值來估計或預測因變量的均值。它可用于預測、時間序列建模以及發(fā)現(xiàn)各種變量之間的因果關系。 - 為什么使用回歸分析
1.對某一現(xiàn)象建模,以更好地了解該現(xiàn)象并有可能基于對該現(xiàn)象的了解來影響政策的制定以及決定采取何種相應措施。
2.對某種現(xiàn)象建模以預測其他地點或其他時間的數(shù)值?;灸繕耸菢嫿ㄒ粋€持續(xù)、準確的預測模型。 - 回歸分析的作用主要有以下幾點:
1)挑選與因變量相關的自變量;
2)描述因變量與自變量之間的關系強度;
3)生成模型,通過自變量來預測因變量;
4)根據(jù)模型,通過因變量,來控制自變量。
一、模型介紹:
Cox比例風險回歸模型(Cox's proportional hazards regression model),簡稱Cox回歸模型。該模型由英國統(tǒng)計學家D.R.Cox于1972年提出,主要用于腫瘤和其它慢性病的預后分析,也可用于隊列研究的病因探索。COX回歸模型,又稱“比例風險回歸模型(proportional hazards model,簡稱Cox模型)”,是由英國統(tǒng)計學家D.R.Cox(1972)年提出的一種半?yún)?shù)回歸模型。該模型以生存結局和生存時間為應變量,可同時分析眾多因素對生存期的影響,能分析帶有截尾生存時間的資料,且不要求估計資料的生存分布類型。由于上述優(yōu)良性質(zhì),該模型自問世以來,在醫(yī)學隨訪研究中得到廣泛的應用,是迄今生存分析中應用最多的多因素分析方法。
二、Cox回歸分析基本原理
在介紹Cox回歸模型之前,需要了解幾個有關的概念。
-
生存函數(shù)(survival function): S(t)=Pr(T > t) t 表示某個時間,T表示生存的時間(壽命),Pr表示表示概率。生存函數(shù)就是壽命T大于t的概率。舉例來說,人群中壽命超過50(t)歲的人在所有人中的概率是多少,就是生存函數(shù)要描述的。假定t=0時,也就是壽命超過0的概率為1;t趨近于無窮大,生存概率為0,生存函數(shù)是一個單調(diào)非增函數(shù)。t越大,S(t) 值 越小。
image.png
image.png -
那么如果我們做如下實驗,分析x1~x6這6個因素對生存時間t的影響,能否用線性回歸分析建立時間t與影響因素間的線性回歸方差?或建立生存函數(shù)S(t)與影響因素間的線性回歸方程?
image.png
t為生存時間
image.png
這里就存在幾個問題:
1.生存時間t不服從正態(tài)分布
2.生存時間t含有截尾值(不知道截尾值自己查一下)
cox模型解決了這一問題,cox模型用風險函數(shù)h(t)作為因變量,并假定:
image.png
利用生存函數(shù)與危險函數(shù)進一步推導
image.png
image.png

ROC曲線和AUC
ROC(Receiver Operating Characteristic)曲線和AUC常被用來評價一個二值分類器(binary classifier)的優(yōu)劣。
對于分類器,或者說分類算法,評價指標主要有precision,recall,F(xiàn)-score1,以及我們今天要討論的ROC和AUC。

ROC曲線的橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)

接下來我們考慮ROC曲線圖中的四個點和一條線。第一個點,(0,1),即FPR=0, TPR=1,這意味著FN(false negative)=0,并且FP(false positive)=0。Wow,這是一個完美的分類器,它將所有的樣本都正確分類。第二個點,(1,0),即FPR=1,TPR=0,類似地分析可以發(fā)現(xiàn)這是一個最糟糕的分類器,因為它成功避開了所有的正確答案。第三個點,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true positive)=0,可以發(fā)現(xiàn)該分類器預測所有的樣本都為負樣本(negative)。類似的,第四個點(1,1),分類器實際上預測所有的樣本都為正樣本。經(jīng)過以上的分析,我們可以斷言,ROC曲線越接近左上角,該分類器的性能越好。
對于一個特定的分類器和測試數(shù)據(jù)集,顯然只能得到一個分類結果,即一組FPR和TPR結果,而要得到一個曲線,我們實際上需要一系列FPR和TPR的值。分類器的一個重要功能“概率輸出”,即表示分類器認為某個樣本具有多大的概率屬于正樣本(或負樣本)我們根據(jù)每個測試樣本屬于正樣本的概率值從大到小排序。下圖是一個示例,圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率。

我們從高到低,依次將“Score”值作為閾值threshold,當測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認為它為正樣本,否則為負樣本。舉例來說,對于圖中的第4個樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認為是正樣本,因為它們的“Score”值都大于等于0.6,而其他樣本則都認為是負樣本。每次選取一個不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點。這樣一來,我們一共得到了20組FPR和TPR的值,將它們畫在ROC曲線的結果如下圖:

AUC值的計算
AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應AUC更大的分類器效果更好。
首先AUC值是一個概率值,當你隨機挑選一個正樣本以及一個負樣本,當前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值。當然,AUC值越大,當前的分類算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。
既然已經(jīng)這么多評價標準,為什么還要使用ROC和AUC呢?因為ROC曲線有個很好的特性:當測試集中的正負樣本的分布變化的時候,ROC曲線能夠保持不變。在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)類不平衡(class imbalance)現(xiàn)象,即負樣本比正樣本多很多(或者相反),而且測試數(shù)據(jù)中的正負樣本的分布也可能隨著時間變化。






