ROC曲線(受試者工作特征曲線)

ROC曲線在我的記憶中,是在本科三年級的循證醫(yī)學(xué)課,預(yù)防醫(yī)學(xué)課上學(xué)過的,現(xiàn)在已經(jīng)很模糊了,但是好像需要用上,這一次來回顧下:
ROC曲線(receiver operating characteristic curve),又稱受試者工作特征曲線,或感受性曲線(sensitivity curve).
用簡單的話概括,就是用于評價,比較診斷性實驗的效果,是否有應(yīng)用價值?;蛘哌x擇適合的截斷值,用于診斷實驗。
ROC曲線縱坐標(biāo)為真陽性率(TPR靈敏度),橫坐標(biāo)為假陽性率(1-特異度FPR)。關(guān)于真陽性率,假陽性率等的概念這里不做贅述。曲線越靠近左上角,越有診斷價值,ROC曲線下面積越大,越有應(yīng)用價值。

  • 橫坐標(biāo):1-Specificity,偽正類率(False positive rate, FPR),預(yù)測為正但實際為負(fù)的樣本占所有負(fù)例樣本的比例;
  • 縱坐標(biāo):Sensitivity,真正類率(True positive rate, TPR),預(yù)測為正且實際為正的樣本占所有正例樣本的比例。

在一個二分類模型中,如風(fēng)險打分模型,假設(shè)采用邏輯回歸分類器,

其給出針對每個實例為正類的概率,那么通過設(shè)定一個閾值如0.6,概率大于等于0.6的為正類,小于0.6的為負(fù)類。對應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對應(yīng)坐標(biāo)點。

ROC曲線實際上也是由一系列的點所構(gòu)成,即模型的閾值不斷變化,隨著閾值的逐漸減小,越來越多的實例被劃分為正類,但是這些正類中同樣也摻雜著真正的負(fù)實例,即TPR和FPR會同時增大。閾值最大時,對應(yīng)坐標(biāo)點為(0,0),閾值最小時,對應(yīng)坐標(biāo)點(1,1)。

對基因表達(dá)打分模型的理解也類似,根據(jù)risk score可將sample分為高風(fēng)險與低風(fēng)險組,而高低風(fēng)險組與實際的alive, dead存在差異, 因此每個sample的score分?jǐn)?shù)都不一,依次以sample的score(或正樣本的預(yù)測概率)作為閾值,可得出與sample數(shù)相同的點數(shù),其閾值改變,TPR,FRP隨之改變,因而出現(xiàn)了我們常見的曲線。

從AUC判斷分類器(預(yù)測模型)優(yōu)劣的標(biāo)準(zhǔn):

  • AUC = 1,是完美分類器,采用這個預(yù)測模型時,存在至少一個閾值能得出完美預(yù)測。絕大多數(shù)預(yù)測的場合,不存在完美分類器。
  • 0.5 < AUC < 1,優(yōu)于隨機(jī)猜測。這個分類器(模型)妥善設(shè)定閾值的話,能有預(yù)測價值。
  • AUC = 0.5,跟隨機(jī)猜測一樣(例:丟銅板),模型沒有預(yù)測價值。
  • AUC < 0.5,比隨機(jī)猜測還差;但只要總是反預(yù)測而行,就優(yōu)于隨機(jī)猜測。

參考資料鏈接:http://www.itdecent.cn/p/c61ae11cc5f6

生存曲線(Survival curve)

Posted on <time class="entry-date" datetime="2018-01-19T18:31:29+00:00">2018年1月19日</time>

</header>

To be or not to be is only a part of the question, the question also includes how long to be.
生存分析(survival analysis), 不想用難懂的術(shù)語去解釋,很討厭課本上的復(fù)雜句式,好像不搞那么復(fù)雜就很low?明明本身是很簡單的概念。
我們來對比一下:
A: 生存分析是將事件的結(jié)果和出現(xiàn)這一結(jié)果所經(jīng)歷的時間結(jié)合起來分析的一種統(tǒng)計學(xué)方法。(官方)
B: 生存分析就是將觀測和生存時間結(jié)合起來分析的統(tǒng)計學(xué)方法。目的在于顯示某因素與生存時間的關(guān)系。(自己的)
讀完A后的感覺就是我還要再去讀兩遍,然后問生存分析到底是干嘛的?
生存時間的類型:完全數(shù)據(jù)(從起點到死亡),截尾數(shù)據(jù)(從起點到某一時間點)

生存資料的特點:含有截尾數(shù)據(jù),截尾數(shù)據(jù)的真實生存時間未知,但確定的是大于生存時間。一般不呈正態(tài)分布。

條件生存概率:如年條件生存概率,月條件生存概率。

生存率:如5年生存率,指經(jīng)過5年后,仍存活的概率。

生存曲線(Survival curve):以隨訪時間為橫軸,生存率為縱軸,將各點連成曲線。

應(yīng)用于基因表達(dá)高低,可分為兩組,高表達(dá),與低表達(dá)。

分析資料:
1)估計:Kaplan-Meier法(K-M法),由Kaplan和Meier于1958年提出,適用于小樣本和大樣本。
2)比較:log-rank檢驗,非參數(shù)檢驗,用于比較兩組或多組生存曲線。檢驗統(tǒng)計量為卡方。實為單因素分析, 要求各曲線不能交叉,如交叉提示存在混雜因素。
3)影響因素分析:Cox比例風(fēng)險回歸模型(最重要的模型之一),多因素分析方法,1972年提出,不考慮生存 時間分布,利用截尾數(shù)據(jù)。
4)預(yù)測:Cox回歸模型預(yù)測生存率

</article>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容