什么是一致性指數(shù)?
C-index,英文名全稱concordance index,中文里有人翻譯成一致性指數(shù),最早是由范德堡大學(xué)(Vanderbilt University)生物統(tǒng)計(jì)教教授Frank E Harrell Jr 1996年提出,主要用于計(jì)算生存分析中的COX模型預(yù)測(cè)值與真實(shí)之間的區(qū)分度(discrimination),和大家熟悉的AUC其實(shí)是差不多的;在評(píng)價(jià)腫瘤患者預(yù)后模型的預(yù)測(cè)精度中用的比較多。一般評(píng)價(jià)模型的好壞主要有兩個(gè)方面,一是模型的擬合優(yōu)度(Goodness of Fit),常見的評(píng)價(jià)指標(biāo)主要有R方、-2logL、AIC、BIC等;
另外一個(gè)是模型的預(yù)測(cè)精度,顧名思義就是模型的真實(shí)值與預(yù)測(cè)值之間差別大小,均方誤差,相對(duì)誤差等。在臨床應(yīng)用上更注重預(yù)測(cè)精度,建模的主要目的是用于預(yù)測(cè),而C-index它就屬于模型評(píng)價(jià)指標(biāo)中的預(yù)測(cè)精度。
C-index的計(jì)算方法是把所研究的資料中的所有研究對(duì)象隨機(jī)地兩兩組成對(duì)子,以生存分析為例,兩個(gè)病人如果生存時(shí)間較長(zhǎng)的一位其預(yù)測(cè)生存時(shí)間長(zhǎng)于另一位,或預(yù)測(cè)的生存概率高的一位的生存時(shí)間長(zhǎng)于另一位,則稱之為預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符,稱之為一致。
計(jì)算C-index=K/M。
從上述計(jì)算方法可以看出C-index在0.5-1之間(任意配對(duì)隨機(jī)情況下一致與不一致剛好是0.5的概率)。0.5為完全不一致,說(shuō)明該模型沒(méi)有預(yù)測(cè)作用,1為完全一致,說(shuō)明該模型預(yù)測(cè)結(jié)果與實(shí)際完全一致。一般情況下C-index在0.50-0.70為準(zhǔn)確度較低:在0.71-0.90之間為準(zhǔn)確度中等;而高于0.90則為高準(zhǔn)確度,跟相關(guān)系數(shù)有點(diǎn)類似。
光從C-index一個(gè)數(shù)字上還是很難以衡量到底是準(zhǔn)確度高還是低,所以人們就想著用一個(gè)統(tǒng)計(jì)學(xué)檢驗(yàn)來(lái)說(shuō)服證明這個(gè)高低,正如篩選基因差異是光看差異倍數(shù)來(lái)判斷表達(dá)差異還過(guò)于武斷,此時(shí)引入重抽樣技術(shù)(Bootstrap)來(lái)檢驗(yàn)預(yù)測(cè)模型的準(zhǔn)確度。Bootstrap是非參數(shù)統(tǒng)計(jì)中一種重要的估計(jì)統(tǒng)計(jì)量方差進(jìn)而進(jìn)行區(qū)間估計(jì)的統(tǒng)計(jì)方法。
Bootstrap方法核心思想和基本步驟如下:
(1)采用重抽樣技術(shù)從原始樣本中抽取一定數(shù)量的樣本,此過(guò)程允許重復(fù)抽樣。
(2)根據(jù)抽出的樣本計(jì)算給定的統(tǒng)計(jì)量T。
(3)重復(fù)上述N次(一般大于1000),得到N個(gè)統(tǒng)計(jì)量T。
(4)計(jì)算上述N個(gè)統(tǒng)計(jì)量T的樣木方差,得到統(tǒng)計(jì)量的方差。
另如果數(shù)據(jù)集很大的話可以按照不同的比例將數(shù)據(jù)集拆分,一部分用于建模一部分用于驗(yàn)證。關(guān)于交叉驗(yàn)證(Cross-validation),如5-fold、10-fold等。
雖然看起來(lái)很復(fù)雜,但是事實(shí)上已經(jīng)有人做了這些事情,在R中有包可以直接計(jì)算一致性指數(shù):Hmisc 、compareC,兩個(gè)包都可以計(jì)算c-index。
參考資料來(lái)源:https://shengxin.ren/article/104