今天又來開放性討論啦。
最近做了一個TCGA的數(shù)據(jù)分析,走到最后多因素cox模型構(gòu)建這一步了,選擇了三個基因,對數(shù)據(jù)集劃分了高低風(fēng)險,C-index值和timeROC計算的AUC值都還看得過去,but,就訓(xùn)練集的高低風(fēng)險KM-plot出現(xiàn)了如此哭笑不得的交叉?(連測試機都沒交叉,怎么訓(xùn)練集還叉上了)

疾病是乳腺癌,橫坐標是月
我發(fā)朋友圈問研究腫瘤的醫(yī)學(xué)生們,模型成這種情況,是否可以使用?沒想到這個問題很多人感觸頗深,戳中了痛點:怎么看自己的模型,都是歪瓜裂棗,要么C-index值不夠美麗,要么AUC值凄凄慘慘,要么就不穩(wěn)定,訓(xùn)練集壯得像頭牛,跑到測試集立刻痛哭流涕。
還有人曬出了寄幾的同款圖

以及已發(fā)表文章里那蜿蜒曲折的交叉???


看來我提的還是一個比較痛點的問題吧,在朋友圈和幾個群里發(fā)出去,有幸收到了三五十條回復(fù),我把討論結(jié)果跟大家分享一下,總共有以下幾個觀點:
- 可以使用,因為p值小于0.05,并且趨勢是對的。
- 不能使用km plot,因為出現(xiàn)了交叉,不適合使用km plot。
- 交叉點在100個月以后,所以可以只討論5年內(nèi)或者8年內(nèi)的,不考慮生存時間超長的那些病人(建模時去掉他們)。
- 可以分段討論,說明一下為什么出現(xiàn)了交叉,我看到比較有說服力的理由是,可能因為過了100個月后,樣本的數(shù)量太少,導(dǎo)致比例變化大,不具有代表性了。
還想問一下,這一張,一小點的交叉,是否可能會被卡呢,要如何解釋一下才好?

疾病是乳腺癌,橫坐標是月
我來發(fā)個投票和討論,歡迎并感謝大家發(fā)表自己的見解~