模型不如意十之八九,可拿出手無二三

今天又來開放性討論啦。
最近做了一個TCGA的數(shù)據(jù)分析,走到最后多因素cox模型構(gòu)建這一步了,選擇了三個基因,對數(shù)據(jù)集劃分了高低風(fēng)險,C-index值和timeROC計算的AUC值都還看得過去,but,就訓(xùn)練集的高低風(fēng)險KM-plot出現(xiàn)了如此哭笑不得的交叉?(連測試機都沒交叉,怎么訓(xùn)練集還叉上了)

疾病是乳腺癌,橫坐標是月

我發(fā)朋友圈問研究腫瘤的醫(yī)學(xué)生們,模型成這種情況,是否可以使用?沒想到這個問題很多人感觸頗深,戳中了痛點:怎么看自己的模型,都是歪瓜裂棗,要么C-index值不夠美麗,要么AUC值凄凄慘慘,要么就不穩(wěn)定,訓(xùn)練集壯得像頭牛,跑到測試集立刻痛哭流涕。

還有人曬出了寄幾的同款圖


以及已發(fā)表文章里那蜿蜒曲折的交叉???


看來我提的還是一個比較痛點的問題吧,在朋友圈和幾個群里發(fā)出去,有幸收到了三五十條回復(fù),我把討論結(jié)果跟大家分享一下,總共有以下幾個觀點:

  1. 可以使用,因為p值小于0.05,并且趨勢是對的。
  2. 不能使用km plot,因為出現(xiàn)了交叉,不適合使用km plot。
  3. 交叉點在100個月以后,所以可以只討論5年內(nèi)或者8年內(nèi)的,不考慮生存時間超長的那些病人(建模時去掉他們)。
  4. 可以分段討論,說明一下為什么出現(xiàn)了交叉,我看到比較有說服力的理由是,可能因為過了100個月后,樣本的數(shù)量太少,導(dǎo)致比例變化大,不具有代表性了。

還想問一下,這一張,一小點的交叉,是否可能會被卡呢,要如何解釋一下才好?

疾病是乳腺癌,橫坐標是月

我來發(fā)個投票和討論,歡迎并感謝大家發(fā)表自己的見解~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容