零代碼學生信第六天-怎么構(gòu)建風險模型(二)

目前101算法組合用來構(gòu)建風險模型的文章越來越多了,那么這種分析怎么做的呢?

http://www.sxdyc.com/prognosticmodel

需要上傳四個文件

第一個數(shù)據(jù)和第三個數(shù)據(jù)表達數(shù)據(jù),其中行為基因,列為樣本,記得基因不要重復(fù),做101算法對基因篩選能力有限,最好控制在20-30內(nèi)


第二個數(shù)據(jù)和第四個數(shù)據(jù),生存數(shù)據(jù),第一列為樣本,第二列為數(shù)據(jù)集的名字,第三列為生存狀態(tài),第四列為生存時間


如果不同數(shù)據(jù)差別比較大,可以選擇用scale標準化,默認是對單個數(shù)據(jù)集內(nèi)部單獨做scale

記得訓練集和驗證集的生存時間要保持一致。


選擇算法的組合,哪個算法報錯,就去掉哪個算法,分組的顏色,熱圖的顏色選擇后,提交后即可等待運行成功。

之前在qq群中,經(jīng)常遇到一些常見的數(shù)據(jù)錯誤

1、訓練集的隊列名寫了TCGA,驗證集又寫了TCGA,兩個名字重復(fù)了,繪制的熱圖只有一個TCGA的組,所以這里需要注意,訓練集和驗證集隊列名不能一樣?。。?!

2、生存時間和生存狀態(tài),有的用戶,竟然第一個數(shù)據(jù)集是一樣的,第二個數(shù)據(jù)集,生存時間和生存狀態(tài)反了!?。?!

3、生存時間保持一致,要么多少天,要么都是月,要么都是年,不要一會天,一會月,一會年。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容