目前101算法組合用來構(gòu)建風險模型的文章越來越多了,那么這種分析怎么做的呢?
http://www.sxdyc.com/prognosticmodel

需要上傳四個文件
第一個數(shù)據(jù)和第三個數(shù)據(jù)表達數(shù)據(jù),其中行為基因,列為樣本,記得基因不要重復(fù),做101算法對基因篩選能力有限,最好控制在20-30內(nèi)

第二個數(shù)據(jù)和第四個數(shù)據(jù),生存數(shù)據(jù),第一列為樣本,第二列為數(shù)據(jù)集的名字,第三列為生存狀態(tài),第四列為生存時間

如果不同數(shù)據(jù)差別比較大,可以選擇用scale標準化,默認是對單個數(shù)據(jù)集內(nèi)部單獨做scale
記得訓練集和驗證集的生存時間要保持一致。

選擇算法的組合,哪個算法報錯,就去掉哪個算法,分組的顏色,熱圖的顏色選擇后,提交后即可等待運行成功。
之前在qq群中,經(jīng)常遇到一些常見的數(shù)據(jù)錯誤
1、訓練集的隊列名寫了TCGA,驗證集又寫了TCGA,兩個名字重復(fù)了,繪制的熱圖只有一個TCGA的組,所以這里需要注意,訓練集和驗證集隊列名不能一樣?。。?!
2、生存時間和生存狀態(tài),有的用戶,竟然第一個數(shù)據(jù)集是一樣的,第二個數(shù)據(jù)集,生存時間和生存狀態(tài)反了!?。?!
3、生存時間保持一致,要么多少天,要么都是月,要么都是年,不要一會天,一會月,一會年。