禁止商業(yè)或二改轉(zhuǎn)載,僅供自學(xué)使用,侵權(quán)必究,如需截取部分內(nèi)容請后臺聯(lián)系作者!
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(一)XGBoost算法+SHAP值(eXtreme Gradient Boosting)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(二) SVM算法+重要性得分(Support Vector Machine)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(三)lightGBM算法+SHAP值(Light Gradient Boosting Machine)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(四)隨機(jī)森林算法+SHAP值 (Random Forest)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(五)GBM算法+SHAP值 (Gradient Boosting Machines)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(六)K-鄰近算法 (K-Nearest Neighbors)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(七)樸素貝葉斯分類算法 (Na?ve Bayes Classifier)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(八)邏輯回歸算法 (logistic regression)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(九)決策樹分類算法 (Decision Trees Classifier)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十)自適應(yīng)提升分類算法 (Adaptive Boosting)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十一)MLP分類算法 (Multi-Layer Perceptrons)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十二)線性判別分析分類算法 (Linear Discriminant Analysis)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十三)隨機(jī)森林生存分析構(gòu)建預(yù)后模型 (Random Survival Forest)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十四): CatBoost分類算法+SHAP值 (categorical data gradient boosting)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十五)隨機(jī)森林生存預(yù)后模型+SHAP值 (Random Survival Forest + SHAP)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十六)隨機(jī)森林算法回歸模型+SHAP值(Random Forest Regression + SHAP)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十七)特征選擇之彈性網(wǎng)絡(luò)回歸算法(Elastic Net Regression)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十八)特征選擇之LASSO算法(Least Absolute Shrinkage and Selection Operator Regression)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十九)特征選擇之Monte Carlo算法(Monte Carlo Feature Selection)
- R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(二十)特征選擇之Boruta算法
機(jī)器學(xué)習(xí)論文
- R語言機(jī)器學(xué)習(xí)論文(一):研究背景
- R語言機(jī)器學(xué)習(xí)論文(二):數(shù)據(jù)準(zhǔn)備
- R語言機(jī)器學(xué)習(xí)論文(三):特征提取
- R語言機(jī)器學(xué)習(xí)論文(四):模型構(gòu)建
- R語言機(jī)器學(xué)習(xí)論文(五):解釋模型
- R語言機(jī)器學(xué)習(xí)論文(六):總結(jié)
介紹
隨機(jī)森林生存分析(Random Survival Forest,簡稱RSF)是一種用于處理右刪失數(shù)據(jù)(即生存時間數(shù)據(jù))的機(jī)器學(xué)習(xí)方法,它是傳統(tǒng)隨機(jī)森林算法在生存分析領(lǐng)域的擴(kuò)展。RSF的目標(biāo)變量是生存時間,它考慮了每個樣本的生存時間(T)和刪失時間(C),其中刪失時間指的是在觀察期間內(nèi)未發(fā)生感興趣事件的時間。RSF框架的核心步驟包括:
- 數(shù)據(jù)重采樣:從原始數(shù)據(jù)中抽取多個bootstrap樣本,每個樣本平均排除一定比例的數(shù)據(jù),稱為袋外數(shù)據(jù)(Out-Of-Bag, OOB)。
- 構(gòu)建生存樹:對每個bootstrap樣本構(gòu)建一棵二叉生存樹。在樹的每個節(jié)點(diǎn)上,隨機(jī)選取一定數(shù)量的候選變量,并使用最大化子節(jié)點(diǎn)之間生存差異的候選變量進(jìn)行拆分。
- 生長限制:在葉節(jié)點(diǎn)不少于一定數(shù)量死亡事件的約束下,將樹生長到完整大小。
- 累積風(fēng)險函數(shù):對每棵樹計算累積風(fēng)險函數(shù)(Cumulative Hazard Function, CHF),得到集成累積風(fēng)險函數(shù)的均值。
- 預(yù)測誤差計算:使用OOB數(shù)據(jù),計算集成累積風(fēng)險函數(shù)預(yù)測誤差。
RSF算法的中心元素是生成生存樹和構(gòu)建集成CHF。RSF算法通過集成多棵生存樹的預(yù)測來提高生存分析的準(zhǔn)確性。這種方法可以處理多個協(xié)變量,包括噪聲協(xié)變量,以及協(xié)變量之間復(fù)雜的非線性關(guān)系,而無需事先指定這些關(guān)系。
在實際應(yīng)用中,RSF可以用于預(yù)測個體的生存時間,評估不同治療策略的效果,或者識別與生存時間相關(guān)的生物標(biāo)志物。例如,在醫(yī)學(xué)研究中,RSF可以用來預(yù)測患者的復(fù)發(fā)時間,評估不同治療方案的療效,或者識別與疾病進(jìn)展相關(guān)的基因表達(dá)模式
詳細(xì)解釋請看數(shù)據(jù)分析:生存分析原理和應(yīng)用實例。
教程
本文旨在通過R語言實現(xiàn)Random Survival Forest,總共包含:
- 加載R包
- 案例數(shù)據(jù)
- 數(shù)據(jù)預(yù)處理
- 數(shù)據(jù)描述
- 構(gòu)建randomForestSRC模型
- 評估模型
- 特征重要性(篩選特征)
- 構(gòu)建新模型
- 保存模型
- 總結(jié)
- 系統(tǒng)信息
更多內(nèi)容請前往
R語言機(jī)器學(xué)習(xí)算法實戰(zhàn)系列(十三)隨機(jī)森林生存分析構(gòu)建預(yù)后模型 (Random Survival Forest)
