【R語言】臨床特征分組,多分類轉(zhuǎn)換成二分類

前面我們講過腫瘤TNM分期

我們知道T分期一般可以分成T1,T2,T3和T4四個(gè)期。另外一個(gè)常用的臨床特征是組織病理分期,一般也是分為四期stage I,stage II, stage III和stage IV。四組在我們做差異表達(dá)分析的時(shí)候是比較麻煩的。

?R代碼TCGA差異表達(dá)分析

?零代碼TCGA差異表達(dá)分析

最簡單的方法是將四個(gè)期合并成兩個(gè)期。今天天我們就來聊聊如何用R來將四分期的臨床特征轉(zhuǎn)換成二分期。

首先我們還是先來獲取相關(guān)癌癥的臨床特征。這在?TCGAbiolinks獲取癌癥臨床信息一文里面已經(jīng)講過了。這里還是以膽管癌TCGA-CHOL為例,如果對其它的癌癥感興趣,可以在?TCGA數(shù)據(jù)庫中癌癥名稱縮寫一文中找到目前TCGA中63個(gè)癌癥的縮寫。

#安裝TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
#加載TCGAbiolinks包
library(TCGAbiolinks)
#下載TCGA-CHOL這個(gè)項(xiàng)目相關(guān)的臨床信息,這個(gè)項(xiàng)目是膽管癌
clinical <- GDCquery_clinic(project = "TCGA-CHOL", type = "clinical")

然后我們獲取樣本TNM分期中的T分期。根據(jù)T分期的定義,T1和T2期的腫瘤大小相對較小,所以用gsub將T1和T2替換成small,將T3和T4替換成big。這樣我們就有兩個(gè)組了,便于后面做差異表達(dá)分析。看看size較大的腫瘤跟size較小的腫瘤中,基因表達(dá)有沒有顯著差異。具體操作的時(shí)候,我們發(fā)現(xiàn)T2期實(shí)際上又進(jìn)一步分成了T2a和T2b。當(dāng)然我們替換兩次也是可以的。如果情況比這個(gè)更復(fù)雜呢,還有T2c,T2d等等,怎么辦。難道我們要一一去替換嗎?我們可以利用?正則表達(dá)式,在正則表達(dá)式中“.”可以用來匹配任意字符串,所以T2.就可以匹配我們剛才說到的所有情況。

T=clinical$ajcc_pathologic_t

T=gsub("T1.*","small",T)
T=gsub("T2.*","small",T)
T=gsub("T3.*","big",T)
T=gsub("T4.*","big",T)

對于組織病理分期stage I,stage II, stage III和stage IV,我們可以把一二期作為早期,三四期作為晚期。這里替換有一個(gè)小技巧。如果先從stage I開始替換,為了匹配所有的可能出現(xiàn)的情況我們也要使用stage I.,那么問題來了,stage I.也可以匹配stage II和stage III,這樣就會造成錯(cuò)誤。

所以我們反過來做,先從IV和III開始替換,這樣對I和II沒有影響。等III和IV都替換完了,直接把剩下的以stage開頭的都替換成early,因?yàn)槭O碌目隙ǘ际荌和II的。

stage=clinical$ajcc_pathologic_stage
stage=gsub("Stage IV.*","advanced",stage)
stage=gsub("Stage III.*","advanced",stage)
stage=gsub("Stage.*","early",stage)

參考資料:
?腫瘤TNM分期

?R代碼TCGA差異表達(dá)分析

?零代碼TCGA差異表達(dá)分析

?TCGAbiolinks獲取癌癥臨床信息

?TCGA數(shù)據(jù)庫中癌癥名稱縮寫

?正則表達(dá)式

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容