R代碼TCGA差異表達分析

前面給大家介紹了

?零代碼TCGA差異表達分析

?零代碼TCGA差異表達分析(一)

?零代碼TCGA差異表達分析(二)

?零代碼TCGA差異表達分析(三)

可以很方便的得到差異表達基因列表,火山圖,還可以方便的選擇不同的方法(limma,edgeR,DEseq2)對同一套數(shù)據(jù)進行差異表達分析,也可以比較三種方法找出差異表達基因的交集,繪制韋恩圖。

這個方法的好處是,對于沒有太多編程基礎(chǔ)的小伙伴來說,上手容易,操作簡便。當然這個方法也有一定的局限性,

1)差異表達基因表中列出的是基因的Ensembl gene ID,還需要后續(xù)通過其他的工具,例如DAVID(https://david.ncifcrf.gov/),去做一個ID轉(zhuǎn)換,得到基因的名字

2)這里沒有給出每一個基因的轉(zhuǎn)錄本類型,到底是mRNA還是lncRNA,或者是其他的RNA類型。因為后續(xù)如果要繼續(xù)做ceRNA網(wǎng)絡(luò)分析,我們必須要知道每一個基因的RNA類型。

3)差異表達分析表,給出了所有基因的差異表達分析的結(jié)果,不論P值是否顯著,F(xiàn)old change多大,因此還需要再用Excel表根據(jù)Fold change和pval去做一個過濾

已有的工具就像是一把雙刃劍,你在享受他提供的便利的同時,也必接納它的局限性。畢竟工具是別人寫的,它提供什么功能,你才能使用什么功能。除非,你自己去造一個工具,這樣才能隨心所欲。

那么今天我們就來用R來造這樣一個工具,解決上面的幾個局限性

先來捋一捋思路,對于第1)和2)個問題,這里實際上缺的只是一個注釋文件,包含基因的Enseml ID和對應(yīng)的gene symbol信息,以及每一個基因的轉(zhuǎn)錄本類型(mRNA,lcnRNA etc)。我們?nèi)プ鲞@樣一個注釋文件,這兩個問題就迎刃而解了。其實如何獲取這個注釋文件,我們在前面的視頻里面已經(jīng)詳細講解過了
?biomart基因ID轉(zhuǎn)換,獲取轉(zhuǎn)錄本類型

對于第3)個問題,其實在R里面是很容易實現(xiàn)的,只需要去判斷一下Fold change和pval,讓后返回一個邏輯向量,取對應(yīng)的行就可以做篩選了。

接下來我們通過視頻來講解,如何創(chuàng)建四個R函數(shù)


FilterDuplicate:去除重復(fù)樣本的函數(shù)
FilterSampleType:過濾樣本類型的函數(shù),只保留PrimaryTumor和SolidTissueNormal這兩種樣本類型
DEA:做差異表達分析的函數(shù),整合三種主流的差異表達分析方法(limma,edgeR,DEseq2)
DEReport:過濾差異表達分析結(jié)果的函數(shù)

來做差異表達分析,當然也會整合三種主流的差異表達分析方法(limma,edgeR,DEseq2)

?R代碼TCGA數(shù)據(jù)差異表達分析(一)

接下來通過一個TCGA的實例來給大家演示一下,如何使用我們造好的R工具

?R代碼TCGA數(shù)據(jù)差異表達分析(二)—實例展示

?完整R代碼

關(guān)于這里四個R函數(shù)的詳細講解和完整代碼也可以在?這里找到。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容