上一期,小編已經(jīng)給大家分享了如何用R代碼來合并新版TCGA中的RNAseq表達譜數(shù)據(jù)
?R代碼合并新版TCGA數(shù)據(jù)庫RNAseq表達譜數(shù)據(jù)
有些小伙伴反饋代碼量太大了,感到無所適從。這一期小編就給大家?guī)硪粋€零代碼合并新版TCGA中的RNAseq表達譜數(shù)據(jù)的工具(miRNA-seq數(shù)據(jù)同樣適用)。其實針對老版本的TCGA數(shù)據(jù)庫,小編也曾編寫過一個類似的工具。大體思路和使用方法也用視頻進行了詳細的講解。(注意:零代碼合并TCGA表達譜數(shù)據(jù)中的工具,不再適用于新版TCGA數(shù)據(jù)庫中的RNAseq數(shù)據(jù),miRNA數(shù)據(jù)依然適用。)
在這樣一個瞬息萬變的社會,不與時俱進,就會被時代拋棄。我們依然采用R的shiny來開發(fā)這個合并工具。如果對shiny還不太了解的可以參考下文
下面我們看看這個新工具的使用方法
1. 從文末下載得到merge_sequencing_data_new.zip之后,解壓得到merge_sequencing_data_new文件夾。這個就是我們的合并工具。
2.打開R,將工作目錄改變到merge_sequencing_data_new文件夾中
如果直接使用R,改變工作目錄的方法是,點擊菜單的文件->改變工作目錄

如果使用Rstudio,改變工作目錄的方法是session->set working directory->choose directory

3. 運行下面兩條命令
library(shiny)
runApp()
這應該是整個工具使用過程中,需要運行的僅有的兩條代碼吧!注意大小寫。R是大小寫敏感的,輸錯了它就不work了。下面是我直接在R里面運行的示意圖。

運行之后,你的瀏覽器應該會自動跳出一個頁面。我們來看看更新后的工具。頁面的整體風格沒有太大變化,只是多了一個RNAseq expression Type參數(shù),專門應對新版TCGA中的RNAseq表達譜數(shù)據(jù),根據(jù)需要選擇相應的RNAseq表達譜類型,默認為STARcounts。

我們就以RNAseq中的STARcounts為例來講解這個工具的使用,其他的大家可以自己play with it.
4. 準備RNAseq的sample sheet和下載每個樣本的counts文件
具體可以參考
? TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了
miRNA的文件準本可以參考
? 如何從TCGA數(shù)據(jù)庫下載miRNA數(shù)據(jù)(二)
5. 在工具中選擇相應的文件和參數(shù)
5.1 選擇從TCGA數(shù)據(jù)庫里面下載的sample sheet文件,可以不用改名,但是你需要確認里面存的確實是樣本信息。類似于這樣子的。

5.2 選擇Data Type,這里默認為RNAseq。如果是miRNA的數(shù)據(jù)就選擇miRNAs。miRNAs數(shù)據(jù)可以忽略RNAseq expression Type參數(shù)。
5.3 選擇RNAseq expression Type,這里默認是STARcounts。這個參數(shù)只對RNAseq數(shù)據(jù)有效。

5.4 選擇包含RNAseq數(shù)據(jù)的文件夾,注意這里選擇到RNAseq這一層文件夾就可以了。
不知道這個文件夾怎么來的可以參考
? TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了
6. 查看結(jié)果,接下來就是見證奇跡的時刻。注意這一步需要等待一段時間,究竟需要多久會因人而異,因數(shù)據(jù)而異。不是說你長得帥或者漂亮,程序就會跑的快。這個根數(shù)據(jù)中的樣本數(shù)成正比,跟你電腦的配置成反比。就是樣本數(shù)越多,需要時間越久。你電腦配置越高,需要時間越短。

感興趣可以跟前面R代碼合并得到的結(jié)果比較一下。
7.下載結(jié)果,在表達矩陣的下方,有兩個按鈕。分別用來下載表達譜矩陣和樣本類型文件。

點擊下載

RNAseq_STARcounts.txt打開是這樣的

RNAseq_sample_type.txt打開是這樣的

這兩個文件RNAseq_STARcounts.txt和RNAseq_sample_type.txt可以無縫對接到下游的差異表達分析。
完整工具下載???