這個(gè)周末前,CJ大神終于完成了RNA-seq流程中從原始SRA數(shù)據(jù)獲取到RNA-seq定量的一系列插件。具體文章見鏈接。
http://www.itdecent.cn/p/c8b08314e133
整體上,覆蓋了數(shù)個(gè)功能,四個(gè)插件:
- SRA 數(shù)據(jù)查詢與整理:SRA XML to Table,見推文:挖掘SRA的輔助小工具(NCBI高通量測序數(shù)據(jù)收錄庫)https://mp.weixin.qq.com/s/FnuSUqhpyKqm_HYpu6phnw
- SRA 數(shù)據(jù)鏈接獲取:SRA XML to Table 和 SRA Number to ENA Info. 前者已經(jīng)包括了 NCBI 和 DDBJ 數(shù)據(jù)下載鏈接,后者主要作為補(bǔ)充,附加 ENA 下載鏈接(更為穩(wěn)點(diǎn))。詳細(xì)見:公開可獲取~沒有下載不到的測序原始數(shù)據(jù)!https://mp.weixin.qq.com/s/CS04e0QRjq0B-NZUfCpUAg
- Ascp GUI Wrapper:個(gè)人實(shí)測,每天清晨通過 FTP 鏈接下載測序原始數(shù)據(jù),速度可以達(dá)到 10Mb/s。但更多時(shí)候數(shù)據(jù)只有不到 300Kb/s。網(wǎng)絡(luò)合適的情況下,可以使用 Aspera ,速度可以達(dá)到 30Mb/s。于是寫了并公開釋放了這個(gè)插件,詳細(xì)見:插件 | 人人-點(diǎn)點(diǎn)點(diǎn)-光速下載 NCBI/ENA NGS原始數(shù)據(jù) https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ
- SRAtoFastq,sra 是 NCBI 定義的二代數(shù)據(jù)存儲格式,文件大小比fastq.gz下,考慮網(wǎng)絡(luò)帶寬的情況下,下載 sra 數(shù)據(jù)更方便。下載后需要進(jìn)行轉(zhuǎn)換,于是有了插件,詳細(xì)見:SRAtoFastq | 任何人都能自主分析測序原始數(shù)據(jù) https://mp.weixin.qq.com/s/WC6Q1wr2M4CsdVZ2XYFjRA
- FastQC,無論是NCBI SRA等數(shù)據(jù)庫下載,還是公司返還的測序數(shù)據(jù),多少還是要看下測序質(zhì)量,確保質(zhì)量OK 或者不要有樣品降解,嚴(yán)重污染云云,于是有插件,詳細(xì)見:插件FastQC | 點(diǎn)點(diǎn)點(diǎn),人人看看測序數(shù)據(jù)質(zhì)量 https://mp.weixin.qq.com/s/Sz9enr_8s9P0goxEObn4TA
- Trimmomatic,無論轉(zhuǎn)換得到,或者是公司測序后返還的 Fastq.gz 數(shù)據(jù)往往是原始數(shù)據(jù),通過 FastQC 可以判斷,隨后進(jìn)行質(zhì)量控制,如去除接頭和低質(zhì)量堿基,于是有插件,詳細(xì)見:Trimmomatic | 點(diǎn)點(diǎn)點(diǎn),測序原始數(shù)據(jù)質(zhì)控,技能√get https://mp.weixin.qq.com/s/Gmazcogi2KBNkv7J4hXh9Q
- Kallisto,RNAseq 數(shù)據(jù)的基本分析和目的,就是獲得基因表達(dá)量矩陣。在普通筆記本上,如 4G 內(nèi)存云云,那么 Kallisto 是最好的選擇,于是有插件,詳細(xì)見:
Kallisto | 點(diǎn)點(diǎn)點(diǎn),從 測序數(shù)據(jù) 到 基因表達(dá)量矩陣 人人都可以! https://mp.weixin.qq.com/s/zhYjsF-LiPzPetbVh7bfcA- Trans Value Sum,Kallisto 分析結(jié)果是轉(zhuǎn)錄本水平的表達(dá)量或Counts矩陣,但很多人感興趣的是基因水平的,于是,公開釋放了功能,詳細(xì)見:匯總 | 轉(zhuǎn)錄本表達(dá)矩陣 到 基因表達(dá)矩陣 https://mp.weixin.qq.com/s/JPM7ofuqZcKPZjySL7w5lA
首先感謝CJ大神能夠花時(shí)間在RNA-seq插件的開(da)發(fā)(bao)工作上(再也不能push作者了)。雖然他本人經(jīng)常自嘲只是在wrap,但這一系列插件足夠消除seq新手入門的門檻。我相信新手只要順著這個(gè)匯總操作,不需要命令行,每個(gè)人都能完成seq的RNA定量表達(dá)分析(只要你肯)。當(dāng)然從bioinformation研究的角度上來看,這些插件效率不夠高,也沒辦法進(jìn)行大規(guī)模seq定量(>10),更無法自由定制化。但是對于那些只是做初步挖掘獲取線索的科研人員(例如用新方法挖掘已經(jīng)存在的seq數(shù)據(jù)),或者是只想做6-10個(gè)樣本的小型課題組來說(需要一套seq數(shù)據(jù)來講故事的時(shí)候),這套插件的幫助是非常巨大的(這也是作者的本意)。
接下來我會根據(jù)CJ大神給出的步驟,分別給出TBtools和命令行的實(shí)現(xiàn)方式從數(shù)據(jù)查詢、下載、轉(zhuǎn)換、質(zhì)檢、修剪、定量、表達(dá)矩陣的全套流程。希望每個(gè)堅(jiān)持下來的人能走出自閉,順利完成seq數(shù)據(jù)的定量分析。
數(shù)據(jù)獲取
首先我們需要找到一個(gè)數(shù)據(jù)集下載(如:PRJNA358808 或者 SRP095684)。通常我們可以去NCBI或者ENA去搜索關(guān)鍵字查找到相應(yīng)信息。下面分別介紹這兩個(gè)數(shù)據(jù)庫獲取ftp下載地址的方式。
NCBI
NCBI查詢地址如下:
https://www.ncbi.nlm.nih.gov/sra/?term=prjna358808
看到一共有24個(gè)runs,點(diǎn)擊右上角的”send to“

這里選擇保存為文件,格式選擇完整的XML文件,最后點(diǎn)擊create file下載.

在TBtools打開SRA XML to Table tab,分別按照要求填好xml文件和輸出路徑,之后點(diǎn)擊確定。

可以看到所有下載地址已經(jīng)被匯總在一個(gè)表格里了。

需要注意的是,由于TBtools默認(rèn)保存的格式是txt,這里會提示你格式不匹配,選擇是直接打開就好了,excel會自動識別文件的。

ENA下載地址獲取方式
同樣是在ENA查詢,地址如下:
https://www.ebi.ac.uk/ena/browser/text-search?query=PRJNA358808
這里選擇run可以看到所有SRR列表



復(fù)制到excel里,默認(rèn)會分成2行

這里還是按照填入對應(yīng)的信息即可,如圖:

點(diǎn)擊開始,該插件會把你輸入的所有SRRnum的下載信息全部匯總在一個(gè)叫SRR_download_info_table的excel文件中。

這樣,你就獲得了所有SRR的下載地址,值得注意的是,這個(gè)表格數(shù)據(jù)很奇怪。命名是雙端測序的數(shù)據(jù),但fastq居然只有一個(gè)文件。

正常的雙端測序應(yīng)該有兩個(gè)文件的
保險(xiǎn)起見我們還是下載所有SRA文件,再用插件把SRA轉(zhuǎn)為Fastq吧。
另外,ENA好像沒有整個(gè)實(shí)驗(yàn)的描述,我們還是得去NCBI查看整個(gè)實(shí)驗(yàn)的method和sample。地址如下“
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP095684&o=acc_s%3Aa

最后,這些步驟似乎都沒用到命令行……好像也沒有必要