寫在前面
課題需要,前述,在TBtools中開放了一個SraExperimentXML2InfoTable的功能。在這個功能的輔助下,我們較快的完成了階段任務(wù)。篩選數(shù)據(jù)完成了,但是下載數(shù)據(jù)卻出現(xiàn)了問題。
主要遇到的問題是
NCBI的數(shù)據(jù),似乎有時候能下載到,有時候卻下載不到?;蛟S網(wǎng)速是一個原因,但我更多地開始認為或許NCBI并沒有存儲所有的短讀段測序數(shù)據(jù)。DDBJ也是一樣。相反ENA似乎存儲全面,只是傳輸速度一般。
無論如何,下載數(shù)據(jù)的第一步是需要獲取數(shù)據(jù)所在鏈接。
為了讓小課題成員快速獲得鏈接并完成各自的任務(wù),我做了兩個小事情。
優(yōu)化原有功能
對SraExperimentXML2InfoTable工具的輸出,增加兩列,
- NCBI FTP link
- DDBJ Potential FTP link
如圖

總的來說,NCBI FTP link多數(shù)時候是可以下載的;而DDBJ存儲的數(shù)據(jù)確實很少,所以link是Potential的,意思就是,數(shù)據(jù)很可能并不存在。我個人的經(jīng)驗是,NCBI下載不了的時候,從DDBJ的link卻常??梢韵螺d。
But,最優(yōu)秀的終歸還是ENA。如前所述,ENA不僅存儲了數(shù)據(jù)的SRA格式的數(shù)據(jù),還存儲了Fastq格式。在早前NCBI還沒發(fā)表fasterq-dump時,直接下載fastq.gz文件的整體耗時明顯短于下載SRA格式數(shù)據(jù)之后用fastq-dump轉(zhuǎn)格式。
雖然現(xiàn)在耗時不相上下,不過下載fastq.gz仍然是一個選擇,比如,你并沒有fasterq-dump的時候,你卻一定會有g(shù)zip甚至是pgzip.
Anyway,總會有某種情況,我們會需要從ENA下載數(shù)據(jù),無論是SRA格式還是DDBJ格式。正如我們本次課題遇到的情況。所以TBtools增加一個功能
基于SRRnum獲取ENA links信息
ENA存儲測序數(shù)據(jù),并沒有絕對的規(guī)律,部分數(shù)據(jù)有專門的目錄,部分數(shù)據(jù)放在不同深度的目錄。故,無法通過像NCBI或者DDBJ一樣的操作去拼接鏈接。而只有兩個操作:
- 爬蟲,解析整個ENA的FTP,獲得并保存文件地址
- 爬蟲,針對給定的SRR獲取其對應(yīng)的信息
第一個操作比較重,很多時候也沒必要。于是我采用的是第二個操作?;舜蟀雮€小時,順帶打了GUI
打開TBtools,跳轉(zhuǎn)到對應(yīng)功能

設(shè)置輸入文件,圖中可見,準備一個txt文本文件,每行一個SRR number,保存并用做輸入;設(shè)置輸出文件是,注意補齊文件名。

為了避免被ENA封殺IP,操作是大概每個SRRnumber信息獲取后等待1~3s,所以輸入100個SRRnum可能需要花5min才能將信息獲取完畢。
信息獲取完畢后會有彈窗提示,所以此時最好去玩一局貪吃蛇。

OK,彈窗時,貪吃蛇是沒有暫停的(所以一定會Game Over),用Excel打開結(jié)果文件

可以看到,左側(cè)即為fastq.gz文件下載鏈接(推薦用aria2c或者迅雷,IDM下載),右側(cè)為sra格式文件
寫在后面
Done. 節(jié)后開工第一天。
祝大家科研順利。
題外
課題組每年暑期有內(nèi)部生信入門培訓,主要是對實驗室新生開展(以及濕實驗為主的成員)培訓。一直有收到其他課題組想要了解我們課題組生信數(shù)據(jù)分析的想法。故,在博導的提議和課題組的討論后,我們近期計劃,在本年度暑期(7~8月份之間)對外增設(shè)生信基礎(chǔ)培訓名額10枚(前面每年只是課題組內(nèi)培訓,而不對外)。具體請見https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw

歡迎訪問本課題組網(wǎng)站
園藝植物小分子RNA與基因組研究-夏瑞課題組
