閑言碎語(yǔ)
從今天開(kāi)始轉(zhuǎn)錄組學(xué)習(xí)進(jìn)入正題啦。
要重現(xiàn)的文章是
雖然不是做植物的,但是大體上都是相通的嘛。
數(shù)據(jù)存放在NCBI的GEO數(shù)據(jù)庫(kù),現(xiàn)在鋪天蓋地的都是關(guān)于GEO數(shù)據(jù)庫(kù)挖掘的教程,比如我樹(shù)就有GEO的教程,其他平臺(tái)就更多了,不勝枚舉。但是我好像似乎很少接觸這個(gè)數(shù)據(jù)庫(kù)(幾乎沒(méi)有),NCBI用的比較多的就是SRA數(shù)據(jù)庫(kù),有的時(shí)候用Taxonomy查一查物種分類(lèi)信息,年輕的時(shí)候(本科二年級(jí))還用過(guò)EST數(shù)據(jù)庫(kù)(現(xiàn)在都已經(jīng)被NCBI的別的數(shù)據(jù)庫(kù)吞并掉了。官網(wǎng)顯示:The Nucleotide database will include EST and GSS sequences in early 2019. )。生信這一行要學(xué)的東西很多,會(huì)的越多就會(huì)發(fā)現(xiàn)不會(huì)的越多,沒(méi)法以有限的生命去探索無(wú)限的生信的,選擇自己感興趣的方向就好了。
下面提供一個(gè)豆豆寫(xiě)的介紹各種數(shù)據(jù)庫(kù)的文章,寫(xiě)得可好了,值得推薦:
??點(diǎn)??我??看??G??E??O??數(shù)??據(jù)??庫(kù)??介??紹??

皮完了開(kāi)始正題。

根據(jù)文章介紹,數(shù)據(jù)存放在了GEO數(shù)據(jù)庫(kù)的編號(hào)是GSE52778.
傳送門(mén):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
這里講個(gè)小技巧:觀察一下上面這個(gè)鏈接,是不是搜的GSE52778在最后面?所以如果你想搜換一個(gè)編號(hào),那就把
acc=后面的編號(hào)替換一下就好了。chrome有一個(gè)很好用的功能,在右上角的設(shè)置→管理搜索引擎→其他搜索引擎,點(diǎn)擊添加,按照下圖的模式填寫(xiě)內(nèi)容:
添加搜索引擎
輸入geo并按一下空格,就會(huì)啟動(dòng)使用GEO數(shù)據(jù)庫(kù)搜索,這時(shí)候只要把要搜的編號(hào)打進(jìn)去就好了,就能直接跳轉(zhuǎn)到你輸入的編號(hào)的GEO數(shù)據(jù)庫(kù)位置了。
使用GEO數(shù)據(jù)庫(kù)搜索
我們要的原始數(shù)據(jù)呢就放在這里啦:

什么嘛,原來(lái)又繞回到SRA數(shù)據(jù)庫(kù)去了。

野路子方法
點(diǎn)進(jìn)來(lái)發(fā)現(xiàn)有16個(gè)數(shù)據(jù),一般多個(gè)數(shù)據(jù)的序號(hào)都是連著的,按照我以前的彪悍做法呢,就直接寫(xiě)個(gè)循環(huán)都下載了,不要的下完了刪掉。比如這里的SRR編號(hào)是SRR1039508 ~ SRR1039523剛好16個(gè)。
腳本如下:
# 直接用wget下載,-c參數(shù)是斷點(diǎn)續(xù)傳,可以在網(wǎng)絡(luò)斷開(kāi)之后第二次從斷開(kāi)的地方繼續(xù)下載,否則會(huì)從頭開(kāi)始下載噢
list={08..23}
for i in $list
do
wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done
# 用axel下載。前提是要先安裝。我知道ubuntu系統(tǒng)是可以安裝的, 別的系統(tǒng)就不知道了。安裝需要root權(quán)限,也可以用源碼或者conda安裝.
# sudo apt-get install axel
list={08..23}
for i in $list
do
axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done
記得用nohup把腳本掛后臺(tái)下載。比如把這個(gè)腳本命名成dataDown.sh
nohup bash dataDown.sh &
你問(wèn)我ftp后面這一串文件夾是怎么找到的?
無(wú)他,唯手熟爾。你要是天天到SRA數(shù)據(jù)庫(kù)撈數(shù)據(jù)并且善于觀察和記憶的話你也可以駕輕就熟的。
以上兩種方法二選一。但是這畢竟是野路子,不管是工具還是過(guò)程。而且wget有下載不完全的風(fēng)險(xiǎn),并且下載速度也不敢恭維。axel是一個(gè)多線程的下載工具,下載起來(lái)會(huì)比axel快一些,但是有很多站點(diǎn)是不支持axel下載的。
那正確的方法是什么呢?
正經(jīng)方法
查看GSE的介紹:

一共四組,每組四個(gè)生物重復(fù)。這到底用啥處理的?翻譯一下了解一下:
1)沒(méi)有治療;
2)用β2-激動(dòng)劑(即沙丁胺醇,1μM,18小時(shí))處理;
3)用糖皮質(zhì)激素(即地塞米松(Dex),1μM處理18小時(shí));
4)同時(shí)用β2-激動(dòng)劑和糖皮質(zhì)激素治療
本次學(xué)習(xí)小組用對(duì)照組和Dexamethasone(第三組)進(jìn)行學(xué)習(xí)。

點(diǎn)擊如圖的位置打開(kāi)一個(gè)新的界面

根據(jù)描述勾選所需的數(shù)據(jù),點(diǎn)擊accession list按鈕下載
用notepad++打開(kāi)之后是這樣的:

創(chuàng)建工作目錄:
mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}
加上編號(hào)比較方便快速cd到想要去的文件夾。
軟件安裝
接下來(lái)用conda安裝所需的軟件
conda的安裝教程可以參考我的這篇:
conda的安裝與使用(2019-5-16更新)
(這篇簡(jiǎn)書(shū)已經(jīng)有四萬(wàn)八千多的閱讀量了……把我自己都嚇到了)
# 創(chuàng)建一個(gè)新的用于rnaseq的環(huán)境,并安裝sra-tools
conda create -n rnaseq sra-tools
# 創(chuàng)建好后激活該環(huán)境
conda activate rnaseq
根據(jù)豆豆的這篇文章:來(lái)吧,加速你的下載
get 如何配置aspera來(lái)提高數(shù)據(jù)的下載速度
2021-05-26 update:也可以用conda來(lái)安裝aspera: conda install -c hcc aspera-cli
mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
安裝過(guò)程中會(huì)有提示的:
Installing Aspera Connect
Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-inInstall complete
到家目錄用ll -a查看是否存在一個(gè).aspera的隱藏文件
cd ~
ls -a
tree .aspera
內(nèi)容還挺豐富,tree的結(jié)果展示出了很多的文件及文件夾,就不放了。
把~/.aspera/connect/bin/ascp加入到環(huán)境變量中,以全局調(diào)用。
再講一個(gè)小技巧。
在做生信的過(guò)程中難免裝很多很多的軟件,如果每次都把軟件的文件夾加入到$PATH中會(huì)讓$PATH變得很亂。那怎么辦呢?
解決辦法是設(shè)定一個(gè)特定的文件夾叫softlink,把它加入到~/.bashrc中,如果所安裝的軟件只有一個(gè)程序的話,在softlink中創(chuàng)建一個(gè)該程序的軟連接即可全局調(diào)用該軟件啦。
mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim編輯
cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .
這種方法只適用于單個(gè)可用程序的情況,如果安裝的是一個(gè)文件包,里面有很多的腳本和程序可以用的話,還是老老實(shí)實(shí)的把整個(gè)文件夾加入到$PATH中噢。具體的方法我就不寫(xiě)了,可以去看豆豆的那一篇文章。
下載數(shù)據(jù)
因?yàn)槲矣玫氖莣indows平臺(tái),連接服務(wù)器用的是xshell,我可以直接將剛剛下載到本地的
SRR_Acc_List.txt通過(guò)拖動(dòng),拖到服務(wù)器上。但是需要用安裝一個(gè)叫lrzsz的程序
apt-get install lrzsz
剛剛搜了一下,可以用源碼安裝lrzsz的。教程在此:Linux下rz/sz安裝及使用方法
正式開(kāi)始下載啦:
cd ~/rnaseq/01raw
# 直接把文件拖進(jìn)終端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh
下完了 看了下時(shí)間
real 7m24.571s
user 0m49.040s
sys 2m22.474s
真香!

下好數(shù)據(jù)啦!那么今天的任務(wù)就結(jié)束啦~

