SRA Toolkit 的下載和使用

把之前寫在CSDN的博文搬運(yùn)了過(guò)來(lái),集中記錄自己的學(xué)習(xí)過(guò)程。


第一次寫博客,必須mark一下:2018.07.27


sra toolkit是ncbi上將 .sra文件轉(zhuǎn)換為 .fastq.gz文件的工具。
1.下載/調(diào)用 SRA Toolkit
可以直接在linux里在線下載,要根據(jù)自己的系統(tǒng)選擇合適的安裝版本。我查看了一下主機(jī)的linux為redhat類型,沒(méi)找到這個(gè)類型的版本,又去服務(wù)器看了一下其他人的sratoolkit版本,都是centos_linux,因而選擇這個(gè)版本應(yīng)該是合適的。

wget  https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz

不清楚版本可將 2.9.2 替換成 current 。
關(guān)于調(diào)用,直接調(diào)用其他用戶路徑下的工具(locate sratoolkit)會(huì)顯示permission denied,顯然是設(shè)置了權(quán)限,無(wú)法查看和調(diào)用其他用戶home目錄下的東西。
但是問(wèn)題來(lái)了,按理說(shuō)這種常用的軟件公用系統(tǒng)(不知道這個(gè)說(shuō)法對(duì)不對(duì),計(jì)算機(jī)小白輕噴)里肯定會(huì)有,但是我不知道怎么用命令直接調(diào)用

下載好之后解壓:

 tar xzvf sratoolkit.2.9.2-centos_linux64.tar.gz

解壓縮之后就可以通過(guò)絕對(duì)路徑使用,但為了以后使用方便,可以直接用程序名調(diào)用,最好配置一下環(huán)境變量。

mv sratoolkit.2.9.2-centos_linux64 ~/local/app/  #移動(dòng)到指定文件夾
cd ~/local/app/  #進(jìn)入本地程序安裝路徑
mv sratoolkit.2.9.2-centos_linux64 sratoolkit #去掉版本號(hào)是為了避免因升級(jí)而需要修改配置文件

此處參考> http://blog.shenwei.me/local-blast-installation/

接下來(lái)是添加環(huán)境變量:

vi ~/.bashrc  #用vi/vim編輯器修改bashrc文件
i  #由command line進(jìn)入insertion line
export PATH=$PATH:/home/urname/local/app/sratoolkit/bin
ESC, :wq  #退出vi編輯器并保存文件
source ~/.bashrc  #讓配置生效

上面是配置永久生效的辦法,如果只是臨時(shí)使用,直接在終端中輸入:

export PATH=$PATH:/home/urname/local/app/sratoolkit/bin

2.從NCBI的SRA庫(kù)里下載數(shù)據(jù)
關(guān)于SRA庫(kù)的基礎(chǔ)知識(shí),可以看這里:https://shengxin.ren/article/16
我是跟著 生信技能樹(shù) 學(xué)習(xí)他們的 HiC數(shù)據(jù)分析實(shí)戰(zhàn) https://vip.biotrainee.com/d/779-hic ,所以和里面的教程一樣,我也只下載了 SRR824846一個(gè)測(cè)序結(jié)果集。
下載數(shù)據(jù)有兩種方法:

wget https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR824846
prefetch SRR824846

本來(lái)以為高枕無(wú)憂了,結(jié)果客戶端顯示連接超時(shí)了,只能重登重新下載,請(qǐng)教師兄,學(xué)習(xí)到了一個(gè)讓程序后臺(tái)運(yùn)行的命令nohup,只要服務(wù)器主機(jī)沒(méi)掉線就行,即使關(guān)閉了本地終端窗口或者斷網(wǎng)了也可以繼續(xù)執(zhí)行命令。讓進(jìn)程后臺(tái)運(yùn)行的命令有好幾種,如nohup/&/disown等,disown是事后補(bǔ)救用的,我沒(méi)有多了解。一般nohup和&一起用。

nohup 命令可以使命令永久的執(zhí)行下去,和終端沒(méi)有關(guān)系,退出終端也不會(huì)影響程序的運(yùn)行; & 是后臺(tái)運(yùn)行的意思,但當(dāng)用戶退出的時(shí)候,命令自動(dòng)也跟著退出。 那么,把兩個(gè)結(jié)合起來(lái)nohup 命令 &這樣就能使命令永久的在后臺(tái)執(zhí)行。

nohup prefetch SRR824846 &   

如何查看進(jìn)程?如果命令正在當(dāng)前終端運(yùn)行:

jobs -l  #可以查看當(dāng)前終端生效的進(jìn)程

如果已經(jīng)退出,又打開(kāi)新的終端:

top  #查看所有用戶的運(yùn)行進(jìn)程,也可以看到自己的進(jìn)程號(hào)
ps -ef|grep urname  ##只查看自己的進(jìn)程記錄

如果要終止后臺(tái)運(yùn)行命令:

kill -9 進(jìn)程號(hào)

又遇到了一個(gè)坑。。在上面修改環(huán)境變量的過(guò)程中,我是非常馬虎地把bashrc文件清空后(因?yàn)橹爸惶砑恿薭last的環(huán)境變量,我也沒(méi)仔細(xì)看是否還有其他內(nèi)容),再添加了新的環(huán)境變量。結(jié)果用戶名的位置變成了-bash-4.1$。google了一下原因, 表明是

沒(méi)有執(zhí)行 .bash_profile .bashrc 導(dǎo)致的結(jié)果。

解決辦法:查了一下網(wǎng)上的教程,據(jù)說(shuō)在 .bash_profile里修改PS1變量就可以了,但我的問(wèn)題出在 .bashrc上,不敢再動(dòng) .bash_profile了。我肯定問(wèn)題出在bashrc文件里,現(xiàn)在要做的就是把bashrc文件恢復(fù)過(guò)來(lái),然而我沒(méi)有備份…這里要敲黑板,.bashrc .bash_profile等環(huán)境變量設(shè)置文件是很重要的文件,修改不當(dāng)甚至?xí)o(wú)法進(jìn)入linux系統(tǒng),所以要謹(jǐn)慎修改并在修改前做好備份!
用系統(tǒng)中存儲(chǔ)的.bashrc備份文件恢復(fù)到~/目錄下

cp /etc/skel/.bashrc ~/

之后退出系統(tǒng)再登錄,用戶名路徑就恢復(fù)正常了。

3.文件拆分及格式轉(zhuǎn)換
文件下載完成后放在了home目錄下的ncbi/public/sra 文件夾里,可以看到新建了一個(gè)SRR824846.sra 文件。在轉(zhuǎn)換文件格式前要清楚sra文件的數(shù)據(jù)類型,在下載時(shí)就能看到其為“paired-end”測(cè)序結(jié)果。二代測(cè)序主要有單端測(cè)序和雙端測(cè)序兩種方式,具體內(nèi)容見(jiàn):https://vip.biotrainee.com/d/127-paired-end-reads ,以及http://www.bio-info-trainee.com/298.html
使用fastq-dump拆分PE文件時(shí)有兩種常用的參數(shù),--split-files--split-3 ,很奇怪,查到以下解釋:

--split-spot: 將雙端測(cè)序分為兩份,但是都放在同一個(gè)文件中
--split-files: 將雙端測(cè)序分為兩份,放在不同的文件,但是對(duì)于一方有而一方?jīng)]有的reads直接丟棄
--split-3 : 將雙端測(cè)序分為兩份,放在不同的文件,但是對(duì)于一方有而一方?jīng)]有的reads會(huì)單獨(dú)放在一個(gè)文件夾里

作者:hoptop
鏈接:http://www.itdecent.cn/p/a8d70b66794c

cd ~/ncbi/public/sra/   #將拆分文件放在sra文件夾里
fastq-dump --split-3 SRR824846   #將雙端測(cè)序文件拆分為兩個(gè)reads

打開(kāi)1文件,得到如圖結(jié)果:

現(xiàn)在還看不太懂

不過(guò)在上一步可以加上-gzip 命令,輸出gz的壓縮格式,好處是可以節(jié)省空間,而且比對(duì)軟件一般都支持。(參考hoptop的文章:http://www.itdecent.cn/p/a8d70b66794c

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容