NCBI中常用到的數(shù)據(jù)功能:1.下載參考基因組 ?2.下載相關測序數(shù)據(jù),構建進化樹
1.下載參考基因組
https://www.ncbi.nlm.nih.gov/datasets/genome/

要下一個標準菌株,查看它的標準注釋文件,蛋白翻譯,直接在上述鏈接中就可以下載2.下載測序相關數(shù)據(jù)-SRA
SRA(Sequence Read Archive)數(shù)據(jù)庫是NCBI(National Center for Biotechnology Information)旗下用于存儲高通量測序數(shù)據(jù)的子庫。archive是檔案的意思來自世界各地研究的測序數(shù)據(jù)在此處都可以免費下載,用于比對或者進化樹構建,流行病學分析。SRA 是全球最大的高通量測序數(shù)據(jù)存儲庫,包含各種類型的測序數(shù)據(jù),如 DNA、RNA、轉錄組、宏基因組等
SRA基本框架SRP,DRP,ERP等,其實編號的含義很簡單:
第一個字母:表示樣本最初被上傳到的源數(shù)據(jù)庫,NCBI會同步EBI和DDBJ的數(shù)據(jù),同步后會保留源數(shù)據(jù)的來源信息。
S – NCBI’s SRA database ?
E – EBI’s database ??
D – DDBJ database ?
第二個字母:固定為"R",代表Read第三個字母:數(shù)據(jù)的類型,可以是項目、樣本、實驗或RUNR – Run ??
X – Experiment ??
S – Sample ??
P – Project / study ?
SRA數(shù)據(jù)庫的組織框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四個概念構建的。
STUDY/Project?:研究課題/研究項目, 和NCBI的庫數(shù)據(jù)庫里面的項目相關聯(lián) , 檢索號(accession number) 通常以前綴 SRP,DRP,ERP 開頭(例如SRP000544)。
SAMPLE?:樣本信息, 和NCBI的子庫[BioSample]數(shù)據(jù)庫里面的樣本相關聯(lián),檢索號(accession number) 通常以前綴 SRS,DRS,ERS 開頭(例如SRS001487) 。
EXPERIMENT?: 實驗信息, 一次實驗包含了一個或多個樣本進行一個多多個RUN的測序。檢索號(accession number) 通常以前綴 SRX,DRX,ERX 開頭。
RUN:RUN通俗理解就是測序儀運行一次產生的測序數(shù)據(jù),是 SRA 里面最小的概念,該編號通常直接鏈接到對應某一個/對fastq下機的文件。檢索號 (accession number) 通常以前綴 SRR,DRR,ERR 開頭。
?SRA數(shù)據(jù)下載
1.SRA-Toolkit 工具進行下載:
這種方式自然要先安裝 SRA-Toolkit,可以直接下載對應的二進制包,解壓即可使用。 對應的下載安裝鏈接為https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit,
最穩(wěn)定最安心的方法是使用SRA Toolkit中的 prefect來下載
prefetch,srapath , fastq-dump都是常用的工具集
#prefetch:下載 .sra 文件到本地prefetch SRR1234567
fastq-dump:將 .sra 文件轉換為 FASTQ 格式
#單端數(shù)據(jù)fastq-dump SRR1234567
#雙端數(shù)據(jù)fastq-dump?--split-files?SRR1234567
#自定義輸出目錄fastq-dump?--outdir?/path/to/output/ SRR1234567fasterq-dump
#高速下載和轉換替代 fastq-dump,更快更高效fasterq-dump?fasterq-dump -e?8?SRR1234567
sam-dump將 .sra 文件轉換為 SAM 格式
sam-dump?SRR1234567 > output.samvdb-dump提取 .sra 文件中的元數(shù)據(jù)。
vdb-dump SRR1234567?--info2.wget/curl 下載
使用 wget 或 curl 下載 SRA 數(shù)據(jù)是另一種從 NCBI 獲取文件的常用方法,尤其適合需要通過腳本進行自動化下載的場景。這種方式主要依賴于 NCBI 提供的 FTP 服務
wget等命令也是非常方便的下載工具。用它們來下載小數(shù)據(jù)是十分合適的,但是對于動輒以GB 甚至TB來計數(shù)的高通量數(shù)據(jù),wget的優(yōu)勢就并不明顯了。如果程序中斷,或者網(wǎng)絡原因下載中斷,你又得重新下載。同樣,NCBI也指出了wget可能存在不能完整下載全部數(shù)據(jù)的問題
這個方式主要是要獲取ftp鏈接復制下載鏈接,使用wget/curl下載即可。
wget https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/ERR009357/ERR009357.4嫌麻煩的話也可以通過 srapath 獲取對應下載鏈接:
#srapath獲取ERR009357的下載鏈接$?srapath ERR009357https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/ERR009357/ERR009357.4#wget下載$?wget https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/ERR009357/ERR009357.4#curl 下載$?curl https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/ERR009357/ERR009357.4
后面會更新批量下載SRA數(shù)據(jù)的文章和視頻,
以及可以方便下載的github工具