常用參考基因組數(shù)據(jù)庫(kù)
1、Ensembl
是由 European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發(fā)的數(shù)據(jù)庫(kù)項(xiàng)目。涵蓋大量物種的參考基因組信息,并且數(shù)據(jù)更新及時(shí),是參考基因組下載的好選擇。
http://www.ensembl.org/index.html
2、NCBI
是National Centerfor Biotechnology Information的縮寫,指美國(guó)國(guó)立生物技術(shù)信息中心。NCBI的全面和強(qiáng)大,相信大家都深有感觸,NCBI在參考基因組信息分享上同樣表現(xiàn)出色。
http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data
3、UCSC能查找到的數(shù)據(jù)有限,使用率比不上前兩個(gè)數(shù)據(jù)庫(kù)。
4、Private Database在以上數(shù)據(jù)庫(kù)查找不到的參考基因組,還可以嘗試一些Private Database。例如JGI(Phytozome),可用于植物參考基因組的查找。
http://phytozome.jgi.doe.gov/pz/portal.html
5、FlyBase
對(duì)于模式生物,一些比較個(gè)性化的網(wǎng)站也非常實(shí)用。例如 FlyBase , 整合了果蠅遺傳和基因組數(shù)據(jù),并提供了基因和分子水平的檢索和可視化,目前網(wǎng)站的 Beta 版本也已經(jīng)上線。
補(bǔ)充
分享一下常用物種的參考基因組數(shù)據(jù)下載網(wǎng)址:
illumina的iGenomes打包了各物種齊全的參考數(shù)據(jù)信息:
https://support.illumina.com/sequencing/sequencing_software/igenome.html
三大基因組數(shù)據(jù)庫(kù)基因組各種版本對(duì)應(yīng)關(guān)系(生信菜鳥團(tuán)博客):
http://www.bio-info-trainee.com/1469.html
查找參考基因組方法
不同數(shù)據(jù)庫(kù)下載的基因組數(shù)據(jù)略有差異,主要是體現(xiàn)在版本的編號(hào),序列id的命名等,但在編碼序列上是一致的。另外,不同數(shù)據(jù)庫(kù)提供的注釋文件格式不同,在進(jìn)行格式轉(zhuǎn)換時(shí),要保證基因組的版本號(hào)一致。這里簡(jiǎn)單介紹舉例幾種方法:
1.Ensemble:
適用于動(dòng)物參考基因組查找,網(wǎng)站也包括動(dòng)物、植物及真菌基因組等;
第一種方法:
(1)進(jìn)入Ensembl數(shù)據(jù)庫(kù)是這樣的:
(2)點(diǎn)擊View full list of all Ensembl species,進(jìn)入以物種名稱排序的數(shù)據(jù)列表:
(3)如果列表中含有目標(biāo)物種,可直接點(diǎn)擊名稱進(jìn)入;如沒有目標(biāo)物種,需要在空白框“Filter”中輸入物種英文名。例如輸入“dolphin”,將會(huì)篩選留下該物種的數(shù)據(jù)信息,界面如下:
(4)點(diǎn)擊物種名稱,進(jìn)入如下界面:
(5)點(diǎn)擊Download DNA sequences(FASTA),現(xiàn)在進(jìn)入的就是參考基因組的下載頁(yè)面啦!
后綴為toplevel.fa.gz的壓縮文件,即為我們要下載的該物種全基因組序列,點(diǎn)擊即可馬上下載,該數(shù)據(jù)可直接用于該物種的重測(cè)序研究。
第二種方法
通過Downloads進(jìn)入:如果您想要一次下載多個(gè)參考基因組數(shù)據(jù),那么建議選擇第二種方法。
(1)首先進(jìn)入Ensembl數(shù)據(jù)庫(kù),找到Downloads:
(2)然后點(diǎn)擊Downloads,進(jìn)入如下頁(yè)面:
(3)點(diǎn)擊右側(cè)的“Download data via FTP”,進(jìn)入FTP Download界面:
(4)點(diǎn)擊FTP site,進(jìn)入ftp://ftp.ensembl.org/pub/ 的索引頁(yè)面,我們現(xiàn)在已經(jīng)離參考基因組越來(lái)越近啦!
下拉,可以看到有多個(gè)參考基因組數(shù)據(jù)版本可供選擇,不同版本之間差異微小。
(5)我們以release-79版本為例,進(jìn)行介紹。點(diǎn)擊release-79, 出現(xiàn)如下界面:
(6)點(diǎn)擊fasta,進(jìn)入ftp://ftp.ensembl.org/pub/release-79/fasta/的索引頁(yè)面,會(huì)出現(xiàn)以不同物種拉丁名命名的文件包。
(7)點(diǎn)擊您感興趣的物種,進(jìn)入該物種的文件包??筛鶕?jù)您的需求選擇數(shù)據(jù),如果打算進(jìn)行重測(cè)序研究,則點(diǎn)擊進(jìn)入dna文件包。
(8)后綴為toplevel.fa.gz的壓縮文件,即為我們要找的該物種全基因組序列,點(diǎn)擊即可馬上下載,該序列可直接用來(lái)進(jìn)行后續(xù)的重測(cè)序研究。
2.JGI(Phytozome)
適用于植物參考基因組查找,網(wǎng)站也包括動(dòng)物等其他物種,這個(gè)網(wǎng)站植物基因組更新比較快,動(dòng)物基因組更新較慢
(1)打開網(wǎng)址:https://phytozome.jgi.doe.gov/pz/portal.html#;點(diǎn)擊“species”(如下圖)或者點(diǎn)擊紅色框中的圖片,再輸入基因序列號(hào)即可查找到序列:
(2)植物有參考基因組的物種數(shù)不是很多,直接在species中也可以查看,可不需要搜索。如果這個(gè)網(wǎng)站沒有對(duì)應(yīng)的參考基因組,則需要去NCBI上試試看。
(3)點(diǎn)擊download下載數(shù)據(jù):
PS:這個(gè)數(shù)據(jù)也可以進(jìn)行一些其他的分析,如下圖:
小結(jié)
動(dòng)物和植物的參考基因組查找就講完了,以上兩個(gè)網(wǎng)站基本包括了目前已有參考基因組的物種,如還想確認(rèn),可進(jìn)入NCBI查詢。
3.NCBI查詢
這種方法也比較簡(jiǎn)單,下拉框中選擇“Genome”,在搜索框中輸入物種名,根據(jù)得到的結(jié)果選定你需要的基因(紅色框標(biāo)記內(nèi)容),打開查看或者下載就好了。