劉小澤寫于19.12.28
我又回來啦!在馬來西亞瘋狂放松一周,體驗(yàn)了當(dāng)?shù)氐娘L(fēng)土人情。
回來繼續(xù)學(xué)習(xí)~感覺活力滿滿
這一篇的目的是:以果蠅為例,探索Ensembl數(shù)據(jù)庫關(guān)于物種基因組的不同版本區(qū)別,內(nèi)容將會(huì)很好理解
正文開始
直接瀏覽器搜索:drosophila melanogaster genome ensembl 就會(huì)進(jìn)到Ensembl的果蠅數(shù)據(jù)庫(或者直接使用Ensembl的亞洲鏡像數(shù)據(jù)庫:https://asia.ensembl.org/Drosophila_melanogaster/Info/Index)
然后打開第一個(gè)紅色箭頭的位置,點(diǎn)進(jìn)去,就會(huì)跳到基因組fa存儲(chǔ)位置。首先不了解他們組織結(jié)構(gòu)的話,需要閱讀一下他們的README文檔

查看README文檔
然后會(huì)發(fā)現(xiàn)這個(gè)數(shù)據(jù)庫的邏輯非常清晰:
-
FILE NAMES
首先規(guī)定了文件命名規(guī)律:<species>.<assembly>.<sequence type>.<id type>.<id>.fa.gz第一部分
<species>是物種名;第二部分<assembly>是基因組版本號(hào);第三部分
<sequence type>是序列類型:- dna:原原本本的DNA序列
- dna_rm(hard_mask):利用
RepeatMasker工具將重復(fù)區(qū)域和低復(fù)雜度區(qū)域標(biāo)記成一串N - dna_sm(soft_mask):所有重復(fù)區(qū)域和低復(fù)雜度區(qū)域替換為小寫的堿基
第四部分
<id type>是基因組類型:- chromosome:染色體序列
- nonchromosomal:存儲(chǔ)目前沒有比對(duì)到染色體的DNA序列
- seqlevel:一般是scaffolds, chunks 或clones,還未組裝到染色體標(biāo)準(zhǔn)的序列信息
第五部分
<id>是實(shí)際的序列編號(hào),比如屬于哪條染色體或者屬于哪個(gè)scaffold, chunk 或clone最后這個(gè)
fa文件以.gz形式壓縮保存舉個(gè)例子:
人類1號(hào)染色體的基因組序列:
Homo_sapiens.GRCh37.dna.chromosome.1.fa.gz;1號(hào)染色體重復(fù)區(qū)域被標(biāo)記的序列:
Homo_sapiens.GRCh37.dna_rm.chromosome.1.fa.gz或者Homo_sapiens.GRCh37.dna_sm.chromosome.1.fa.gz非染色體序列(比如線粒體基因組、一些短的還未匹配到染色體的contigs):
Homo_sapiens.GRCh37.dna.nonchromosomal.fa.gz或Homo_sapiens.GRCh37.dna_rm.nonchromosomal.fa.gz或Homo_sapiens.GRCh37.dna_sm.nonchromosomal.fa.gz
TOPLEVEL: 這樣的數(shù)據(jù)包含了所有的序列區(qū)域(比如染色體、非染色體以及用大量
N填充的單倍型haplotypes或基因組補(bǔ)丁patches區(qū)域),比如:Homo_sapiens.GRCh37.dna.toplevel.fa.gzPRIMARY ASSEMBLY: 在上面toplevel的基礎(chǔ)上,排除了單倍型或基因組補(bǔ)丁區(qū)域。如果看到目錄中不存在這種類型的數(shù)據(jù)(比如這里果蠅就沒有,而人類的基因組數(shù)據(jù)就存在),那么就意味著基因組不包含單倍型或基因組補(bǔ)丁區(qū)域,其實(shí)也就是等同于TOPLEVEL
SPECIAL CASES: 有些染色體會(huì)存在另外的單倍體型,那么這些也會(huì)標(biāo)記出來,而且里面僅包含單倍體型序列,如:
Homo_sapiens.GRCh37.dna_rm.chromosome.HSCHR6_MHC_QBL.fa.gz或Homo_sapiens.GRCh37.dna_rm.chromosome.HSCHR17_1.fa.gz
因此,如果要分析果蠅的數(shù)據(jù),就可以選擇下載這個(gè):ftp://ftp.ensembl.org/pub/release-98/fasta/drosophila_melanogaster/dna/Drosophila_melanogaster.BDGP6.22.dna_sm.toplevel.fa.gz
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com
