橫看成嶺側(cè)成峰,基因組文件有啥不同?

劉小澤寫于19.12.28
我又回來啦!在馬來西亞瘋狂放松一周,體驗(yàn)了當(dāng)?shù)氐娘L(fēng)土人情。
回來繼續(xù)學(xué)習(xí)~感覺活力滿滿

這一篇的目的是:以果蠅為例,探索Ensembl數(shù)據(jù)庫關(guān)于物種基因組的不同版本區(qū)別,內(nèi)容將會(huì)很好理解

正文開始

直接瀏覽器搜索:drosophila melanogaster genome ensembl 就會(huì)進(jìn)到Ensembl的果蠅數(shù)據(jù)庫(或者直接使用Ensembl的亞洲鏡像數(shù)據(jù)庫:https://asia.ensembl.org/Drosophila_melanogaster/Info/Index

然后打開第一個(gè)紅色箭頭的位置,點(diǎn)進(jìn)去,就會(huì)跳到基因組fa存儲(chǔ)位置。首先不了解他們組織結(jié)構(gòu)的話,需要閱讀一下他們的README文檔

image

查看README文檔

然后會(huì)發(fā)現(xiàn)這個(gè)數(shù)據(jù)庫的邏輯非常清晰:

  • FILE NAMES
    首先規(guī)定了文件命名規(guī)律:<species>.<assembly>.<sequence type>.<id type>.<id>.fa.gz

    第一部分<species>是物種名;第二部分<assembly>是基因組版本號(hào);

    第三部分<sequence type>是序列類型:

    • dna:原原本本的DNA序列
    • dna_rm(hard_mask):利用RepeatMasker工具將重復(fù)區(qū)域和低復(fù)雜度區(qū)域標(biāo)記成一串N
    • dna_sm(soft_mask):所有重復(fù)區(qū)域和低復(fù)雜度區(qū)域替換為小寫的堿基

    第四部分<id type>是基因組類型:

    • chromosome:染色體序列
    • nonchromosomal:存儲(chǔ)目前沒有比對(duì)到染色體的DNA序列
    • seqlevel:一般是scaffolds, chunks 或clones,還未組裝到染色體標(biāo)準(zhǔn)的序列信息

    第五部分<id>是實(shí)際的序列編號(hào),比如屬于哪條染色體或者屬于哪個(gè)scaffold, chunk 或clone

    最后這個(gè)fa文件以.gz形式壓縮保存

    舉個(gè)例子:

    • 人類1號(hào)染色體的基因組序列:Homo_sapiens.GRCh37.dna.chromosome.1.fa.gz ;

    • 1號(hào)染色體重復(fù)區(qū)域被標(biāo)記的序列:Homo_sapiens.GRCh37.dna_rm.chromosome.1.fa.gz或者Homo_sapiens.GRCh37.dna_sm.chromosome.1.fa.gz

    • 非染色體序列(比如線粒體基因組、一些短的還未匹配到染色體的contigs):Homo_sapiens.GRCh37.dna.nonchromosomal.fa.gzHomo_sapiens.GRCh37.dna_rm.nonchromosomal.fa.gzHomo_sapiens.GRCh37.dna_sm.nonchromosomal.fa.gz

  • TOPLEVEL: 這樣的數(shù)據(jù)包含了所有的序列區(qū)域(比如染色體、非染色體以及用大量N填充的單倍型haplotypes或基因組補(bǔ)丁patches區(qū)域),比如:Homo_sapiens.GRCh37.dna.toplevel.fa.gz

  • PRIMARY ASSEMBLY: 在上面toplevel的基礎(chǔ)上,排除了單倍型或基因組補(bǔ)丁區(qū)域。如果看到目錄中不存在這種類型的數(shù)據(jù)(比如這里果蠅就沒有,而人類的基因組數(shù)據(jù)就存在),那么就意味著基因組不包含單倍型或基因組補(bǔ)丁區(qū)域,其實(shí)也就是等同于TOPLEVEL

  • SPECIAL CASES: 有些染色體會(huì)存在另外的單倍體型,那么這些也會(huì)標(biāo)記出來,而且里面僅包含單倍體型序列,如:Homo_sapiens.GRCh37.dna_rm.chromosome.HSCHR6_MHC_QBL.fa.gzHomo_sapiens.GRCh37.dna_rm.chromosome.HSCHR17_1.fa.gz

因此,如果要分析果蠅的數(shù)據(jù),就可以選擇下載這個(gè):ftp://ftp.ensembl.org/pub/release-98/fasta/drosophila_melanogaster/dna/Drosophila_melanogaster.BDGP6.22.dna_sm.toplevel.fa.gz


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容