Ensembl 簡介及其參考基因組

網(wǎng)址:https://asia.ensembl.org/index.html

  • Ensembl是一個(gè) 脊椎動(dòng)物 基因組的基因組瀏覽器,支持比較基因組學(xué)、進(jìn)化、序列變異和轉(zhuǎn)錄調(diào)控的研究。Ensembl注解基因,計(jì)算多種校準(zhǔn),預(yù)測調(diào)節(jié)功能和收集疾病數(shù)據(jù)。

Ensembl 的特點(diǎn):
1、物種種類齊全。
2、提供物種基因組序列。
3、有比對(duì)工具:BLAST, BLAT, BioMart和變異效應(yīng)預(yù)測器(VEP)。

Ensembl提供搜索功能,種類包括Gene, Transcript, Variant, Phenotype, Structural variation, Somatic mutation, Protein families, Gene tree, GenomicAlignment, Translation, Protein domains, Clones and regions, Marker.

image

提供物種數(shù)據(jù)的大類:
Protein-coding and non-coding genes, splice variants, cDNA and protein sequences, non-coding RNAs.
其中

  • FASTA files for genes, cDNAs, ncRNA,
  • proteins GTF or GFF3 files for genes, cDNAs, ncRNA, proteins

其中cDNA是互補(bǔ)DNA,是由mRNA反轉(zhuǎn)錄來的DNA,不包括ncRNA.雙鏈DNA縮寫是dsDNA,ncRNA表示非編碼RNA.

CDS是編碼序列(Coding sequence)的縮寫。DNA轉(zhuǎn)錄成mRNA,mRNA經(jīng)剪接等加工后翻譯出蛋白質(zhì),所謂CDS就是與蛋白質(zhì)序列一 一對(duì)應(yīng)的DNA序列

image
  • primary_assembly 結(jié)尾的文件,該文件內(nèi)部有完整的基因組信息(包括每條染色體的序列信息),一般做比對(duì)選它。
  • alt 結(jié)尾的參考基因組文件,這個(gè)文件的alt代表:Alternate loci,不同的單倍體型,里面有不同的HLA序列,基因在一條染色體上的組合稱單元型(haplotype ,又稱單倍型)
  • chromosome+數(shù)字 結(jié)尾的代表每個(gè)染色體的序列信息
  • 以toplevel結(jié)尾的文件,其內(nèi)部包括了很多該物種的亞型,或者說包括了大量的變異信息,其余很多部分都是冗余的,不建議做比對(duì)時(shí)使用,否則建索引就很慢。
  • dna_rm: 該類序列為dna repeat masker序列,即屏蔽重復(fù)序列,該序列中,所有重復(fù)序列均會(huì)變成N;在做比對(duì)時(shí)不建議使用
  • dna_sm: 該類序列為dna soft masker序列,即軟屏蔽重復(fù)序列,該類序列中,所有重復(fù)序列均會(huì)變成小寫;有些軟件在比對(duì)時(shí)可以進(jìn)行大小寫轉(zhuǎn)換,有些則不會(huì)
image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容